首页新鲜数据AI产业跟踪:阿里发布QWEN2.5-OMNI 多模态方向持续突破

AI产业跟踪:阿里发布QWEN2.5-OMNI 多模态方向持续突破

时间2025-04-07 14:49:07浏览4

AI产业跟踪:阿里发布QWEN2.5-OMNI 多模态方向持续突破

事件描述
3 月27 日,阿里巴巴通义千问发布了新一代端到端多模态旗舰模型Qwen2.5-Omni-7B。这一模型能够实时处理文本、图像、音频和视频等多种输入形式,并通过实时流式响应同时生成文本与自然语音合成输出。
事件评论
实时处理、分析多模态内容,多模态或成大模型进一步突破重点方向。千问团队放出了多个Qwen2.5-Omni 在现实世界多模态场景中的测试案例。例如,在下厨时根据食材提供处理方法;根据收到的音乐提供对原创音乐的意见;根据草图提供绘画构图建议等。我们认为其出色的多模态能力或将驱动大模型在不同场景加速落地。
模型性能出色,多项测评达到领先水平。Qwen2.5-Omni 在多模态理解基准测试OmniBench 上,以56.13%的得分超过了第2 名Gemini 1.5 Pro(42.91%),达到了SOTA表现。同时,Qwen2.5-Omni 在语音理解、图片理解、视频理解、语音生成等领域的测评分数,均领先于专门的Audio 或VL 模型,其中其语音生成测评分数(4.51)达到了与人类持平的水平。
模型尺寸持续缩小,端侧AI 或迎突破。相较于其他千亿量级参数量的大模型,Qwen2.5-Omni-7B 的尺寸使其能部署在大量端侧设备,进而使得全模态大模型在产业上的广泛应用成为可能。如将Qwen2.5-Omni-7B 部署在手机、AI 智能眼镜等端侧设备,或将进一步提升端侧设备的智能化水平,从而驱动端侧AI 产业迎来突破。
随着Qwen2.5-Omni-7B 的开源发布,多模态或将加速发展。Qwen2.5-Omni-7B 作为多模态大模型,可以无缝处理包括文本、图像、音频和视频的各种输入,同时支持流式的文本生成和自然语音合成输出。同时其优异的性能及尺寸或将加速AI 应用及端侧AI 产品落地,进而进一步带动算力需求的爆发。建议关注:1)中国推理算力产业链,重点推荐国内AI 芯片领军寒武纪;2)云服务厂商,重点关注与DeepSeek 合作的相关云厂商,3)IDC,重点关注于腾讯、阿里、字节等大厂合作的IDC。
风险提示
1、AI 技术发展不及预期;
2、下游应用需求不及预期。

本文来源转载:

麦加芯彩(603062):集装箱涂料销售高增 新业务拓展及出海进程加速 互联网电商24Q4业绩总结及25年展望:平台深度聚焦用户+生态 AI引领科技创新