TMT行业周报(4月第3周):大模型迎来多模态及推理能力双提升
2) OpenAI 连续发布基座模型与推理模型更新。基座模型方面,4 月15 日GPT-4.1 系列三款模型发布,GPT-4.1 在编码、指令遵循与长文本理解任务特定测试集上准确率相较GPT-4o 分别提升21.4pct、10.5pct、6.7pct。我们认为新模型系列的核心亮点在于上下文窗口长度提升至100 万tokens,长文本能力为Agent 工作流中多步骤规划执行与复杂输出格式奠定基础。推理模型方面,4 月17 日OpenAI o3 与o4-mini 同步上线,相较前代o1 与o3-mini 性价比突出,其中o3 在编程、数学、视觉感知等多个维度的基准测试中较o1 实现7%-43%的提升,而API 定价较o1 低33%以上。两款新推理模型首次引入使用ChatGPT 内置工具的能力,以及针对图像深入推理的能力,我们认为其思考与工作方式更类人,多模态能力增强,利好后续基于模型搭建的Agent 应用性能边界拓宽。
3) 豆包大模型家族迎来更新,推理与多模态性能提升。模型性能方面,豆包1.5·深度思考模型在数学、代码与科学领域任务中表现基本齐平OpenAI o1,其同时具备视觉推理能力以对标OpenAI o3。基于模型的推理和视觉能力,火山引擎发布OSAgent 解决方案以帮助企业构建可调用工具的Agent 应用。应用生态方面,根据火山引擎数据,截至2025 年3 月底,豆包大模型日均tokens 调用量已超过12.7 万亿次,为2024 年12月的3 倍;QuestMobile 数据显示,截止到2025 年2 月,国内AI 原生App 活跃用户数达2.4 亿,环比增长89%。我们看好AI 大模型性能边界的突破以及AI 工具使用量的迅速提升带来的应用端爆发机会,建议关注AI Agent、广告营销、影视、游戏等方向的投资机会。
4) 风险提示:大模型及AI 应用进展不及预期。