计算机行业周报:英伟达推出首款开源人形机器人模型I SAAC GR00T N1 OPENAI发布音频模型
美国时间3 月18 日,英伟达在美国圣何塞举办GTC(GPU 技术大会) 。而在此次GTC 大会上, 英伟达不仅发布了Blackwell GPU、硅光交换机、机器人模型等一系列新产品。
黄仁勋还在演讲中反复传递出一个信号:随着AI 行业在模型训练上的整体需求放缓,再加上DeepSeek 在模型推理上所做创新,AI 推理时代即将到来。
作为GTC 的重头戏,黄仁勋在演讲中宣布推出数据中心AIGPU 的新一代产品——NVIDIA Blackwell Ultra GPU。此前市场传言英伟达去年年底计划将Blackwell Ultra 改名为B300 ,但根据现场公布的结果,官方保留了原始命名。
Blackwell Ultra GPU 相比于上一代B200GPU 性能提升了50%,约为15P FLOPS(基于低精度的四位浮点数格式FP4 标准),内存上则搭载了业内最先进的HBM3E,从192GB 升级到了288GB。
与A100、H100 等多款主要用在AI 模型预训练的产品不同,英伟达此次明确定位Blackwell Ultra“专为AI 模型推理打造”(AI-Reasoning),同时兼顾"训练和多场景AI 应用的高效性"。GB300 NVL72 和HGX B300 NVL16(8GPU)两款系统产品也在提升计算能力和内存容量的同时,专为复杂AI 推理任务做了优化。以HGX B300 NVL16 为例,相较于上一代Hopper 架构,这款新品在大模型推理速度上提升了11 倍。
与去年GTC 密集发布各种新产品的节奏不同,黄仁勋今年在公布新品前,在现场花了更多时间科普“Agentic AI”的概念,以及AI 推理带来的巨大改变。在现场展示的AI 技术发展路线图中,黄仁勋按照“Generative AI(生成式AI)、Agentic AI(智能体)、Physical AI(具身AI)”三个阶段的进化路线,将Agentic AI 描述为AI 技术发展的中间态。
相比于生成式AI 的主要应用——语言大模型与聊天机器人——主要聚焦于生成文本、图像内容,Agentic AI 更进一步,能够理解任务、进行复杂推理、制定计划并自主执行多步骤操作,目前业内热议的数字员工等AI Agent 即为相关应用。
英伟达在2025 年GTC 大会上推出名为Isaac GR00T N1 的全球首个人形机器人推理和技能基础模型,标志着通用机器人时代的到来。GR00T N1 模型是开源且可完全定制,采用双系统架构:系统1 是快速思考的动作模型,类似于人类的反射或直觉;系统2 是慢速思考模型,用于长语境任务规划。系统2 通过视觉语言模型对环境和指令进行推理以规划行动,系统1 则将这些计划转化为精确的机器人动作。该模型能够轻松应对多种常见任务,如抓取、移动物体等,并可应用于材料处理、包装和检查等多个领域。
AI 应用: 文心一言搜索访问量环比+12.03%,OpenAI 发布新一代音频模型
3 月21 日,OpenAI 发布音频模型,实现了新的 SOTA 水平,在准确性和可靠性方面优于现有解决方案——尤其是在涉及口音、嘈杂环境和不同语速的复杂场景中。这些改进提高了语音/文本转录应用的可靠性,新模型特别适合客户呼叫中心、会议记录转录等用例。基于新的 API,开发人员第一次可以指示文本转语音模型以特定方式说话,为语音智能体开启新的定制化维度,可以实现各种定制应用程序。
OpenAI 于 2022 年推出了第一个音频模型,并一直致力于提高这些模型的智能性、准确性和可靠性。借助新的音频模型及 API,开发人员可以构建更准确、更强大的语音转文本系统以及富有表现力、个性十足的文本转语音声音。具体来说,新的 gpt-4o-transcribe 和 gpt-4o-mini-transcribe模型与原始 Whisper 模型相比改进了单词错误率,提高了语言识别和准确性。gpt-4o-transcribe 在多个既定基准中展示了比现有 Whisper 模型更好的单词错误率 (WER) 性能,实现了语音转文本技术的重大进步。这些进步源于强化学习创新以及使用多样化、高质量音频数据集进行的大量中期训练。
OpenAI 还推出了一个可操纵性更好的新 gpt-4o-mini-tts模型。在其之上,开发人员第一次可以指导模型,不仅可以指导模型说什么,还可以指导模型如何说,从而为大量用例提供更加定制化的体验。该模型可在 text-to-speech API中使用。不过目前,这些文本转语音模型仅限于人工预设的声音,且受到 OpenAI 的监控。
OpenAI 的新音频模型基于 GPT?4o 和 GPT?4o-mini 架构,并在专门的以音频为中心的数据集上进行了广泛的预训练,这对于优化模型性能至关重要。这种有针对性的方法可以更深入地了解语音细微差别,并在与音频相关的任务中实现出色的性能。在模型训练中,OpenAI 增强了提炼技术,使知识从最大的音频模型转移到了更小、更高效的模型上。利用先进的自我博弈方法,OpenAI 的提炼数据集有效地捕捉了真实的对话动态,复制了真正的用户助手交互,这有助于小型模型
提供出色的对话质量和响应能力。
OpenAI 的语音转文本模型集成了大量强化学习,将转录准确性推向了最先进的水平。据称,这种方法大大提高了精度并减少了幻觉,使语音转文本解决方案在复杂的语音识别场景中具有极强的竞争力。
AI 融资动向: 预计今年最强IPO CoreWeave,估值一年内从20 亿美元飙升至230 亿美元
消息显示,由英伟达支持的云计算公司CoreWeave 最早于本周在纳斯达克上市,该公司计划筹集40 亿美元,市值达到350 亿美元(2530 亿人民币)左右,这使其将成为近年来最大的IPO 之一。不仅如此,它还是这轮生成式AI 热潮的最大受益者之一。数字总是能给出最直观的答案, 比如,CoreWeave 的估值一年内从20 亿美元飙升至了230 亿美元,再比如,三年内其收入增长了近120 倍,去年同比增长737% 。这样的标签和处境,也让CoreWeave 在公布IPO 消息的第一时间就备受业界关注。
截至2024 年底,CoreWeave 在全球部署了32 个数据中心,这些数据中心共运行了超过25 万个GPU,而在2023 年他们仅有10 个数据中心。2024 年其员工数也迎来了暴涨,从2023 年的200 多人升至了881 人。值得一提的是,CoreWeave 的存在让人们相信高额的资本支出正在带来高收入和高回报。
比如CoreWeave 在2024 年的8.63 亿美元折旧帮助释放了19亿美元的收入。再比如,按第四季度的年化运营率计算,即使受到15 亿美元折旧成本的影响,该公司的营业利润为4.51 亿美元,营收为30 亿美元。
2023 年初,当英伟达芯片成为AI 市场唯一的硬通货时,英伟达选择在四年内花费13 亿美元从 CoreWeave 租用自己的芯片,文件显示,这项交易让英伟达成为2023 年仅次于微软的第二大客户。也是在同期,英伟达参与了CoreWeave 的B轮融资,金额为1 亿美元,据招股书显示,这笔交易让英伟达拥有了CoreWeave 5.97%的股份。
同样这家企业也离不开微软的帮助,2023 年开始,微软就与CoreWeave 达成了合作,主要围绕AI 算力需求展开。双方签署了多份合同,总价值达170 亿美元,涵盖2023 年至2030年的GPU 服务器租赁服务。这也导致2024 年,CoreWeave 收入的62%仅来自一家公司:微软。尽管微软每年也在自己的云基础设施上花费数百亿美元,但微软一直在从CoreWeave租用闲置的GPU 容量来补充其Azure 云。
投资建议
AI 的新一波浪潮是物理AI,其关键环节是让AI 理解物理定律,人形机器人则是当下最重要的载体。传统的工业机器人
大多基于特定的规划执行特定的操作,比如运输和分拣,接近于“自动化设备”。而人形机器人在理想状态下,可以理解物理世界各种物体、语言和文字的含义,并自主规划和决策,英伟达本次推出全球首款开源人形机器人功能模型Isaac GR00T N1,有望进一步促进AI 从虚拟向现实跨越。以机器人为代表的AI 应用有望迎来阶跃式突破。建议关注临床 AI 产品成功落地验证的嘉和美康( 688246.SH ) 、以AI 为核心的龙头厂商科大讯飞( 002230.SZ ) 、芯片技术有望创新突破的寒武纪(688256.SH)、高速通信连接器业务或显著受益于 GB200放量的鼎通科技(688668.SH)、已与Rokid 等多家知名AI眼镜厂商建立紧密合作的亿道信息(001314.SZ)、加快扩张算力业务的精密零部件龙头迈信林(688685.SH)、持续加码高速铜缆的泓淋电力(301439.SZ)、新能源业务高增并供货科尔摩根等全球电机巨头的唯科科技(301196.SZ)等。风险提示
1)AI 底层技术迭代速度不及预期。2)政策监管及版权风险。3)AI 应用落地效果不及预期。4)推荐公司业绩不及预期风险。