首页新鲜数据“大模型”系列(5):大模型研究框架(2025)

“大模型”系列(5):大模型研究框架(2025)

时间2025-04-21 12:21:50浏览4

“大模型”系列(5):大模型研究框架(2025)

大模型发展回顾:以Transformer为基,Scaling law贯穿始终2017年谷歌团队提出Transformer架构,创造性推动注意力层以及前馈神经网络层的发展,加速提升模型性能。2018–2020年是预训练Transformer模型时代,GPT-3以1750亿参数突破大规模预训练的可能性界限,而SFT及RLHF等技术帮助模型加速对齐人类价值观。此后随着训练侧Scaling Law描述的幂律关系出现收益递减,叠加高质量文本数据或逐步被AI耗尽,推理模型开始进入人们视野;以OpenAI发布o1-preview将AIME 2024的模型回答准确率从GPT4o的13.4%提升至56.7%,模型维持加速迭代更新。
国内大模型进展:行业充分竞争,降本提效为主旋律资源有限的条件下,预计低成本高性能追平海外SOTA为2025年国产大模型的主题。我们以DeepSeek、豆包、阿里千问为例,1)DeepSeek-R1/V3依靠创新的降本提效手段,核心旨在资源有限的条件下,极大提升GPU在计算/通信上的利用率。2)豆包大模型在2024年下半年发力,月活数据冲上全球第二和国内第一;同样在降本增效范式上依靠稀疏MoE架构实现小参数高性能;3)阿里Qwen引领国产开源模型标杆的同时,依靠强化学习范式推出的QwQ-32B已登顶全球最强开源模型,以32B参数模型追平DeepSeek-R1满血模型性能,小参数高性能持续成为主旋律。
海外大模型进展:资源头部集中,押注AGI
算力充沛条件下,资源倾斜押注AGI。1)OpenAI:推理模型o1、多模态模型Sora均实现了行业引领,2025年来CEO Altman多次提及将发布OpenAI的首款Agent,且2025年也会是Agent爆发的元年;2)Google:前瞻布局原生多模态Gemini,2024年底发布多款Agent产品,同时布局轻量化模型Gemma抢占端侧生态;3)Meta:2024年12月Llama3.3以70B参数实现Llama3.1 405B的性能;基于Meta Live已实现实时语音交互、跨设备协作能力,发力通用智能体;4)2024年10月Claude3.5 Sonnet升级新增computer use能力,让Claude像人一样使用电脑;此外,2025年抢先发布混合推理模型Claude-3.7-sonnet。
模型未来研判:投注后训练+算法大幅优化,低成本落地+实现AGI为终极目标模型在架构以及pre-training——post training——落地层面均迎来加速变革。1)模型架构层面,MoE与Transformer融合当前逐步成为主流架构,2024年全球MoE大模型数量呈爆发增长态势;2)pre-training层面,高质量数据或逐步耗尽的背景下,合成数据已然成为数字经济时代的“新型石油”,继续支撑模型的训练迭代;3)post-training方面,推理模型性能飞跃的关键也逐步转向该阶段阶段RL计算量和测试推理阶段的思考时间,同时DeepSeek带动了纯强化学习的新范式;4)模型落地层面,DeepSeek带动模型加速低成本部署趋势,通过MLA等低秩分解的方式实现显存占用的大幅降低,实现本地化部署DeepSeek-R1-32B及以下模型仅需要消费级显卡,大模型落地迎来真正意义上的元年。
大模型技术稳步提升,推动AGI时代加速到来,以大模型为底座的技术迭代或将持续驱动国产AI估值迎来重塑,维持计算机行业“推荐”评级。
相关公司
1)算力:①云计算:中国电信、中国移动、中国联通、金山云、优刻得、青云科技、深信服;②IDC:云赛智联 、光环新网、奥飞数据、数据港、润泽科技、科华数据、大位科技、ST鹏博、ST华通、ST证通;③芯片:海光信息、寒武纪;④服务器/一体机:中科曙光、浪潮信息、华勤技术、云从科技、恒为科技、中国软件国际、神州数码、烽火通信、朗科科技;⑤交换机:星网锐捷、紫光股份、中兴通讯;⑥液冷:飞荣达、英维克、申菱环境、高澜股份;⑦电源:欧陆通、麦格米特、中国长城; ⑧柴油发电机:科泰电源、泰豪科技、潍柴重机、苏美达、动力新科、玉柴国际;⑨边缘计算:网宿科技、顺网科技、中科创达、云天励飞。
2)AI应用:①2G:中国软件、太极股份、深桑达、电科数字、广电运通、数字政通、中科星图、新点软件、国投智能、云从科技、税友股份、航天信息、拓尔思、能科科技、博思软件、华宇软件、通达海、金桥信息;②2B:金蝶国际、用友网络、泛微网络、致远互联、卫宁健康、创业慧康、广联达、石基信息、明源云、新致软件、汉得信息、鼎捷软件、赛意信息、莱斯信息、四川九州、东方财富、同花顺、恒生电子、新开普、佳发教育、拓维信息、远光软件、润和软件、索辰科技、中望软件、百融云、托普云农、焦点科技、盛视科技;③2C:金山办公、三六零、万兴科技、福昕软件、合合信息。
3)IT服务:宇信科技、京北方、中科软、软通动力、中科创达、新炬网络、天玑科技。
风险提示:大模型产业发展不及预期;中美博弈加剧;宏观经济影响下游需求;市场竞争加剧;相关标的公司业绩不及预期;国内外公司并不具备完全可比性;对标的相关资料和数据仅供参考;数据安全风险。

本文来源转载:

电力设备新能源行业周报:全球首场人形机器人半马落幕 大小脑、感知及能源管理成重点 银行业资负跟踪:资金平稳 等财政加码