
导读:AI 竞争的核心,正从单一模型的参数竞赛,转向覆盖芯片、框架、模型、平台乃至应用的全栈“系统工程”能力比拼。
文/阿里云研究院
站在 2026 年的节点回望,2025 年无疑是人工智能发展史上的关键转折之年,在算力狂欢和参数规模的军备竞赛之后,人工智能技术开始全面扎根,经历了一场从单点突破向系统重构的深刻质变。
这一年,多模态技术走向成熟,超长上下文成为标配,智能体(Agent)开始尝试解决复杂的现实任务。但与此同时,效率瓶颈、路径分歧、成本压力与场景落地等深层次挑战也接踵而至。面对这些挑战,单纯依赖模型参数的堆叠已面临边际效益递减。我们清晰地看到,破解难题的钥匙,在于“系统工程”——即从底层基础设施到上层应用范式的全链路协同创新。不仅要追求更聪明的模型,更要构建更高效的算力、更严谨的逻辑、更安全的防线以及更自主的执行力。
正是在这种系统工程思维的指引下,阿里云对 AI 技术栈进行了全方位的重构与升级。在模型架构的底层革新、基础设施与训推体系的工业化升级、内生安全与指令遵循的可信构建、多模态感官的全面打通,以及智能体自主认知的范式跃迁等五大维度取得了系统性突破。本文将深度复盘这些关键技术进展,勾勒中国科技企业如何以系统工程思维,推动 AI 从技术验证迈向规模化产业应用的深水区。
架构重塑:打破认知的物理瓶颈
模型架构是 AI 的大脑结构,它定义了信息处理的效率上限。随着大模型进入长序列、多任务并行的深水区,传统架构在处理海量信息时面临着计算复杂度呈平方级增长、有效信息被淹没等本质难题。阿里云在 2025 年的一系列架构创新,旨在从根源上释放模型的认知潜力。
告别“注意力沉没”,重构信息筛选逻辑。注意力机制是 Transformer 的核心,但在处理长序列时,传统模型普遍存在“注意力沉没”现象——即模型倾向于过度关注序列开头的几个词,导致后续关键信息被忽略。这不仅浪费了宝贵的算力,更限制了模型对长文档的理解深度。
阿里云在 NeurIPS 2025 发表的研究中提出了门控注意力机制。它如同给模型的“眼睛”装上了一个智能且动态的“瞳孔”,能在计算注意力时实时过滤噪声。数据显示,该机制将平均每层对初始 Token 的无效关注比例从46.7% 压缩至4.8%。这不仅大幅提升了计算的有效性,更让模型在长文档分析、代码库级编程等场景下的性能提升超过 27%。
与此同时,为了解决超长序列带来的计算负担,阿里云在 Qwen3-Next 等模型中引入了线性注意力机制。通过数学分解将计算复杂度从二次方降低到线性,使得模型在处理数万乃至数十万 Token 时,内存占用和时延显著下降,使处理整本书级别的长文本变得既快又省。
释放 MoE 的专精潜力。混合专家模型(MoE)是提升模型容量的关键路径,但如何让成百上千个专家高效分工 一直是行业难题。传统的负载平衡策略往往为了追求计算均匀,导致专家泛而不精。
阿里云创新性地提出了全局批次负载平衡策略。不再苛求每一个微小批次的数据都平均分配,而是着眼于全局数据的均衡。这种策略赋予了路由器更大的自由度,使得模型内部自发涌现出了清晰的专业化分工。结果显示,这种内生性的专业化,让模型在同等规模下获得了显著更强的知识深度与任务处理能力。
工业化闭环:基础设施、后训练与推理服务的协同进阶
如果说架构是设计图,那么基础设施、后训练与推理服务则构成了 AI 的流水线。只有这三个环节实现工业化级别的协同,AI 才能打破“高成本、低效率”的诅咒,真正实现普惠。
基础设施:从盲测到精益制造与极致调度。在大模型研发与服务的全生命周期中,基础设施的效率直接决定了创新的成本。
在研发侧,试错成本是最大的拦路虎。阿里云研发的 SimAI 高精度训练模拟器,通过无缝接入主流框架,能以 98.1% 的对齐度在单机环境下模拟分布式训练的真实负载。这意味着,在动用昂贵的 GPU 集群前,架构师就能精准预测性能瓶颈,将硬件选型从经验驱动升级为数据驱动。而 DataMan 数据管理器,则实现了从数据源头到训练终点的智能化治理,仅用 60% 的高质量筛选数据即可达到全量训练效果。
在服务侧,资源调度的颗粒度决定了成本的下限。阿里云推出的 Aegaeon 多模型服务系统,是一次对云上资源利用率的极致挖掘。传统系统按请求调度,容易阻塞;Aegaeon 则实现了“Token 粒度”的自动扩缩容,允许 GPU 在生成一个 Token 的微小间隙即刻切换服务对象。结合高效的组件复用与内存管理,该系统将 GPU 资源池的利用率从不足 34% 提升至 48%,在内部部署中显著减少了 GPU 需求,使得同时部署千百个模型成为经济可行的现实。
后训练:赋予模型逻辑与理性。预训练让模型获得了知识,但后训练才是决定其逻辑严密性的关键。阿里云在 2025 年推动了一场从结果导向到过程监督的范式革命。
针对复杂数学与逻辑任务,阿里云引入了过程级价值评估(PRM)。不同于只看最终答案,该机制能对推理链条的每一步进行审核。在 Qwen 数学模型的训练中,这种技术使其能精准定位微小的逻辑偏差,从而在极具挑战的 AIME 2024 大赛中成功解出 21 道难题,证明了 AI 从依靠概率猜测进化为具备严密推导能力的“理科生”。此外,针对 MoE 模型在强化学习中易发散的难题,GSPO(组序列策略优化)与 CHORD 动态协同机制提供了理论完备的解决方案。这些创新平衡了模仿专家与自我探索的关系,确保模型在不断进化的同时,不会遗忘已有的知识,实现了工业级可靠性的能力跃迁。
推理服务:测试时扩展与智能压缩技术的跃升。在模型落地环节,除了成本,性能与准确率的平衡同样关键。阿里云通过一系列算法创新,不仅让模型跑得快,更让模型在推理阶段能多想一步。
针对高精度需求,阿里云引入了测试时扩展(Test-Time Scaling)技术。这就好比让考生在考试时多花时间检查。而通过自截断 N 选优(ST-BoN)算法,模型在生成早期就能通过内部状态预判路径优劣,快速锁定最优解并截断其他路径。这种“早预判、早放弃”的策略,在相同计算成本下可将准确率提升 3-4 个百分点,且无需依赖额外的奖励模型。此外,TeaCache 技术通过缓存视频生成中的冗余计算,实现了 4.41 倍的提速;而 AsymKV 非对称量化技术,则精准区分 Key 与 Value 的敏感度,大幅降低了长文本推理的显存占用。这些技术组合拳,构建了一个高性能、低成本的推理服务体系。
可信基石:内生安全与指令遵循的深度对齐
随着 AI 深入金融、医疗等关键领域,安全与听话变得比聪明更重要。阿里云不再满足于外挂式的过滤,而是深入模型机理,构建内生的免疫系统与精准的执行能力。
内生安全:解密“安全注意力头”与神经元级调控。安全不能是黑盒。阿里云研究团队在深入探究模型内部机理时发现,模型中存在特定的“安全注意力头(Safety Attention Heads)”。这些特殊的结构单元就像电路中的保险丝,在处理潜在风险内容时起着决定性的阻断作用。实验数据表明,仅移除模型中极小比例的关键安全头,就会导致模型的防御成功率大幅下降。基于这一发现,阿里云实现了神经元级的安全调控。
在应用层,Qwen3Guard 安全护栏系统引入了创新的三分类机制(安全、不安全、有争议),打破了非黑即白的僵化审核,让业务方能根据场景灵活定义边界。同时,STAIR 框架赋予了模型三思而后行的内省能力,在回复高危问题前先进行思维链推理,分析用户意图与合规边界,显著提升了面对隐晦攻击时的防御力。
指令遵循:自我博弈下的极致执行。为了让模型更精准地执行复杂指令,阿里云推出了 AutoIF 自我博弈机制。针对代码生成与复杂任务规划中“静态数据不足以覆盖动态错误”的痛点,该机制引入了由模型主导的“生成 – 执行 – 验证”闭环。模型化身出题人与判卷人,通过生成代码并执行单元测试获取反馈,在没有人工标注的情况下自主进化。这种机制让 Qwen 模型在代码生成与复杂任务规划上的表现大幅提升。针对“写一首诗,不包含字母 E,且每行字数相同”这类包含多重限制的苛刻指令,IOPO(输入 – 输出联合偏好优化)技术将优化的视野扩展到了输入 – 输出的联合空间。它迫使模型细致研读输入中的每一个约束条件,解决了长指令中的遗忘与顾此失彼问题。而 SymDPO 则通过符号化演示,解决了多模态少样本学习中的逻辑断层,让模型真正看懂演示中的规律。
全感融合:多模态理解与生成的双向奔赴
2025 年,AI 正在打通感知的任督二脉。阿里云在多模态领域的突破,不仅在于让 AI 看得见、听得清,更在于赋予其专业级的创造力,实现了从感知世界到创造世界的完整闭环。
理解:全双工交互与长时程细粒度感知。在交互体验上,Qwen3-Omni 模型搭载了“Thinker-Talker” 架构,通过 MoE 分工确保理解深度,并利用 Talker 模块实现了毫秒级的实时语音交互。这种全双工能力让 AI 能像人类一样插话、打断、共情,彻底改变了人机对话的节奏。
在深度感知上,针对多图推理和小时级长视频分析的痛点,mPLUG-Owl3 引入了 Hyper Attention(超注意力) 模块。它在模型内部增加“图文交叉注意力”,与文字注意力并行工作,既不占用文字上下文空间,又能精准匹配问题需要的图像信息。这使得模型能轻松看懂 2 小时的电影,并精准回答关于细节的提问。而 LLMDet 则打破了目标检测的类别限制,利用大模型能力实现了对开放世界物体的精准识别,为具身智能提供了敏锐的眼睛。
生成:生产力工具的范式升级。生成不仅仅是娱乐,更是生产力。Wan 视频大模型的升级发布,是视频生成工业化的里程碑。它创新性地采用了“4×8×8 倍时空压缩”技术,统一了文生视频、图生视频与视频编辑任务,且 1.3B 轻量版让消费级显卡也能进行专业创作。针对视频中角色互动的难题,MIMO 空间解耦技术将视频解构为角色、场景、遮挡物等独立层进行编码,终于解决了角色动作僵硬、互动失真的顽疾。在图像与 3D 领域, Qwen-Image 攻克了中文复杂排版(如竖排、双语混排)的难题,ACE++ 框架则实现了基于自然语言的全能修图。AniGS 与 HybridGS 技术的出现,让从单张照片生成可实时驱动的 3D 数字人、从充满动态干扰的视频中重建纯净 3D 场景成为现实。这些技术正在将内容产业从手工作坊推向智能制造,大幅降低了元宇宙与数字孪生的构建门槛。
自主进化:RAG 与智能体的认知跃迁
如果说前述技术是 AI 的器官,那么 RAG(检索增强生成)与智能体(Agent)则是其手脚。2025 年,AI 正在从被动问答走向主动探索,展现出更强的自主规划与社会适应力。
RAG:主动探索、逻辑内化与零成本训练。传统的搜索智能体训练依赖昂贵的商业 API。阿里云提出的ZeroSearch 打破了这一僵局,构建了一个虚拟检索环境,让模型通过自我博弈学会如何搜索、搜什么,将 Search Agent 的训练成本降低了数个数量级。
不仅如此,阿里云还致力于解决模型懂知识但不会用的问题。KG-SFT(知识图谱微调)技术将外部知识的严谨结构内化为模型的思维直觉,显著增强了模型在处理复杂知识时的逻辑操纵能力。同时,StructRAG 与 AirRAG 赋予了模型在推理过程中动态重组信息结构、利用蒙特卡洛树搜索(MCTS)进行战略规划的能力,让 AI 在面对海量碎片信息时不再迷失,而是能进行“三思而后行”的深度决策。
智能体:从工具到具备社会属性的数字劳动力。为了解决长周期调研任务,WebResearcher 提出了一种迭代式研究范式。它将深度调研重构为马尔可夫决策过程,让 Agent 能像人类研究员一样,周期性整理中间报告,清理冗余上下文。这种机制赋予了 Agent 理论上无边界的信息吞吐能力,能连续进行数十轮深度搜索,产出逻辑连贯的万字深度研报。
在移动端,Mobile-Agent-v3引入了“反思者(Reflector)”模块,实时监控屏幕状态,具备了操作失败后的自我纠错能力。更有前瞻性的是 GenSim 社会模拟平台,它通过标准化的“档案 – 记忆 – 行动”架构,支持十万级智能体并发运行。我们在平台上成功复现了信息茧房、群体情绪传播等社会现象。这不仅证明了智能体群体的演化规律,更为政策推演、舆情分析及社会治理提供了一个可控、可复现的数字平行世界。
结语
2025 年,是 AI 技术去伪存真、深蹲起跳的一年。回顾过去这一年的技术演进,我们看到的不仅是单点算法的突破,更是一幅波澜壮阔的系统工程画卷。从底层的注意力机制到上层的社会模拟,从极致的推理优化到内生的安全机理,阿里云正在用全栈技术的系统性整合,回答一个终极命题:如何将简单、经济、可靠的智能能力,真正赋予千行百业。
这其中,开源与普惠始终是贯穿其中的主线。截至目前,千问(Qwen)系列大模型全球累计下载量已突破 10 亿次,衍生模型数量超过 20 万个。这组庞大的数字背后,是一个由全球开发者共同参与、蓬勃生长的创新生态。这证明了真正伟大的技术突破,不仅闪耀于论文,更生长于开放创新、共塑产业升级的广阔实践之中。
本文核心观点与技术细节均提炼自最新发布的《阿里云年度 AI 技术进展》报告,点击 获取报告全文。
发表回复