这个大模型技术如雨后春笋般涌现的时代，如何将技术转化为真实的生产力，已经成为行业的必答题。

2025年11月13日，百度在北京国家会议中心举办了一年一度的百度世界大会，雷科技也受邀参加了本次活动。与往年强调技术突破不同，今年的核心主题是“效果涌现”，李彦宏认为，健康的AI产业结构应该是“倒金字塔”形态，应用层应该远大于模型和芯片层。

（图源：百度）

在最新发布的一系列AI原生应用和解决方案中，百度的聚焦点不再是如何让模型变得更聪明，而是如何让AI走出实验室，深入产业实际，去完成更多具体的工作，为企业和个人创造可感知的效果。

所谓“内化AI能力，让智能从成本变成生产力”，就是这个道理。

文心5.0，原生全模态

在过去的一年里，我们见证了大模型的快速迭代。

参数量从千亿级迈向万亿级，能力也从单模态拓展至多模态。AI似乎无所不能，既能理解文字，也能看懂图片，还能听懂声音，但一个根本性的问题随之而来：AI是真的理解了这个多姿多彩的世界，还是仅仅学会了将不同能力的插件拼接在一起？

这就像一个只懂语言的人，通过外挂翻译器去理解图像，其理解深度终究有限。真正的智能，应当是像人一样，生来就能同时运用视觉、听觉、语言去感知和思考。

在今天的百度世界大会2025上，百度发布的文心大模型5.0，给出的正是后一种答案。

（图源：百度）

那么，什么是“原生全模态”？

百度表示，业界多数多模态模型采用的是后期融合技术，即先分别训练语言、视觉等模型，再将它们“粘合”起来。而文心5.0从训练之初，就采用统一架构，将文本、图像、音频、视频等数据融合在一起进行学习。

这意味着，它不是在学习图像，而是在一开始就同时学习语言和图像的底层关联。这种原生的能力，使其能实现更深层次的跨模态理解与生成。

在高达2.4万亿的庞大参数规模下，文心5.0采用了超稀疏混合专家（MoE）架构，推理时激活参数低于3%，实现了性能与效率的兼顾。在超过40项权威评测中，其语言与多模态理解能力已追平Gemini-2.5-Pro、GPT-5-High等顶级模型，而图像与视频生成能力更是达到了专业级水准。

（图源：百度）

可以说，如果说之前的多模态是“组合创新”，那么文心5.0则开启了“原生融合”的新范式。目前，文心大模型5.0 Preview已同步上线文心App，用户可直接体验；开发者和企业用户也可通过百度千帆大模型平台，调用文心大模型5.0 API 服务。

值得一提的是，今天，百度还正式发布了新一代昆仑芯和超节点产品天池。

硬刚GPT-5！百度文心5.0发布，李彦宏亮出“原生”王牌