这个大模型技术如雨后春笋般涌现的时代,如何将技术转化为真实的生产力,已经成为行业的必答题。
2025年11月13日,百度在北京国家会议中心举办了一年一度的百度世界大会,雷科技也受邀参加了本次活动。与往年强调技术突破不同,今年的核心主题是“效果涌现”,李彦宏认为,健康的AI产业结构应该是“倒金字塔”形态,应用层应该远大于模型和芯片层。

(图源:百度)
在最新发布的一系列AI原生应用和解决方案中,百度的聚焦点不再是如何让模型变得更聪明,而是如何让AI走出实验室,深入产业实际,去完成更多具体的工作,为企业和个人创造可感知的效果。
所谓“内化AI能力,让智能从成本变成生产力”,就是这个道理。
文心5.0,原生全模态
在过去的一年里,我们见证了大模型的快速迭代。
参数量从千亿级迈向万亿级,能力也从单模态拓展至多模态。AI似乎无所不能,既能理解文字,也能看懂图片,还能听懂声音,但一个根本性的问题随之而来:AI是真的理解了这个多姿多彩的世界,还是仅仅学会了将不同能力的插件拼接在一起?
这就像一个只懂语言的人,通过外挂翻译器去理解图像,其理解深度终究有限。真正的智能,应当是像人一样,生来就能同时运用视觉、听觉、语言去感知和思考。
在今天的百度世界大会2025上,百度发布的文心大模型5.0,给出的正是后一种答案。

(图源:百度)
那么,什么是“原生全模态”?
百度表示,业界多数多模态模型采用的是后期融合技术,即先分别训练语言、视觉等模型,再将它们“粘合”起来。而文心5.0从训练之初,就采用统一架构,将文本、图像、音频、视频等数据融合在一起进行学习。
这意味着,它不是在学习图像,而是在一开始就同时学习语言和图像的底层关联。这种原生的能力,使其能实现更深层次的跨模态理解与生成。
在高达2.4万亿的庞大参数规模下,文心5.0采用了超稀疏混合专家(MoE)架构,推理时激活参数低于3%,实现了性能与效率的兼顾。在超过40项权威评测中,其语言与多模态理解能力已追平Gemini-2.5-Pro、GPT-5-High等顶级模型,而图像与视频生成能力更是达到了专业级水准。

(图源:百度)
可以说,如果说之前的多模态是“组合创新”,那么文心5.0则开启了“原生融合”的新范式。目前,文心大模型5.0 Preview已同步上线文心App,用户可直接体验;开发者和企业用户也可通过百度千帆大模型平台,调用文心大模型5.0 API 服务。
值得一提的是,今天,百度还正式发布了新一代昆仑芯和超节点产品天池。
