新智元报道
编辑:编辑部
十年间,从AlphaGo到AGI曙光初现,AI一路狂飙。新智元十周年峰会现场,百度CTO王海峰倾力分享,AI正加速解锁「全面」与「通用」的双重突破。值得一提的是,在百度内部,超45%每日新增代码由AI自动生成。
2025年,AI如同一颗「超新星」,穿越时间和空间的界限,点燃了文明的无限可能。
它,不再是冰冷的算法,而是化作宇宙的脉动,成为「第四次工业革命」的星际引擎。
过去9个月,我们见证了,大模型飞速进化,超级应用大批涌现。
年初,o3横空出世,标志着LLM正式进入「推理时代」。
随后,谷歌Gemini 2.5 Pro、xAI Grok 4、OpenAI GPT-5等国内外大模型相继诞生,再次为Scaling Law输血续命。
现如今,AI的智能水平,已达到了人类博士级别。
史上第一次,OpenAI和谷歌Gemini 2.5 Deep Think,双双夺下了国际奥赛IMO 2025冠军。
上半年,百度发布了文心大模型4.5、文心大模型X1、文心大模型4.5 Turbo及文心大模型X1 Turbo四款模型。
半个月前,谷歌Nano Banana发布后瞬间成为顶流,一句话P图,被全网整出各种花活儿。
老照片修复、等距图标位置、3D手办等,全部拿捏。甚至,有网友直呼,「PS终结者来了」。
这一年,AI的传奇仍在续写,而我们,都是这场星际旅程的见证者。
在新智元十周年庆典上,百度首席技术官、深度学习技术及应用国家工程研究中心主任王海峰以「通用人工智能的曙光」为题,献上了一场连接历史与未来的思想盛宴。
AI十年蝶变
从AlphaGo到大模型爆发
演讲伊始,王海峰便将思绪引向了十年前——2015年。
这一年,不仅是人工智能发展的重要转折点,更是新智元意义非凡的起点。
正是在2015年,新智元正式成立,并逐渐成长为广大AI从业者与爱好者,关注行业动态、把握技术前沿的核心平台。
王海峰回忆道,「早在新智元成立之前,杨静女士就建了一个群叫『静沙龙』,当时我加入了这个群,从中了解到一些行业信息」。
有了新智元以后,越来越多的人从这个平台了解到行业的发展。
可以说,在过去波澜壮阔的十年里,新智元真正见证了AI领域的飞速跃进。
同样在这一年,AI如汹涌浪潮般席卷全球,开启了一个全新的智能时代。
这是首次,AI在没有让子的情况下完胜,打破了此前业内「AI十年内无法战胜人类围棋手」的预言。
图右:2016年,AlphaGo击败世界顶尖「九段」棋手李世石,引发全世界轰动
紧接着11月,谷歌TensorFlow正式开源。
自此,它成为ML框架的基石,支撑起整个深度学习生态的蓬勃发展。
12月,奥特曼、马斯克等人一同创办了OpenAI,如今已经成为改变全球AI格局的巨头。
同样在这一年,何恺明等人提出的ResNet(残差神经网络),在ImageNet挑战赛上成功夺冠。
论文地址:https://arxiv.org/pdf/1512.03385
这些里程碑式的事件,将AI从抽象概念变成可触达的现实。
而在中国,百度作为AI领域的先行者,也在2015年取得了丰硕的成果:
自研深度学习框架,并于2016年开源
率先将大规模神经网络机器翻译推向大众,领先谷歌超一年
小度系列的前身度秘上线
自然语言处理、搜索、语音、视觉等领域,全面拥抱深度学习
拉长历史的镜头,人工智能的探索,早于AI一词的诞生。
早在1940年代计算机问世之初,人类便开始播下了AI的种子——1947年,机器翻译的构想首次提出。
同期,神经网络雏形与图灵测试如星火初现。1956年,达特茅斯会议上,人工智能这一术语正式诞生。
从此,AI的航程跌宕起伏。每当新技术涌现时,人们的期待如热潮高涨;若未达预期时,则又跌入谷底。
然而,近十年,这条AI发展曲线一路上扬,原因显而易见。
LLM等前沿技术的突破如泉水般涌出,落地应用如繁花般绽放,真正展现了AI在人类生产实践中的价值。
如果用一句话解释,人工智能是什么?
王海峰给出的定义是,「人工智能的目标是——模拟、延伸和扩展人的智能」。这不仅仅是技术追求,更是人类对自身潜力的无限探索。
七十多年的发展,AI经历了四代技术演进:人工规则、统计机器学习、深度学习、大模型。
大模型与深度学习的差别,在于其超强「通用性」。
一个基础大模型完成训练后,就可以解决不同场景的问题。甚至,只需微调就能适配新的场景。
这种从「人工」到「自动」,从「算法通用」到「模型通用」的飞跃,让AGI的曙光愈发清晰。
AGI曙光已现,全面觉醒
AGI的定义因人而异,但王海峰认为,「技术的通用性」和「能力的全面性」是两个核心。
换句话说,当AI技术越来越通用,能力越来越全面,它就越接近AGI。
通用性
「通用性」,可以从任务、语言、模态,以及场景等维度来阐释。
· 跨任务
十年前,百度推出度秘(Duer)时,后台依赖多种NLP技术,如理解、交互等。
彼时,NLP领域细分无数子方向——词法、句法、语义、识别、抽取、摘要、问答等等,皆需专属的算法与模型。
如今,LLM如同一把万能的钥匙,一个模型即可解决所有任务,且效果超越以往,展现出无与伦比的任务通用性。
· 跨语言
自然语言,是人类「沟通」与「思维」的载体,灵活多义,且有各种歧义,分析起来比较困难。
形式语言如Python、C++等结构明确,一段正确编写的形式语言,通常可被唯一解释、编译和执行。
如今,LLM就像一个黏合剂,将自然语言与形式语言融于一体。
一个模型即可理解中文、英文等自然语言。同时,也可生成可执行的代码,架起了从「思考」到「执行」的桥梁。
至今,Karpathy账号上方还Pin着这句话:英文是最热门的编程语言
· 跨模态
过去,语言、语音、视觉领域的研究各自为战,鲜有交集。
而多模态大模型的出现,真正将这些领域统一,大幅提升了模型的通用性。
以谷歌Gemini 2.5 Pro为代表,一个原生多模态模型,可同时处理文本、图像、音频、视频、代码等多种信息形式。
再来看百度,最新数字人技术,基于文心4.5 Turbo,模型不仅能输出剧本、台词,还能协调语音、表情、动作等多模态内容。
它像一位真正的导演一样,同时兼顾驱动多模态的协同。
由此,数字人的「神、形、音、容、话」才能达到高度的统一。
一个案例中,数字人老罗直播间卖鸡蛋,语言、动作、神情,甚至与助手的配合,做到了比真人的表现还好。
· 跨场景
百度飞桨深度学习框架+文心系列模型,已广泛应用于搜索、翻译、医疗、金融、工业等多个领域。
场景通用性,覆盖了各行各业。
全面性
AI的全面性,是模拟、延伸和扩展人类智能的关键。
人类智能涵盖了诸多方面,如感知、推理、创造等等,每个人都能列出一长串描述智能的词语。
在王海峰看来,理解、生成、逻辑、记忆是其中的核心基础能力,这四项能力越强,越接近通用人工智能。
它们如同AI的四根支柱,这些能力增强的同时,其他能力也会随之提升。
就以文心X1 Turbo为例,让它以「一条中轴线,串起北京的历史」为主题进行创作。
它首先会理解需求,然后梳理文章逻辑结构、挖掘相关素材,最终输出文采斐然的文章。
其思考过程清晰可见,展现了理解、逻辑、记忆、生成的完美协同。
随着这四大基础能力的增强,AI综合实力会跟着「水涨船高」,我们离真正的AGI也就越来越近了。
每日新增代码,超45%由AI生成
AI之所以具备了「通用性」和「全面性」,背后一定离不开「AI时代的技术栈」——算力、框架、模型和应用。
与传统IT技术栈相比,AI时代以「芯片」为基础的算力层依然是基石,中间新增了两层核心。
以百度为例,昆仑芯片提供算力支持,飞桨与文心构建技术中枢,最终支撑AI的规模化落地。
截至目前,百度生态已凝聚了超2300万开发者,服务了76万家企业,从侧面印证了AI生态的繁荣。
AI,是第四次工业革命的核心驱动力量。
与前三次革命一样,其核心技术都具备了强大的通用性,并逐步实现了标准化、自动化、模块化。
而如今,通过深度学习框架和大模型,AI正加速进入「工业大生产」阶段,推动技术与产业的进步。
在应用层面,王海峰还分享了多个生动的案例:
翻译:百度翻译支持203种语言,兼具审校、润色、术语查证功能
代码生成:百度内部每日新增代码,超45%由大模型生成,且比例持续攀升
还有在工业设计中,AI辅助仿真大幅提升效率;在电力场景中,为南方电网处理海量知识、故障维护,实现创新减负。
演讲尾声,王海峰再次强调,「Scaling Law依然有效,其影响正从预训练、后训练迁移至推理阶段」。
大语言模型潜力持续释放,多模态模型日趋成熟,智能体应用正加速普及。
可以预见的是,AI的技术飞跃,终将推动产业和社会的持续进步。
通用人工智能的曙光已现,它不仅在重塑技术格局, 更在重构人类文明的未来。
这是一场,关乎我们每一个人的变革。