当前位置: 首页 » 资讯 » 新科技 » 正文

马斯克点赞!深圳17岁高中生破解AI难题

IP属地 中国·北京 编辑:沈如风 时间:2026-03-19 20:16:20

3月16日

埃隆·马斯克在社交平台发文称

Kimi这项工作“令人印象深刻”

(Impressive work from Kimi)

将中国人工智能公司月之暗面

(Moonshot AI)Kimi团队一项新近公开的

技术成果带入更多公众视野

随后

这篇同日发布的技术论文中

排在作者名单第一位的“Guangyu Chen”

因其“17岁高中生”身份

引发社交平台关注

经联系核实得知,这位作者即陈广宇,来自深圳,目前仍是一名在读高中生。陈广宇在接受采访时表示,希望外界少写个人、多写技术和团队,不要为了热点突出个人,这项工作是团队共同完成的成果。

公开论文附录显示,Guangyu Chen、Yu Zhang、Jianlin Su前三位作者均被标注为“同等贡献”(Equal contribution),其余34位作者姓名后均未见这一标注。与陈广宇并列共同一作的另外两人,分别是张宇和苏剑林。前者是Kimi高效模型架构的重要研究者,后者则是大模型领域知名研究者,其提出的旋转位置编码(RoPE)已成为主流大模型广泛采用的位置编码方法之一。

这项成果受到关注,不仅因为作者名单中出现了一名高中生,且位列共同一作,也因为它触及了大模型一块长期沿用、却较少进入公众视野的底层结构。

今天主流大模型大多建立在Transformer架构之上。可以说,没有2017年提出的Transformer,就很难有后来这一轮生成式人工智能的快速发展。它改变了文本内部的信息处理方式,但模型层与层之间如何传递信息,长期仍沿用较为固定的办法。包括OpenAI联合创始人伊尔亚·苏茨克维在内,一些研究者都曾思考,这种连接方式是否还能被改写。

过去常用的是“残差连接”。简单说,就是每算完一层,就把前面的信息直接加到下一层。这样做简单有效,但层数一深,真正重要的信息也容易被不断累加的内容冲淡。

Kimi团队这次提出的“注意力残差”(Attention Residuals),就是想解决这个问题。它不再让每一层无差别接收前面所有层的信息,而是由当前层按需选择更值得参考的内容再加以聚合。通俗地说,过去像把所有资料整包往后传,现在更像先翻一遍,再挑出最有用的几页带走。

传统残差连接与注意力残差结构对比图。

这项工作的意义在于,它提供了另一条思路:大模型能力提升,未必只能靠堆参数、堆算力,也可以从底层结构入手,提高信息利用效率。公开材料显示,这一方法已在Kimi Linear 48B模型上完成验证,在相近效果下训练计算量可减少约20%,相当于约1.25倍效率优势,推理延迟增加不到2%,且可直接替换标准残差连接。相关解读认为,引入“注意力残差”后,模型设计可能重新关注“加深深度”这一路径,而不只是继续向更大参数规模扩展。

陈广宇真正深入接触人工智能研究,是近一年的事。起步阶段,他通过研读经典论文、追踪GitHub开源项目等方式补上基础认知。后来,他因在社交平台上分享对技术博客的反思,引起一家硅谷AI初创公司CEO关注,并在通过一项限时实验测试后获得实习机会。暑假期间,他前往美国实习七周,回国后于去年11月到Kimi团队实习。

陈广宇个人网站,列有其参与的多个项目。

论文发布后,他在朋友圈回顾这段经历时,特别提到同等贡献作者(Equal contribution)以及从事模型扩展与基础设施(scaling、infra)工作的同事,称这项工作“缺一不可”。

在接受采访时,陈广宇多次重复同样的意思:不要“造神”,不希望被写成突出个人的故事。对这名来自深圳的17岁少年而言,比起被写成“天才”,他更希望外界看到的,是一项团队共同完成的研究,以及它试图解决的大模型底层难题。

17岁的年纪

一作的成果,谦虚的态度

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。