从基础设施到产品应用,智源对Scaling Law、基础模型、具身智能、超级应用、AI安全等关键方向作出预测。 智源研究院院长王仲远表示,当前,我们处在人工智能发展的新拐点,大模型的能力涌现加速通用人工智能时…
多项评测结果中,字节跳动多项AI能力领先,阿里巴巴、百度等大厂派AI均取得优异表现。 在视觉语言多模态模型能力评测结果中,一些较好的开源模型在图文理解任务上正在缩小与头部闭源模型的能力差距,而长尾视觉知识与文…
在“多模态模型评测榜单”的视觉语言模型中,得分国内最高的豆包·视觉理解模型也在FORCE原动力大会上正式对外发布。通过更强的内容识别能力、更强的理解和推理能力、更细腻的视觉描述能力,豆包·视觉理解模型极大地…
媒体:从发布的评测结果来看,豆包模型在几个榜单中的排名都比较靠前,是互联网大厂的模型研发能力在大幅提升吗?2025年,基于语言模型肯定会有更多AI Agent(智能体),能完成更复杂的任务,这是明年的热点…
在评测方法与工具上,智源研究院联合全国10余家高校和机构合作共建,探索基于AI的辅助评测模型FlagJudge和灵活全面的多模态评测框架FlagEvalMM,并构建面向大模型新能力的有挑战的评测集,包括与北…
2024年12月19日,智源研究院发布并解读国内外100余个开源和商业闭源的语言、视觉语言、文生图、文生视频、语音语言大模型综合及专项评测结果。 智源评测发现,2024年下半年大模型发展更聚焦综合能力提升与实…
水木清华校友种子基金管理合伙人王学辉表示:“智源深澜的团队在大分子进化和设计领域选择了以功能为主要对象而非基于蛋白结构的技术路线,体现了团队对AI赋能大分子设计的独特理解,团队已在多个项目中展现了AI在蛋白…
10 月 29 日消息,北京智源人工智能研究院(BAAI)推出了新的扩散模型架构OmniGen,这是一种用于统一图像生成的多模态模型。 ▲ 文本生成图像,编辑生成图像的部分元素,根据生成图像的人体…
智源研究院院长王仲远向钛媒体App等表示,Emu3证明了下一个token预测能在多模态任务中有高性能的表现,这为构建多模态AGI提供了广阔的技术前景。智源探索出了Emu3这样一条技术路线,那么接下来需要展示…
智源研究院最新发布原生多模态世界模型 Emu3,该模型在文本、图像、视频理解与生成方面取得了突破性进展。此外,Emu3还提供了强大的视觉tokenizer功能,能够将视频和图像转换为离散token,并且这些…
据介绍,Emu3 提供了一个强大的视觉 tokenizer,能够将视频和图像转换为离散 token。 Emu3 研究结果证明,下一个token 预测可以作为多模态模型的一个强大范式,实现超越语言本身的大规…
作为领先头部AI公司,百度自2010年起开始全面布局人工智能,是全球为数不多、进行全栈布局的人工智能公司,从昆仑芯、飞桨深度学习平台、文心大模型到应用,在技术栈各层都有关键自研技术。 智源研究院作为人工智能领…
在这个 Berkerly UR5 Demonstration Dataset 场景中,即使是 GPT-4o 或人类,都无法从单张 RGB图像中判断机械爪是否碰到了目标物体,比如借助深度信息,将深度图直接给 …
获悉,此前,小米集团和机器人泰斗王田苗,投了一家具身智能科技公司「小雨智造」。 据了解,「小雨智造」的核心创始团队也曾是小米曾经的高层:「小雨智造」创始人乔忠良是小米的初创成员之一,曾经是MIUI研发…
王仲远告诉 AI 科技评论,智源在做的事是解决这一痛点,当某家厂商需要训练万亿乃至更大规模参数模型的时候,无需从头去解决收敛等一系列问题,开源社区中有一个好的初始化的版本,这时再基于更强的算力和数据量即可对模…
6月中旬,智源研究院旗下的 FlagEval 大模型评测平台发布最新榜单:在有标准答案的“客观评测”中,GPT-4 以76.11分在闭源大模型
11/24 16:08
11/24 16:07
10/31 16:58
10/31 16:56