奥特曼深夜官宣:OpenAI重回开源!两大推理模型追平o4-mini,号称世界最强
目前,该模型已在魔搭社区与Hugging Face开源。
LPU,专为推理而设计的硬件。
在Video-TT出现之前,视频理解领域已有相应的评测标准,但这些标准普遍存在一定局限性,导致AI的真实能力无法被准确衡量。在这种情况下,一些顶尖模型的表现接近甚至达到了人类水平(上图左侧),这容易给人一种…
目前,该模型已在魔搭社区和HuggingFace平台全面开源。
被OpenAI点名后,智谱刚刚发布新开源模型:国产最全能,一句话造出搜索引擎
为了考察大模型在实际金融场景中部署的能力,蚂蚁数科还联合中国工商银行、宁波银行、北京前沿金融监管科技研究院、上海人工智能行业协会等机构联合推出Finova大模型金融应用评测基准,深度考察智能体能力、复杂推理…
支持零样本声音复刻,提升沟通自然度。
在多人会议等复杂场景中英双向翻译准确率超70%。
GR-3 操作物体的成功率从不到60%提升到超过80%。
OpenAI宣布,创造历史的模型,并非传闻中的GPT-5,而是一个全新的、实验性的模型。
为了提供更为准确、公平的评估,微软亚洲研究院推出了MMLU-CF,它是基于公开数据源,经过去污染设计的大语言模型理解基准,并已在Huggingface上开放。 对于MMLU-CF,研究人员在数据收集时应用了…
【新智元导读】首个工程自动化任务评估基准DrafterBench,可用于测试大语言模型在土木工程图纸修改任务中的表现。 DrafterBench以图纸修改为核心任务,在20个真实项目中收集并设计了1920个…
ChatGPT智能体模型在Humanity's Last Exam(pass@1)中得分率为41.6%
OpenAI交出了Agent的答案。
OpenAI的“Manus时刻”来了:ChatGPT Agent正式发布
10/31 16:58
10/31 16:56
10/31 16:55