概率推理方法是通过为结果分配概率来处理不确定性,而自动推理检查功能做到将AI输出转化为逻辑可验证的命题,帮企业把数学严谨性嵌入到AI应用的防护中。 这一示例表明,自动推理检查功能能够把日常业务规则转化为可验证…
FunAudio-ASR使用了数千万小时的音频数据,融合了大语言模型的语义理解能力,从而提升语音识别的上下文一致性与跨语言切换能力。 有监督预训练则在编码器-解码器架构(AED)下进行,使编码器能够从大规模…
FunAudio-ASR使用了数千万小时的音频数据,融合了大语言模型的语义理解能力,从而提升语音识别的上下文一致性与跨语言切换能力。智东西在实测中体验了FunAudio-ASR在嘈杂场景的识别能力。 有监…
研究发现:主流AI聊天机器人传播虚假信息的概率较去年翻倍
OpenAI的研究人员对比了旗下两款模型的表现:老模型o4-mini在测试中正确率虽比GPT-5高2个百分点,但代价是四分之三的问题答错,仅1%的题目会承认“不知道”;而GPT-5则更倾向于直接表示“无法回…
模型的创造力和幻觉,其实是一个相辅相成的两面
OpenAI的研究指出,这种评估方式实质上在“鼓励”模型进行不负责任的猜测,而非追求真实性与可靠性。在医疗或金融咨询场景中,用户更需要的是可靠的信息,而非一个听起来自信但可能错误的答案。 针对这一困境,Ope…
一次组织重组+评测范式重构,也许正在改写AI的能力边界与产品形态。
研究指出,当前模型训练过程中,评估标准更倾向于奖励“自信回答”,即使答案错误也能获得较高分数。这种机制导致模型被优化为“考试型选手”,在面对不确定问题时倾向于猜测而非承认“不知道”。研究团队呼吁行业建立更符…
在中英文理解、复杂指令遵循、工具调用等维度实现了显著增强。
研究团队在最新论文中指出,现有训练机制导致模型倾向于"假装知情"。这种设计源于评估体系对"完整回答"的过度奖励,使得模型在信息不足时仍会强行输出内容。这种机制迫使系统将复杂现实简化为非此即彼的判断,而忽略了…...
近日,据海外科技媒体《商业内幕》报道,OpenAI研究团队在解决大语言模型核心缺陷方面取得突破性进展——通过重构评估体系,成功缓解了困扰行业的“幻觉”问题。这种倾向源于评估体系对猜测行为的过度奖励——模型若拒…
研究人员指出:“人类会在现实生活的挫折中学会表达不确定性的价值,而大语言模型的评估主要依赖考试,这些考试却惩罚了不确定的回答。”“问题的根源是评估指标没有对齐,必须调整主要的评分方式,避免在模型不确定时因拒…
AI一本正经地胡说八道,原来是我们教的。
模型被训练成“装作知道”,而不是坦率地说“我不确定”。
该模型支持超过100种语言,具有更强的翻译和常识推理能力。
AI Agent已经不再是实验性项目,而是已经成为大模型的一个核心主赛道
Agent AI的核心:一个全新的只能体认知架构
全球首例“AI谋杀案”,56岁IT精英弑母后自杀!ChatGPT成教唆元凶,聊天曝光
08/20 10:25
08/20 10:24
08/20 10:23
08/20 10:22