头部财经

首页

资讯

财经号

智能车

专题

电商资讯

人物资讯

滚动资讯

首页

新科技

新金融

新零售

智能车

房地产

科技探索

人物资讯

网络游戏

人工智能

  • 全部
  • 快讯
  • 新科技
  • 新金融
  • 新零售
  • 智能车
  • 房地产
  • 电商资讯
  • 教育资讯
  • 上市公司
  • 人物资讯
  • 科技探索
  • 人工智能
  • 网络游戏
  • 字节推出中英同传新模型:模拟音色 延迟近专业同传译员水平

    支持零样本声音复刻,提升沟通自然度。

    07/24
  • 鱼跃医疗:评估基准日后标的子公司现疑云,实控人之子减持供应商或套现超亿元

    07/24
  • 字节跳动正式发布端到端同声传译模型:准确率接近真人 3秒延迟

    在多人会议等复杂场景中英双向翻译准确率超70%。

    07/24
  • 3年跑输基准,却狂收12亿管理费,富国朱少醒的20年口碑崩了?

    07/23
  • 首个统一「图像/视频」自适应语义分割框架来了!QuadMix刷榜多项基准

    07/23
  • 指数增强基金能否“锚定基准”又力争超越?

    07/23
  • 鱼跃医疗:评估基准日后标的子公司现疑云 实控人之子减持供应商或套现超亿元

    07/23
  • 字节跳动发布通用机器人模型GR-3:配套设计ByteMini机器人,支持高泛化、长程任务、柔性物体双臂操作

    GR-3 操作物体的成功率从不到60%提升到超过80%。

    07/22
  • OpenAI神秘新模型斩获IMO 2025金牌,攻克奥数巅峰

    OpenAI宣布,创造历史的模型,并非传闻中的GPT-5,而是一个全新的、实验性的模型。

    07/20
  • 指数增强基金能否“锚定基准”又力争超越?

    07/19
  • 「0污染」LLM理解基准来了!20000道题14个学科全覆盖,来自微软

    07/18
  • 「0污染」LLM理解基准来了!20000道题14个学科全覆盖,来自微软

    为了提供更为准确、公平的评估,微软亚洲研究院推出了MMLU-CF,它是基于公开数据源,经过去污染设计的大语言模型理解基准,并已在Huggingface上开放。 对于MMLU-CF,研究人员在数据收集时应用了…

    07/18
  • 大模型转行土木工程!首个「打灰人」评估基准:检验读、改工程图纸能力

    07/18
  • 大模型转行土木工程!首个「打灰人」评估基准:检验读、改工程图纸能力

    【新智元导读】首个工程自动化任务评估基准DrafterBench,可用于测试大语言模型在土木工程图纸修改任务中的表现。 DrafterBench以图纸修改为核心任务,在20个真实项目中收集并设计了1920个…

    07/18
  • OpenAI史上最强ChatGPT智能体发布:逛网站、做PPT样样精通

    ChatGPT智能体模型在Humanity's Last Exam(pass@1)中得分率为41.6%

    07/18
  • 刚刚,OpenAI发布ChatGPT版Manus!奥特曼:感受AGI时刻

    OpenAI交出了Agent的答案。

    07/18
  • OpenAI的“Manus时刻”来了:ChatGPT Agent正式发布

    OpenAI的“Manus时刻”来了:ChatGPT Agent正式发布

    07/18
  • 大模型转行土木工程!首个“打灰人”评估基准:检验读、改工程图纸能力

    你有模型,DrafterBench有任务。

    07/18
  • 2024投中私募股权基金业绩基准(Benchmark)

    07/17
  • 1万tokens是检验长文本的新基准,超过后18款大模型集体失智

    07/17
  • 1万tokens是检验长文本的新基准,超过后18款大模型集体失智

    此外,模型对干扰项的响应存在差异:Claude系列倾向于在不确定时弃权(明确表示无法回答),幻觉率较低;GPT系列则更可能生成自信但错误的答案,受干扰影响更明显;Gemini和Qwen模型的表现波动较大,易…

    07/17
  • 港中文&华为联合提出首个大模型推理可靠性评估基准

    图(b)分别展示了不同难度的无解问题的可靠性,发现难度为 1 的不可解问题可靠性偏低,即这些问题需要模型经过推理才能发现问题无解,这种情况更难也符合预期,说明大模型与人类在识别问题无解难度的相关性是一致的,尽…

    07/17
  • 港中文&华为联合提出首个大模型推理可靠性评估基准

    07/16
  • 智源RoboBrain 2.0+RoboOS 2.0双发:问鼎评测基准最强具身大脑

    07/14
  • 马斯克20亿送Grok 4上火星!20万GPU造宇宙大脑,一句话生成3D黑洞

    马斯克20亿送Grok 4上火星!20万GPU造宇宙大脑,一句话生成3D黑洞

    07/14
  • Perplexity CEO称赞月之暗面,希望基于Kimi K2进行后训练

    Kimi K2是月之暗面Kimi昨日刚发布的旗下首个万亿参数开源模型。

    07/13
  • 英特尔前 CEO 推出新基准 测试人工智能与人类价值观的契合度

    07/11
  • 智元机器人双突破:EVAC框架与EWMBench评测基准同步开源

    在具身智能研发面临真机验证成本高、数据利用率低等挑战的背景下,智元机器人于近日宣布开源两项重要成果:基于动作序列驱动的具身世界模型EVAC(EnerVerse-AC)和具身世界模型评测基准EWMBench。其…

    07/10
  • 真实科研水平集体不及格!全新基准SFE给主流多模态LLM来了波暴击

    07/09
  • ICCV 2025|UniOcc: 自动驾驶占用预测与推理统一数据集及基准平台

    07/09
  •  «上一页   1   2   …  3   4   5   …   6   7   下一页»   共196条/7页 
    全部热门
  • 从大模型到Agent:百度GenFlow2.0,定义新赛点

    08/20 10:25

  • 搜索引擎可能完蛋,但谷歌的广告费一分不少。

    08/20 10:25

  • 网友吐槽总打断李想说话,罗永浩:感谢提醒

    08/20 10:24

  • 马云时隔六年再访蚂蚁森林:和树比高

    08/20 10:24

  • 社保基金最新持仓披露 重仓89股 青睐基础化工

    08/20 10:23

  • 炎热的夏天,火热的牛市,能否持续?

    08/20 10:23

  • 奥美森:自称无具体产能数据陷“罗生门” 产品

    08/20 10:23

  • 吸引力增强 外资看多做多中国股市

    08/20 10:22

  • 暴增103%!赣州“前首富”,即将翻身

    08/20 10:22

  • 中国OTA「分野」:为什么大众旅游更有含金量?

    08/20 10:22

关于我们| 商业合作| 用户协议| 隐私政策| 版权声明| 网站地图| 友情链接| 财经头条| 酒业之家
© 2025 头部财经 TOP168.COM 洞悉时代脉搏,领航财富未来!All Rights Reserved 鲁ICP备2025162390号-1 京公网安备 11011402013531号