【头部财经】在人工智能领域,OpenAI公司的最新动作无疑成为了业界关注的焦点。5月13日,该公司在“春季更新”活动中正式推出了其新的旗舰人工智能模型GPT-4o,这一模型不仅支持文本、音频和图像的任意组合输入,还能生成相应的任意组合输出。
OpenAI 首席执行官萨姆·奥尔特曼表示,GPT-4o 的语音功能令人印象深刻,仿佛电影《她》中的人工智能成为了现实。
据《华尔街日报》报道,GPT-4o 的速度是现有 GPT-4 Turbo 的两倍,成本却仅为一半,能够实时推理文本、音频和图像,响应时间几乎与人类无异。在发布会上,OpenAI 首席技术官米拉·穆拉蒂展示了 GPT-4o 的多项功能,包括分析计算机代码、语言翻译以及通过摄像头引导解决数学问题等。此外,GPT-4o 还能检测用户情绪,以类似人类或机器人的语调进行对话。
然而,GPT-4o 在演示中也出现了一些失误,如在未读取图像时求解方程,或将面部错误识别为“木质表面”。BBC 指出,这反映出生成式 AI 的“幻觉”问题尚未解决,聊天机器人的可靠性仍有待提高。
GPT-4o 的“o”代表“omni”,意为“全能”。该模型能在极短的时间内响应音频输入,平均响应时间为 320 毫秒,接近人类交谈的响应时间。在文本和代码性能上,GPT-4o 与 GPT-4 Turbo 相当,非英语文本性能也有显著提升。
OpenAI 透露,GPT-4o 之前的语音模式存在信息丢失问题,因为它是由三个独立模型组成,而 GPT-4o 则是一个端到端的新模型,能够综合处理所有输入和输出。尽管如此,OpenAI 也承认,作为首个结合多种模式的模型,GPT-4o 在功能探索和局限性认识上仍处于初期阶段。
穆拉蒂宣布,GPT-4o 的文本和图像功能将在 ChatGPT 更新后向所有用户开放,而付费的 ChatGPT Plus 用户将享有更多消息数量上限。新版语音模式也将在不久后推出。
奥尔特曼在其个人博客上表达了对 GPT-4o 语音模式的高度评价,并将其与电影《她》中的人工智能相提并论。CNN 也注意到了这一点,认为 GPT-4o 的语音功能让人联想到了《她》。
此外,OpenAI 在谷歌年度开发者大会前夕推出 GPT-4o,显示出其在 AI 领域的雄心壮志。《商业内幕》网站评论认为,这加剧了美国科技巨头之间的 AI 竞赛,与 GPT-4o 相比,亚马逊的 Alexa、苹果的 Siri 和谷歌的 Gemini 在语音对话中的表现仍有较大差距。
然而,AI 技术的快速发展也引发了版权等法律问题。OpenAI 已与多家媒体签署合作协议,但仍面临《纽约时报》的诉讼。同时,包括《冰与火之歌》作者乔治·马丁在内的作家也对 AI 模型使用受版权保护的作品进行训练表示担忧,并发起了集体诉讼。