【头部财经】人工智能领域再次迎来重大突破,OpenAI公司最新推出的GPT-4o模型,以其全面性("omni")和全能性,标志着人机交互的新纪元。GPT-4o不仅在文本和代码处理上与GPT-4 Turbo不相上下,更在非英文文本和视频、音频理解上实现了显著提升,为多模态交互体验带来了革命性的进步。在今日凌晨1点开始的春季更新中,OpenAI宣布了他们新一代的旗舰模型GPT-4o,可以利用语音、视频和文本信息进行实时推理。
GPT-4o的推出,解决了以往语音模式中存在的延迟问题,将响应时间从GPT-3.5的2.8秒和GPT-4的5.4秒大幅缩短,平均响应时间仅320毫秒,与人类对话反应速度相媲美。此外,该模型通过端到端的新架构,统一处理文本、音频和视频输入,突破了以往模型在音调识别、多说话者识别和情感表达上的局限。
OpenAI的这一创新,不仅在技术上实现了跨越,也在应用层面展现了其深远影响。GPT-4o的文本和图片功能自上线之日起即向所有ChatGPT用户开放,而ChatGPT Plus用户将享受更高的数据量上限。音频模式的更新也将在未来几周内推送给Plus用户,进一步丰富用户体验。
在OpenAI的春季更新活动中,尽管公司CEO萨姆·奥特曼并未亲自出席,但他在社交媒体上对GPT-4o的推广不遗余力,称赞其为目前最好的模型,具有高智能和快速反应能力,是真正的多模态AI。
GPT-4o的问世,不仅展示了OpenAI在AI领域的领先地位,也为整个行业的发展指明了方向,预示着未来人工智能将在更多领域发挥关键作用,为人类社会带来更加丰富和便捷的智能服务。