【头部财经】据报道,人工智能公司Cohere的首席执行官Aiden Gomez近日透露,包括微软、OpenAI和Cohere在内的AI公司已经开始转向使用合成数据来训练AI模型,放弃了以往从Reddit、Twitter等公司获取数据的做法,主要原因是这些公司的数据采集费用过高。
Gomez在接受媒体采访时表示,合成数据在训练场景中具有广泛的适用性,尽管目前尚未全面推广。他举了一个例子,如果一个企业想要在高等数学领域训练一个模型,可以创建两个人工智能模型,分别扮演老师和学生的角色,并让它们就三角学等相关主题进行讨论。而人工智能主要负责观察,一旦发现错误,可以进行纠正。
合成数据是通过计算机技术人工生成的数据,而不是由真实事件产生的数据。由于合成数据能够反映原始数据的属性,因此可以作为原始数据的替代品来训练、测试和验证大型模型。与真实数据相比,合成数据具有更高的可访问性和可扩展性,同时也不受数据隐私和保密问题的限制。
然而,尽管合成数据具有许多优势,但在某些情况下,真实数据仍然无法被替代。因此,AI公司需要仔细权衡合成数据和真实数据之间的优劣,并根据具体需求选择合适的数据源。
随着人工智能技术的不断进步,数据已成为训练模型的关键因素。AI公司决定放弃从Reddit、Twitter等公司获取数据的方式,转而使用合成数据,这是出于数据隐私、保密和成本等多方面的考虑。未来,随着合成数据技术的不断发展,我们相信合成数据将在AI领域发挥越来越重要的作用。