IT之家 10 月 14 日消息,腾讯优图实验室今日正式开源 Youtu-Embedding。据介绍,这是一款面向企业级应用的通用文本表示模型,可广泛应用于企业客服、智能问答、内容推荐、知识管理等场景,尤其适用于构建 RAG 检索增强生成系统。
IT之家附官方介绍如下:
高质量的文本嵌入(Embedding)是驱动智能搜索、检索增强生成(RAG)以及推荐系统等应用的核心技术。
在传统的信息检索系统中,搜索主要依赖倒排索引(Inverted Index)与关键词匹配:系统将文本分解为词项,通过统计共现频率或关键词相似度来检索文档。这种方法虽然高效,但存在明显局限 —— 它依赖词面匹配,无法真正理解语义关系。例如,“汽车保险”和“车辆保障”在语义上接近,却因为缺少相同词汇而难以被匹配到。
文本嵌入(Embedding)技术通过深度神经网络将文本映射到高维向量空间,使语义相似的句子在该空间中距离更近。这一机制让模型能够基于语义层面的关联而非字面重合来完成检索,从而显著提升搜索和问答系统的“理解力”。在 RAG(Retrieval-Augmented Generation)场景中,高质量的文本嵌入模型可以为大语言模型(LLM)提供更准确、更上下文相关的外部知识,使生成的答案更加精确、可控与可解释。
为破解这一难题,腾讯优图实验室正式开源 Youtu-Embedding,这是一款面向企业级应用打造的通用文本表示模型,可同时胜任文本检索、意图理解、相似度判断、分类聚类等六大主流任务。它在信息检索(IR)、语义相似度(STS)、聚类、重排序和分类等一系列广泛的自然语言处理任务上,均展现出卓越的性能。
Youtu-Embedding 的核心优势包括: