当前位置: 首页 » 资讯 » 新科技 » 正文

腾讯开源通用文本表示模型Youtu-Embedding,面向企业级应用打造

IP属地 中国·北京 编辑:周琳 IT之家 时间:2025-10-15 09:52:58

IT之家 10 月 14 日消息,腾讯优图实验室今日正式开源 Youtu-Embedding。据介绍,这是一款面向企业级应用的通用文本表示模型,可广泛应用于企业客服、智能问答、内容推荐、知识管理等场景,尤其适用于构建 RAG 检索增强生成系统。

IT之家附官方介绍如下:

高质量的文本嵌入(Embedding)是驱动智能搜索、检索增强生成(RAG)以及推荐系统等应用的核心技术。

在传统的信息检索系统中,搜索主要依赖倒排索引(Inverted Index)与关键词匹配:系统将文本分解为词项,通过统计共现频率或关键词相似度来检索文档。这种方法虽然高效,但存在明显局限 —— 它依赖词面匹配,无法真正理解语义关系。例如,“汽车保险”和“车辆保障”在语义上接近,却因为缺少相同词汇而难以被匹配到。

文本嵌入(Embedding)技术通过深度神经网络将文本映射到高维向量空间,使语义相似的句子在该空间中距离更近。这一机制让模型能够基于语义层面的关联而非字面重合来完成检索,从而显著提升搜索和问答系统的“理解力”。在 RAG(Retrieval-Augmented Generation)场景中,高质量的文本嵌入模型可以为大语言模型(LLM)提供更准确、更上下文相关的外部知识,使生成的答案更加精确、可控与可解释。

为破解这一难题,腾讯优图实验室正式开源 Youtu-Embedding,这是一款面向企业级应用打造的通用文本表示模型,可同时胜任文本检索、意图理解、相似度判断、分类聚类等六大主流任务。它在信息检索(IR)、语义相似度(STS)、聚类、重排序和分类等一系列广泛的自然语言处理任务上,均展现出卓越的性能。

Youtu-Embedding 的核心优势包括:

标签: 模型 文本 语义 开源 腾讯 任务 系统 高质量 智能 车辆 数据 企业级 损失 框架 关键词 空间 实验室 优图 权威 微调 性能 聚类 函数 单任务 文档 无法 动态 核心 高分 通用性 优势

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。