当前位置: 首页 » 资讯 » 新科技 » 正文

阿里国际数字贸易集团AI团队发布Ovis2.5:经济型视觉推理模型新突破

IP属地 中国·北京 编辑:沈瑾瑜 Chinaz 时间:2025-08-18 12:26:51

阿里国际数字贸易集团(AIDC)的AI团队(AIDC-AI)近日发布全新多模态大语言模型Ovis2.5,提供9B和2B两种参数规模版本。该模型定位为经济型视觉推理解决方案,在其规模内展现出卓越性能,为多模态AI应用树立了新标杆。

Ovis2.5的核心特性

1. **原生分辨率感知**:Ovis2.5采用NaViT视觉编码器,无需损耗平铺即可保留图像的精细细节和全局结构,确保高质量的视觉处理能力。

2. **深度推理能力**:模型支持可选的“思考模式”,可能部分复用了阿里Qwen3的技术特性。除了线性思维链(CoT)推理外,Ovis2.5还能进行自我检查和修订,并支持可配置的思考预算,提升问题解决的精准度。

3. **图表与文档OCR领先**:在9B和2B规模上,Ovis2.5在复杂图表分析、文档理解(包括表格和表单)以及光学字符识别(OCR)领域达到业内领先水平,为实际应用场景提供强大支持。

4. **广泛任务覆盖**:该模型在图像推理、视频理解和视觉定位基准测试中表现出色,展现了强大的通用多模态能力。

Ovis2.5的发布彰显了AIDC-AI在多模态AI技术领域的持续创新。通过在紧凑模型规模内实现高性能,Ovis2.5为开发者和企业提供了一种高效且易于部署的解决方案,尤其适用于需要视觉与文本推理结合的场景。模型已在GitHub和Hugging Face等平台开源,进一步推动全球AI社区的协作与创新。

此次发布是AIDC-AI在Ovis系列模型基础上取得的又一重要进展,为多模态大语言模型的发展注入了新的活力。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。