当前位置：首页 » 资讯 » 新零售 » 正文

英伟达发布 Llama Nemotron Nano VL

IP属地中国·北京 编辑：唐云泽 IT之家 时间：2025-06-05 08:32:16

6 月 5 日消息，科技媒体 marktechpost 昨日（6 月 4 日）发布博文，报道称英伟达（Nvidia）针对高效、精准地处理文档级理解任务，推出 Llama Nemotron Nano VL 视觉-语言模型（VLM）。
Llama Nemotron Nano VL 基于 Llama 3.1 架构，融合了 CRadioV2-H 视觉编码器和 Llama 3.1 8B 指令微调语言模型，能同时处理多页文档中的视觉和文本元素，支持最长 16K 的上下文长度，覆盖图像和文本序列。
模型通过投影层和旋转位置编码实现视觉-文本对齐，优化了 token 效率，特别适合长篇多模态任务，无论是多图像输入还是复杂文本解析，它都能游刃有余。
该模型的训练分为三个阶段：首先，利用商业图像和视频数据集进行交错式图文预训练；其次，通过多模态指令微调提升交互式提示能力；最后，重新混合纯文本指令数据以优化在标准语言模型基准上的表现。
训练采用英伟达的 Megatron-LLM 框架和 Energon 数据加载器，依托 A100 和 H100 GPU 集群完成。在 OCRBench v2 基准测试中，该模型在 OCR、表格解析和图表推理等任务上取得领先精度，尤其在结构化数据提取（如表格和键值对）及布局相关问题解答中表现突出，媲美更大规模模型。
部署方面，Llama Nemotron Nano VL 设计灵活，支持服务器和边缘推理场景。英伟达提供了 4-bit 量化版本（AWQ），结合 TinyChat 和 TensorRT-LLM 实现高效推理，兼容 Jetson Orin 等受限环境。
模型还支持 Modular NIM（NVIDIA 推理微服务）、onNX 和 TensorRT 导出，此外英伟达通过预计算视觉嵌入选项，进一步降低静态图像文档处理的延迟，为企业应用提供了实用解决方案。
附上参考地址

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

放弃吧！“高速全面取消收费”根本没戏，免费只会更痛苦

八部门：进一步加大力度促进汽车消费促进汽车梯次消费、更新消费

新车难用满十年：技术短板、消费文化与行业策略如何共同“缩短”寿命

山东青岛：“微醺巴士”开拓文旅消费新场景

牛市就到这了？

拉布布暑期降温，中国潮玩出海弯道超车，谁是下一个顶流IP

全站最新

小米人车家全生态重要大会明天举办！卢伟冰、AI才女罗福莉出席

X9超级增程订单火爆！小鹏高管：建议立刻下单争取开回家过年

用AI从零设计抗体 OpenAI支持的Chai Discovery获1.3亿美元融资

OpenAI通信一把手Hannah Wong明年1月离职

热门推荐

放弃吧！“高速全面取消收费”根本没戏，免费只会更痛苦

八部门：进一步加大力度促进汽车消费促进汽车梯次消费、更新消费

新车难用满十年：技术短板、消费文化与行业策略如何共同“缩短”寿命

山东青岛：“微醺巴士”开拓文旅消费新场景

牛市就到这了？

拉布布暑期降温，中国潮玩出海弯道超车，谁是下一个顶流IP

南城香创始人汪国玉：平台消费券激发消费热情，门店收入利润均提升

通信企业：“推销热售后冷”消磨用户信任

盛银消金 25% 股权再被冻结！新董事长年初刚上任

伊利出席第八届中澳工商界首席执行官圆桌会助力中澳经贸合作提速升级

商查平台企业信息查询新范式：水滴信用企业查询MCP

从“闪购”到“观望”：Prime Day被拉长的背后，是消费者与平台的“双重博弈”

澎湃漫评｜通信企业为何“推销热售后冷”

“电商西进”助力豫企破浪：一枚鱼油的3000公里“暖心”之旅

京东外卖取消超时免单，改为“准时宝”服务