当前位置：首页 » 资讯 » 新科技 » 正文

快手与上交大联合推出Orthus模型，打破多模态生成新边界

IP属地中国·北京 编辑：沈瑾瑜 Chinaz 时间：2025-07-23 18:27:50

在刚刚结束的国际机器学习大会（ICML）上，快手与上海交通大学携手推出了一款令人瞩目的多模态生成理解模型 ——Orthus。这款模型以其自回归 Transformer 架构为基础，能够在图文之间自如转换，展现出前所未有的生成能力，目前已正式开源。
Orthus 的最大亮点在于其卓越的计算效率与强大的学习能力。研究表明，在仅需极少计算资源的情况下，Orthus 在多个图像理解指标上超越了现有的混合理解生成模型，如 Chameleon 和 Show-o。在文生图生成的 Geneval 指标上，Orthus 更是表现出色，超越了专为此设计的扩散模型 SDXL。
该模型不仅能处理文本和图像之间的交互关系，还在图像编辑和网页生成等应用中展现出巨大潜力。Orthus 的架构设计非常巧妙，采用了自回归 Transformer 作为主干网络，配备了特定模态的生成头，分别用于生成文本和图像。这种设计有效解耦了图像细节的建模和文本特征的表达，使得 Orthus 能够专注于建模文本和图像之间的复杂关系。
具体来说，Orthus 由多个核心组件构成，包括文本分词器、视觉自编码器以及两个特定模态的嵌入模块。它将文本和图像特征融合到一个统一的表示空间中，让主干网络在处理模态间的依赖关系时更加高效。模型在推理阶段会根据特定的标记，自回归地生成下一个文本 token 或图像特征，展现了极强的灵活性。
通过这些创新设计，Orthus 不仅避免了端到端扩散建模与自回归机制之间的分歧，还减少了图像离散化带来的信息损失。这一模型可以被视为何恺明在图像生成领域的 MAR 工作向多模态领域的成功拓展。
快手与上海交通大学的这一合作，无疑为多模态生成模型的发展带来了新的可能性，值得业界和学界的关注与期待。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

注意！公安部明确市售"智驾"≠自动驾驶

谷歌 Pixel 10 Pro Fold 折叠屏手机官方渲染图公布：告别黑白

造福or替代程序员？实测阿里新模型

雪漫天预热 Melody Hi-Fi 耳放：实木外壳可选双色、小金标认证

中国市场缺席，特斯拉将 FSD 转移促销计划扩展至欧洲及中东地区

对话沃飞长空首席市场官费岚：eVTOL产业最终将共用新能源汽车80%的供应链

全站最新

注意！公安部明确市售"智驾"≠自动驾驶

谷歌 Pixel 10 Pro Fold 折叠屏手机官方渲染图公布：告别黑白

造福or替代程序员？实测阿里新模型

雪漫天预热 Melody Hi-Fi 耳放：实木外壳可选双色、小金标认证

热门推荐

五菱周大川：之光半年销量1.5万辆，长续航版售价5.78万元

注意！公安部明确市售"智驾"≠自动驾驶

谷歌 Pixel 10 Pro Fold 折叠屏手机官方渲染图公布：告别黑白

DeepSeek流量下滑！AI企业怎么看？

科技部发布《驾驶自动化技术研发伦理指引》

造福or替代程序员？实测阿里新模型

雪漫天预热 Melody Hi-Fi 耳放：实木外壳可选双色、小金标认证

中国市场缺席，特斯拉将 FSD 转移促销计划扩展至欧洲及中东地区

三大运营商集体表态！勿忘自身公共服务责任

对话沃飞长空首席市场官费岚：eVTOL产业最终将共用新能源汽车80%的供应链

智能体榜第一，纳米 AI 凭什么

侨银股份成立人机交互技术公司推进AI智慧服务场景落地

全球领先！“成都造”量子测控系统出海业务翻番，创始人揭秘“大院大所”的成都优势

OpenAI CEO奥尔特曼拉响警报：金融行业即将面临“AI欺诈危机”

科创新就业 | 聚合工艺工程师——在分子世界里“编织”材料未来

首页

资讯

财经号

智能车

专题

电商资讯

人物资讯

滚动资讯

首页

新科技

新金融

新零售

智能车

房地产

科技探索

人物资讯

网络游戏

人工智能

快手与上交大联合推出Orthus模型，打破多模态生成新边界