当前位置: 首页 » 资讯 » 新科技 » 正文

加州大学联合谷歌等发布“丰富的人类反馈用于文生图”

IP属地 北京 编辑:赵云飞 SD科技制造 时间:2024-12-02 08:00:44

计算机视觉life”,选择“星标”

快速获得最新干货

CVPR'24最佳论文 | 加州大学联合谷歌等发布“丰富的人类反馈用于文生图” 文章链接:[2312.10240] Rich Human Feedback for Text-to-Image...

数据集仓库:google-research/richhf_18k at master · google-rese...

作者单位:加州大学、谷歌、南加州大学、剑桥大学、布兰迪斯大学

最近的文本到图像(T2I)生成模型(例如稳定扩散和 Imagen)在基于文本描述生成高分辨率图像方面取得了重大进展。然而,许多生成的图像仍然存在诸如伪影/难以置信、与文本描述不一致以及审美质量低等问题。受大型语言模型的人类反馈强化学习 (RLHF) 成功的启发,之前的工作收集了人类提供的分数作为生成图像的反馈,并训练奖励模型来改进 T2I 生成。在本文中,我们通过(i)标记不可信或与文本不对齐的图像区域,以及(ii)注释文本提示中的哪些单词在图像上被歪曲或丢失来丰富反馈信号。我们在 18K 生成图像 (RichHF18K) 上收集如此丰富的人类反馈,并训练多模态转换器来自动预测丰富的反馈。我们表明,可以利用预测的丰富人类反馈来改进图像生成,例如,通过选择高质量的训练数据来微调和改进生成模型,或者通过使用预测的热图创建掩模来修复有问题的区域。值得注意的是,除了用于生成收集人类反馈数据的图像(稳定扩散变体)之外,这些改进还推广到了模型(Muse)。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。