3 月 4 日消息,大模型独角兽智谱今日发布 2025 开源年的第一个模型:首个支持生成汉字的开源文生图模型 —— CogView4。据悉,该模型在 DPG-Bench 基准测试中的综合评分排名第…
上面这都算好的了,很多网友在使用时甚至直接被改头换“性别”。 如今Grok整这一出,网友喊话马斯克给谷歌道歉。 关键是, 让Grok回答“这画的是谁”,它的表述还是正确的,也就是说它知道这个人,但就是画不对…
Napkin AI 其本质也是一个基于文字/数字生成图片的产品,只不过与 Midjourney 等产品不同,Napkin AI 的主要生成的是“信息图”(例如时间线、流程图、逻辑关系图、韦恩图等),用于给社…
通过输入更多文本或编辑文本提示,用户可以轻松优化图像效果。谷歌强调,Whisk的设计初衷是帮助用户进行快速视觉探索,而非进行像素级别的精确编辑。 Whisk采用谷歌最新一代的Imagen 3图像生成模型,确…
12 月 17 日消息,谷歌公司昨日(12 月 16 日)发布博文,在发布 Veo 2 视频生成模型之外,还增强了 Imagen 3 文生图AI 模型,为用户带来更多花样的艺术风格。 谷歌表示 Imagen…
12 月 17 日消息,谷歌今日发布了一款名为 Whisk 的全新 AI 图像生成工具,该工具允许用户使用其他图像作为提示来生成图像,而不需要冗长的文本提示。)如果手头没有合适的图像,用户还可以点击骰子图标,…
12 月 17 日消息,谷歌公司昨日(12 月 16 日)发布博文,在发布 Veo 2 视频生成模型之外,还增强了 Imagen 3文生图 AI 模型,为用户带来更多花样的艺术风格。 谷歌表示 I…
12 月 17 日消息,谷歌今日发布了一款名为 Whisk 的全新 AI 图像生成工具,该工具允许用户使用其他图像作为提示来生成图像,而不需要冗长的文本提示。)如果手头没有合适的图像,用户还可以点击…
【快讯】近日,埃隆·马斯克领导的人工智能公司xAI在Grok平台上推出了一款名为Aurora的新型AI文生图模型。该模型已向X平台Premium订阅用户开放。 Aurora模型作为自回归混合专家模型…
12 月 10 日消息,科技媒体 testingcatalog 昨日(12 月 9 日)发布博文,报道称埃隆・马斯克旗下的 xAI公司面向 X 平台 Premium 订阅用户,开放了名为 Auro…
谷歌声称,Imagen 3 可以理解长文本内容,生成细腻、生动且“照片级”的图片,同时视频中也不会出现较明显的视觉噪点。 谷歌还为Imagen 3 开放了图片编辑和定制化功能,图片编辑功能包括“使用提示词…
豆包大模型团队相关负责人表示,豆包文生图模型通过打通LLM和DIT构架,具备更好的原生中文数据学习能力,并在此基础上强化了汉字生成能力,大幅提升了生成效果。据介绍,当前该功能仅支持文生图时添加文字,暂不支持上…
我们在 18K 生成图像 (RichHF18K) 上收集如此丰富的人类反馈,并训练多模态转换器来自动预测丰富的反馈。我们表明,可以利用预测的丰富人类反馈来改进图像生成,例如,通过选择高质量的训练数据来微调和改…
11 月 15 日消息,腾讯官方公众号今日发文宣布,旗下 AI 智能工作台 ima 现已正式上线,其除了能完成其余大模型 AI 问答产品的功能(注:问答、创作文字、生成图片等)以外,还打通了…
11 月 8 日消息,科技媒体 MacRumors 昨日(11 月 7 日)发布博文,报道称在 iOS 18.2 更新中,图片生成AI 工具 Image Playground 并未带来今年 6 月…
插播一位“00花”任敏,看她的红毯怼脸生图也能感受到化妆师尽力了,但还是能看出她的脸不像平时的精修照那么小巧,鼻子还是很抢镜,跟同场女明星相比颜值真的不高。 “95花顶流”赵露思无论挨了多少批评,还是坚持自…
AI 文生图领域的主流工具一直是 Midjourney 与 Stable Diffusion,设计师或 AI爱好者可以通过提示词生成想要的图像。 目前,基石智算(coreshub.cn)已上架内置 FLU…
10 月 29 日消息,北京智源人工智能研究院(BAAI)推出了新的扩散模型架构OmniGen,这是一种用于统一图像生成的多模态模型。 ▲ 文本生成图像,编辑生成图像的部分元素,根据生成图像的人体…
10 月 27 日消息,OpenAI 本周公布了一款名为 sCM(Continuous-Time ConsistencyModel)的新型 AI 文生图方案。 与传统的扩散模型相比,sCM 仅需两…
该模型拥有80亿参数,提供了卓越的图像质量和快速的响应时间。适用于100万像素分辨率的专业应用场景,Stable Diffusion 3.5Large在性能上超越了同类竞争对手,成为Stable Diff…
谷歌 DeepMind 和 MIT 团队通过深入研究,发现了使用连续 tokens(非离散tokens)和采用随机生成顺序(非固定顺序)两个关键设计因素,显著提高了自回归模型的性能和可扩展性。 Fluid…
自回归模型 (Autoregressive Models): 自回归模型预测序列中的下一个元素时,依赖于前面的元素。 Fluid模型结合了连续标记和随机生成顺序后,当其规模扩大到 105 亿参数时,Fl…
【快讯】近日,微软取得了一项突破性专利,该专利技术能够将用户的实时语音输入转化为图片,为会议和讲座带来全新的视觉体验。根据专利描述,这项技术在会议或讲座场合中,能够实时捕捉音频,并通过先进的语言模型…
根据专利描述,该系统可以在会议或讲座中实时捕捉音频,随后通过语言模型进行总结,并生成相应的 AI 图像。 捕捉音频:用户通过麦克风发言,系统实时记录并转化为文本。随着演讲者话题的变化,实时生成的图像也会随之…
10 月 15 日消息,科技媒体 MSPoweruser 昨日(10 月 14日)发布博文,报道称微软公司获得了一项新的专利,描述了基于用户实时输入的语音来生成图片。 生成图像:根据总结生成的提…
从生成图像到生成视频,这是AI技术上的一大跨越,意味着端侧AI从此拥有了像云端一样理解物理世界规则的能力,可以期待天玑这项技术的成熟和进化,这或许将带来一场手机应用生态和手机生产力角色的巨大变革。早在今年上…
10 月 14 日消息,智谱技术团队今天宣布开源文生图模型 CogView3 及 CogView3-Plus-3B,该系列模型的能力已经上线“智谱清言”App。 官方表示,在实际效果上,CogView3 在…
08/20 10:25
08/20 10:24
08/20 10:23
08/20 10:22