当前位置: 首页 » 资讯 » 人工智能 » 正文

AI速递 20241008

IP属地 中国·北京 编辑:顾雨柔 腾讯研究院 时间:2024-10-08 07:44:35

生成式AI

一、 液体基础模型刷新SOTA,非GPT架构首次显著超越Transformer

1. MIT系初创公司Liquid AI发布液体基础模型LFM,首次显著超越传统Transformer架构;

2. LFM模型具有多模态能力,适用于视频、音频、文本等数据,提供低内存消耗与高效推理;

3. LFM展现出优异性能,其1B、3.1B和40.3B模型版本在多个基准测试中成为新的SOTA,突破了GPT架构的限制。

https://mp.weixin.qq.com/s/-JYnr7_KvIEifsA7E8W1NQ

二、 OpenAI DevDay公布五项重大创新,成本比GPT-3降低近1000倍

1. 实时API支持构建实时“语音转语音”应用,加强开发者对ChatGPT的语音交互功能应用;

2. 提示词缓存功能减少API调用成本和延迟,特别是对于频繁重复使用上下文的应用;

3. 模型蒸馏允许使用大型AI模型的输出优化小型模型,提升小型模型性能并降低运行成本。

https://mp.weixin.qq.com/s/SsjhWdydjitn6VNeD1kI4g

三、 OpenAI重磅发布交互界面canvas,让GPT成为写作和编程利器

1. OpenAI发布canvas界面,支持与ChatGPT协作完成写作和编程项目;

2. canvas提供直接编辑文本和代码的功能,包括目标性编辑和整体重写;

3. canvas支持多种编程语言,优化了代码审查、调试、和注释添加的流程。

https://mp.weixin.qq.com/s/ZoPh6JZ-PWKcNvHIG1U5QA

四、 好久不见!Pika 1.5 发布:超物理特效,功能很抽象、但全量开放

1. PIKA 1.5版本直接全量开放,无需排队等待,增强用户获取与体验;

2. 引入Pikaffect功能,通过预设的特效模板,用户可上传图片并应用特效生成抽象视觉内容;

3. 特效操作包括膨胀、挤压、压碎、爆炸、融化和蛋糕化等,提供有趣且社交分享价值高的视觉体验。

https://mp.weixin.qq.com/s/2-OkFLyy05TO54nQnExhKQ

五、 Sora中的战斗机!meta发布史上最快AI视频生成模型,但不开源

1. meta发布Movie Gen模型,转换文本提示为视频,声称超越行业内其他模型如Runway Gen3和LumaLabs产品;

2. Movie Gen通过自然语言提示实现视频编辑,能处理背景变更和服装颜色调整等文本指令;

3. 生成的视频限制为768p宽度,可增强至1080p,最长视频长度16秒,但目前不包括语音输出,且不开源。

https://mp.weixin.qq.com/s/3LafjByzmm8nfiyuNtVy-w

六、 最新AI生图模型Flux1.1刷屏!添加单反相机文件名获得超写实图像

1. Flux1.1 AI模型通过模拟单反相机文件命名格式,显著提升生成图像的写实质感;

2. 使用不同相机品牌的文件格式如CR2、ARW等作为提示,可得到不同风格的超写实图像;

https://mp.weixin.qq.com/s/61GRYQ_JIDQuJVVpSFoeEg

七、 无需相机数据!刚刚苹果用AI颠覆3D视觉,0.3秒生成3D深度图

1. 苹果发布的AI模型Depth Pro能从单张2D图像快速生成3D深度图,用时仅0.3秒;

2. Depth Pro可以估计相对和绝对深度,对增强现实和空间计算应用至关重要;

3. Depth Pro模型已开源,提供了无需相机数据的“零-shot学习”能力,极大地增强了灵活性和应用范围。

https://mp.weixin.qq.com/s/ns4SnppTvlMTz2J_a_aEjA

前沿科技

八、 脑科学“登月时刻”?果蝇大脑绘制:AI + 众包,33 年工作量 3 年完成

1. 完成了果蝇成年大脑的全连接组绘制,标志着神经科学领域的重大突破;

2. 结合AI技术和众包方法,将原本需要33年的工作量缩短至3年完成;

3. 该成果有助于深入理解大脑功能,预计将推动其他生物的大脑连接组绘制工作,包括人类。

https://mp.weixin.qq.com/s/HvpQREAZDiur5aHpCwPP3w

报告观点

九、 Sam Altman:新系统是一个重要的新范式的开端,AI发展将爆炸性增长

1. 新系统引入了重要的新范式,预示AI将在未来几年迎来爆炸式增长;

2. 新系统能显著提升程序员的生产力,助力科学研究和经济发展;

3. Altman强调新AI工具的潜力,它将改变计算机编程的本质,使程序开发更高效。

https://mp.weixin.qq.com/s/3yvBnp4jzu98HMOOrZXO5A

十、 对话Stability创始人:视频技术已进入工程阶段,2025将是Agent元年

1. 视频技术已进入工程阶段,关注实用性和优化;

2. 高质量视频制作技术存在,需进一步整合和应用;

3. 2025年将是AI Agent的元年,模型将执行更复杂任务。

https://mp.weixin.qq.com/s/FmhKBEvTrV7VmkNcLuEOhg

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。