transformer-资讯搜索-第3页-头部财经

首页

资讯

财经号

智能车

专题

电商资讯

人物资讯

滚动资讯

首页

新科技

新金融

新零售

智能车

房地产

科技探索

人物资讯

网络游戏

人工智能

专题

早于DeepSeek Engram！用「查表」重置Transformer记忆 | ICLR

03/31

Kimi“打破Transformer架构”真相

03/25

太疯了！MIT博士在Transformer里造计算机，攻破LLM终极缺陷

03/21

亚马逊时隔12年重启智能手机项目：内部代号Transformer

曾致1.7亿美元巨亏，亚马逊再战苹果三星，拟推无App商店AI手机。

03/20

马斯克深夜点赞炸场！Kimi撕开Transformer十年铁幕，中国AI亮剑

要知道，马斯克对AI技术的表态向来“毒舌”：2023年他批评GPT-4“缺乏创新”，2024年嘲讽GoogleGemini“过度营销”，却对Kimi团队的论文用了“Interesting approach（…

03/20

Kimi“打破Transformer架构”真相

它并非推翻Transformer的神话，而是为这座大厦添上了一块关键的砖石。

03/19

山大、理想汽车和中科院联合提出新范式：让Transformer去其糟粕

03/16

ICLR 2026｜早于DeepSeek Engram，STEM已重构Transformer记忆

03/09

超越 Transformer 架构？Inception 发布全球首个基于扩散模型的推理大模型 Mercury 2

02/25

一图解读AI大模型基石：Transformer

Transformer是2017年由谷歌团队提出的一种革命性神经网络架构，其核心创新在于摒弃了传统的循环神经网络（RNN），完全依赖“自注意力机制”来处理序列数据。它不仅是BERT、GPT等几乎所有现代大语言…

02/21

一图解读AI大模型基石：Transformer

Transformer是2017年由谷歌团队提出的一种革命性神经网络架构，其核心创新在于摒弃了传统的循环神经网络（RNN），完全依赖“自注意力机制”来处理序列数据。它不仅是BERT、GPT等几乎所有现代大语言…

02/21

华为诺亚实验室：非平滑组件提升Vision Transformer学习效率

这些理论分析不仅为实验观察提供了数学基础，更重要的是揭示了不同组件在学习过程中扮演的不同角色。研究结果显示，无论是预处理自注意力的LN1还是预处理前馈网络的LN2，它们的可塑性都明显低于其他组件，这解释了为…

02/11

华为诺亚实验室：非平滑组件提升Vision Transformer学习效率

这些理论分析不仅为实验观察提供了数学基础，更重要的是揭示了不同组件在学习过程中扮演的不同角色。研究结果显示，无论是预处理自注意力的LN1还是预处理前馈网络的LN2，它们的可塑性都明显低于其他组件，这解释了为…

02/11

清华联手千问重塑归一化范式，让 Transformer 回归「深度」学习

02/10

华为诺亚实验室：非平滑组件提升Vision Transformer学习效率

02/10

挑战Transformer，前OpenAI研究VP宣布创业，拟融资10亿美元

02/02

挑战Transformer，前OpenAI研究VP宣布创业，拟融资10亿美元

02/02

非Transformer架构新突破，液态神经网络推理小模型只用900M内存

01/21

马斯克刚刚真把平台推荐算法开源，核心也是Transformer

01/20

Transformer亲爹痛斥：当前AI陷死胡同，微调纯属浪费时间

通往AGI的道路不止一条

01/18

Transformer亲爹痛斥：当前AI陷死胡同，微调纯属浪费时间

通往AGI的道路不止一条

01/18

Transformer亲爹痛斥：当前AI陷死胡同，微调纯属浪费时间

通往AGI的道路不止一条

01/17

把RoPE扔掉，AI更能看懂长上下文！Transformer作者团队开源大模型预训练新方法

而到了推理阶段，则大胆地丢弃位置嵌入，并在原上下文长度下进行简短的重新校准。研究团队在多个模型上进行了实验，包括从零开始训练的5M参数模型、SmolLM家族模型（360M/1.7B）以及7B参数的Llam…

01/14

把RoPE扔掉，AI更能看懂长上下文！Transformer作者团队开源大模型预训练新方法

而到了推理阶段，则大胆地丢弃位置嵌入，并在原上下文长度下进行简短的重新校准。研究团队在多个模型上进行了实验，包括从零开始训练的5M参数模型、SmolLM家族模型（360M/1.7B）以及7B参数的Llam…

01/14

梁文锋署名新论文，DeepSeek V4架构首曝？直击Transformer致命缺陷

01/13

Transformer已死？DeepMind正在押注另一条AGI路线

01/09

Transformer已死？DeepMind正在押注另一条AGI路线

01/08

LSTM之父造出PoPE:终结RoPE泛化难题,实现Transformer极坐标进化

01/04

Transformer能否支撑下一代Agent？

12/22

「背叛」Scaling Law？两位Transformer作者撬动美国开源AI革命

12/19

«上一页 1 2 … 3 4 … 5 6 下一页» 共169条/6页

全部热门

智谱宣布GLM-5.2面向GLM Coding Plan全量用户
06/13 18:29
标致“纯电小钢炮”E-208 GTi发布：281马力5.5
06/13 18:26
首尔禁止中小学生戴AI眼镜参加期末考试，否则
06/13 18:25
江淮汽车总经理李明：要让尊界等优秀产品惠及
06/13 18:23
机器人伴侣来了！10天预售3800台搭载养成系情
06/13 18:20
SpaceX历史性IPO后，马斯克称将深化与英伟达的
06/13 18:16
今夜过后，马斯克成为人类首位万亿富翁
06/13 18:09
萝卜快跑在瑞士启动道路测试 2027年将实现常态
06/13 12:07
Anthropic：最先进模型，外国人禁用
06/13 12:07
网传阿里合伙人周靖人拟离职，仅出任阿里首席
06/13 12:06