Transformer - 搜索 News

3 小时

DeepMind携Mamba华人作者推Transformer革命之作，性能暴涨媲美Llama 2，推理 ...

线性RNN赢了？近日，谷歌DeepMind一口气推出两大新架构，在d基准测试中超越了Transformer。新架构不仅保证了高效的训练和推理速度，并且成功扩展到了14B。这次的挑战者来自大名鼎鼎的谷歌DeepMind，并且一口气推出了两种新架构，— ...

腾讯网

AI大牛张祥雨：Transformer撑不起Agent时代

“Transformer完全不能支撑我们下一步，尤其是在Agent时代走向下一步。”12月18日，90后AI大牛、阶跃星辰首席科学家张翔雨公布了自己最新的研究结论，直指当前AI领域核心架构Transformer的技术瓶颈。 Transformer架构是当前人工智能，特别是生成式AI和大语言模型的基石。它是2017 年由谷歌团队在论文《Attention Is All ...

2 天

MIT斯坦福Transformer最新研究：过度训练让中度模型「涌现」结构泛化能力

而且，之前研究中树投影方法精确地描述了Transformer对输入进行的内部计算可以用树结构神经编码近似的程度，为任何Transformer提供了树结构度量分数（tscore），并提供了一个在输入字符串上最佳近似其计算的二叉树。

4 天

LSTM之父率队造出PoPE：终结RoPE泛化难题，实现Transformer的极坐标进化

而在近期 LSTM 之父 Jürgen Schmidhuber 的 USI & SUPSI 瑞士 AI 实验室团队的一项新研究中，分析表明，当前流行的旋转位置嵌入（RoPE）方法中的 what 与 where 是纠缠在一起的。这种纠缠会损害模型性能，特别是当决策需要对这两个因素进行独立匹配时。

腾讯网

Transformer能否支撑下一代Agent？

在圆桌论坛环节，当主持人把话筒递给阶跃星辰首席科学家张祥雨，询问关于模型架构未来时，这位学术大牛抛出了一枚“深水炸弹”：现有的Transformer架构无法支撑下一代Agent。

3DM游戏网 on MSN

英伟达DLSS4.5要来了！50系显卡6倍帧生成吊打AMD

近日，英伟达正式宣布其深度学习超级采样（DLSS）技术的下一步发展：DLSS 4.5。据悉，此次更新将专注于改进超级分辨率（Super ...

新浪网

MIT三人团队：用Transformer解决经验贝叶斯问题，比经典方法快100倍

Transformer 很成功，更一般而言，我们甚至可以将（仅编码器）Transformer 视为学习可交换数据的通用引擎。由于大多数经典的统计学任务都是基于独立同分布（iid）采用假设构建的，因此很自然可以尝试将 Transformer 用于它们。针对经典统计问题训练 Transformer 的 ...

快科技

全球首款Transformer专用AI芯片Sohu发布：比英伟达H100快20倍

快科技6月26日消息，据媒体报道，美国新兴的芯片创业公司Etched发布其首款AI芯片——Sohu。这款芯片在运行大型模型时展现出了惊人的性能，其速度超越了行业巨头英伟达的H100高达20倍，即便是与今年3月才面世的顶尖芯片B200相比，Sohu也展现出超过10倍的优越 ...

凤凰网

让大模型不靠外部干预自己学习！这家非Transformer AI黑马，引爆WAIC

智东西7月26日报道，今日，世界人工智能大会开幕，在上海一家AI创企的展台前，我们目睹了中国AI创业公司正向着主流Transformer架构发起强势冲锋。一台机器狗，学习了用户的打招呼手势后，不到30秒就学会并进行了复刻，且完全模仿了用户使用右手打招呼的 ...

生物通

基于条件引导Transformer的对抗扩散模型T-CADiff在医学图像分割中的创新 ...

针对医学图像分割中扩散模型(Diffusion Model)存在的特征错位和全局信息利用不足问题，西安交通大学团队提出T-CADiff模型。该研究通过条件引导Transformer(CGT)模块在傅里叶空间融合原始图像语义特征与噪声特征，结合GAN对抗训练提升生成真实性。在ISIC 2016数据集上 ...

知乎专栏 on MSN

谷歌新架构突破Transformer超长上下文瓶颈! Hinton灵魂拷问：后悔Open吗?

鱼羊发自凹非寺量子位 | 公众号 QbitAI Transformer的提出者谷歌，刚刚上来给了Transformer梆梆就两拳（doge）。两项关于大模型新架构的研究一口气在NeurIPS 2025上发布，通过“测试时训练”机制，能在推理阶段将上下文窗口扩展至200万token。两项新成果分别是： ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果