线性RNN赢了?近日,谷歌DeepMind一口气推出两大新架构,在d基准测试中超越了Transformer。新架构不仅保证了高效的训练和推理速度,并且成功扩展到了14B。 这次的挑战者来自大名鼎鼎的谷歌DeepMind,并且一口气推出了两种新架构,— ...
“Transformer完全不能支撑我们下一步,尤其是在Agent时代走向下一步。”12月18日,90后AI大牛、阶跃星辰首席科学家张翔雨公布了自己最新的研究结论,直指当前AI领域核心架构Transformer的技术瓶颈。 Transformer架构是当前人工智能,特别是生成式AI和大语言模型的基石。它是2017 年由谷歌团队在论文《Attention Is All ...
而且,之前研究中树投影方法精确地描述了Transformer对输入进行的内部计算可以用树结构神经编码近似的程度,为任何Transformer提供了树结构度量分数(tscore),并提供了一个在输入字符串上最佳近似其计算的二叉树。
而在近期 LSTM 之父 Jürgen Schmidhuber 的 USI & SUPSI 瑞士 AI 实验室团队的一项新研究中,分析表明,当前流行的旋转位置嵌入(RoPE)方法中的 what 与 where 是纠缠在一起的。这种纠缠会损害模型性能,特别是当决策需要对这两个因素进行独立匹配时。
在圆桌论坛环节,当主持人把话筒递给阶跃星辰首席科学家张祥雨,询问关于模型架构未来时,这位学术大牛抛出了一枚“深水炸弹”:现有的Transformer架构无法支撑下一代Agent。
近日,英伟达正式宣布其深度学习超级采样(DLSS)技术的下一步发展:DLSS 4.5。据悉,此次更新将专注于改进超级分辨率(Super ...
Transformer 很成功,更一般而言,我们甚至可以将(仅编码器)Transformer 视为学习可交换数据的通用引擎。由于大多数经典的统计学任务都是基于独立同分布(iid)采用假设构建的,因此很自然可以尝试将 Transformer 用于它们。 针对经典统计问题训练 Transformer 的 ...
快科技6月26日消息,据媒体报道,美国新兴的芯片创业公司Etched发布其首款AI芯片——Sohu。 这款芯片在运行大型模型时展现出了惊人的性能,其速度超越了行业巨头英伟达的H100高达20倍,即便是与今年3月才面世的顶尖芯片B200相比,Sohu也展现出超过10倍的优越 ...
智东西7月26日报道,今日,世界人工智能大会开幕,在上海一家AI创企的展台前,我们目睹了中国AI创业公司正向着主流Transformer架构发起强势冲锋。 一台机器狗,学习了用户的打招呼手势后,不到30秒就学会并进行了复刻,且完全模仿了用户使用右手打招呼的 ...
针对医学图像分割中扩散模型(Diffusion Model)存在的特征错位和全局信息利用不足问题,西安交通大学团队提出T-CADiff模型。该研究通过条件引导Transformer(CGT)模块在傅里叶空间融合原始图像语义特征与噪声特征,结合GAN对抗训练提升生成真实性。在ISIC 2016数据集上 ...
鱼羊 发自 凹非寺量子位 | 公众号 QbitAI Transformer的提出者谷歌,刚刚上来给了Transformer梆梆就两拳(doge)。 两项关于大模型新架构的研究一口气在NeurIPS 2025上发布,通过“测试时训练”机制,能在推理阶段将上下文窗口扩展至200万token。 两项新成果分别是: ...