GPU Cache - 搜索 News

NVIDIA放大招！2028年Feynman GPU携X3D堆叠破AI推理

在AI算力赛道，NVIDIA早已凭借Hopper、Blackwell等架构GPU，在AI训练领域建立起难以撼动的优势。但随着语音对话、实时翻译等即时AI场景需求爆发，传统GPU在推理延迟上的短板逐渐凸显。近日，据行业消息披露，NVIDIA正瞄准这一痛 ...

Pchome电脑之家

AMD疑似为Navi 31 GPU预留了3D V-Cache连接点

根据测试结果表明，AMD似乎为其全新的顶级显卡GPU也预留了3D V-Cache连接点 AMD目前已经在其EPYC服务器处理器和部分消费级处理器产品线上采用了3D V-Cache技术。但根据来自海外工程师的最新测试结果发现，AMD似乎为其全新的顶级显卡GPU也预留了3D V-Cache连接点，这 ...

电子工程专辑

GPU: 衡量计算效能的正确姿势（3）

上期我们讲了现代计算机体系结构通过处理器（CPU/GPU）和内存的交互来执行计算程序，处理输入数据，并输出结果。实际上 ...

腾讯网

vLLM 吞吐量优化实战：10个KV-Cache调优方法让tokens/sec翻倍

GPU 性能没问题，模型也训练得不错，但 token 吞吐量就是上不去？问题多半出在 KV-cache 上。本文整理了 10 个实际可用的优化方向，都是能直接上生产环境的那种。把 utilization 往上调，直到不再频繁出现 preemption；然后再调 max-num-seqs，让批次保持密集但别超出 ...

1 天

AMD 公布首款 2nm EPYC Venice Zen6 CPU 和 Instinct MI455X GPU

Helios 机架采用全液冷设计，配备四个 Instinct MI455X GPU 和一个 EPYC Venice Zen6 CPU。该系统采用 AMD 的 Pensando“Salina”400 DPU，以及 ...

十轮网科技资讯 on MSN

AMD亮相全球首款2nm EPYC Venice Zen 6 CPU与Instinct MI455X GPU，专为Helios AI ...

AMD展示了其下一代、全球首款2nm EPYC Venice “Zen 6” CPU与Instinct MI455X GPU，专为Helios AI机架设计。AMD迈入2nm时代面向Helios AI机架的下一代EPYC Venice “Zen 6” ...

新浪网

上海AI Lab胡侠：KV Cache压缩之后，可让价格2万美金的GPU发挥出20万 ...

目前，不同大模型厂商发布的大语言模型在处理超长上下文方面已经有显著突破，最高的已能支持数百万 Token 的输入，例如 MiniMax-M1、Qwen2.5-1M 系列模型，均支持百万Token（1M）级别的超长上下文处理能力。但是这场有关提升大模型上下文长度的“军备赛”依然不 ...

电子工程专辑

深入学起Cache系列3:多核多Cluster多系统之间的缓存一致性

baron (网名:代码改变世界ctw)，九年手机安全/SOC底层安全开发经验。擅长trustzone/tee安全产品的设计和开发阅码场付费会员专业 ...

7 天on MSN

NVIDIA要用上X3D堆叠设计！下代GPU将引入LPU单元

通过堆叠技术，NVIDIA可以将运算核心留在主芯片，而将需要大量面积的SRAM独立成另一层芯片堆叠上去。台积电的A16制程一大特色是支持背面供电技术，这项技术可以腾出芯片正面的空间，专供垂直信号连接，确保堆叠的LPU能以极低功耗进行高速数据交换。

一些您可能无法访问的结果已被隐去。

显示无法访问的结果