当你听说某个AI模型在数学考试中得了满分时,可能会觉得人工智能的数学能力已经超越人类了。然而真实情况远比这复杂。最近这项来自腾讯和中国人民大学的研究揭示了一个令人深思的现象:当我们用真正的前沿数学研究来测试这些AI时,即便是最先进的模型也会暴露出巨大的能力短板。 研究团队开发了一个名为EternalMath的测试系统,它的特别之处在于能够自动从最新发表的数学论文中提取问题。这就好比给AI出题的老师 ...
以DeepSeek‑R1为例,仅靠强化学习训练,模型在AIME数学推理基准上的pass@1从15.6%提升至 77.9%,充分展示了RL在低数据量条件下即可实现大幅能力跃升,迅速成为后训练赛道的新范式。
结果让人大跌眼镜,WeDLM-8B在生成质量上直接超过了Qwen3-8B,平均得分高了2.1个点。 速度方面更离谱,对比vLLM部署的AR模型,WeDLM在数学推理任务上快了3倍,要是遇到低熵场景,比如生成固定格式的文本,速度能飙到10倍以上。
顶尖国际模型如GPT、Gemini在专家级数学难题FrontierMath上表现优异,但在真正高难度问题面前仍未满分,显示出推理能力仍有提升空间。与此同时,AI推理能力和强化学习的进步让增长速度几乎翻倍,成本大幅下降,许多模型已能在消费级硬件上运行。
本报记者李相如近期,全球数学界正悄然上演一场变革,几大标志性事件引发学界的持续关注和热议国产大模型DeepSeek-V3.2-Speciale在国际数学奥林匹克竞赛(IMO)、国际信息学奥林匹克竞赛(IOI)等顶级赛事中斩获金牌级成绩;菲尔兹奖得主陶哲轩借升级后的谷歌Gemini。
请媒体朋友们不要报道我们,让我们有更长久的时间可以收集整理数据。我们最怕捧杀了,您让我们保持低调,就是对中文算法圈做了大的贡献! 中文互联网上最古老最神秘(没有之一)的MOP里屋社区于2023.1.1庄重宣布: 在英明神武的猫扑管子带领下,决心发挥社区 ...
腾讯微信 AI 团队提出 WeDLM(WeChat Diffusion Language Model),通过在标准因果注意力下实现扩散式解码,在数学推理等任务上实现相比 vLLM 部署的 AR 模型 3 倍以上加速,低熵场景更可达 10 倍以上,同时保持甚至提升生成质量。