英特尔宣布了DeepMath,这是一个基于Qwen3-Thinking构建的轻量级代理,专门用于解决数学问题。为了解决大型语言模型(LLM)在数学推理方面的常见限制,DeepMath会生成小段的Python脚本,支持并增强其问题解决过程。
顶尖国际模型如GPT、Gemini在专家级数学难题FrontierMath上表现优异,但在真正高难度问题面前仍未满分,显示出推理能力仍有提升空间。与此同时,AI推理能力和强化学习的进步让增长速度几乎翻倍,成本大幅下降,许多模型已能在消费级硬件上运行。
12月25日消息,专注于人工智能基准测试的非营利组织Epoch AI发布的年终报告显示,整体来看,AI模型的能力正在快速提升。 顶尖国际模型如GPT、Gemini在专家级数学难题FrontierMath上表现优异,但在真正高难度问题面前仍未满分,显示出推理能力仍有提升空间。