北航、人大和九坤投资共同撰写的论文 《Scaling Laws for Code: Every Programming Language Matters》 整理而成。 在代码大模型(Code LLMs)的预训练中,行业内长期存在一种惯性思维,即把所有编程语言的代码都视为同质化的文本数据,主要关注数据总量的堆叠。然而,现代软件开发本质上是多语言混合的,不同语言的语法特性、语料规模和应用场景差异巨大。
Python 中的自由线程功能可禁用全局解释器锁(GIL),目前已在 PEP 703 中得到完整实现。它还配套了一个自适应解释器思路,源自 Mark Shannon 领衔的 Faster CPython 项目(尽管微软已在今年 5 月停止官方支持,相关成果已沉淀进实现)。