导语:当技术论文成为舆论战场

3月27日,就在TurboQuant引发全球内存股血案的两天后,剧情出现了戏剧性反转。

RaBitQ系列论文的第一作者、苏黎世联邦理工学院博士后高健扬,在ICLR OpenReview平台和知乎同时发布公开评论,直指Google Research的TurboQuant论文存在方法、理论、实验三方面的严重问题。

这不是普通的学术争鸣——它涉及到一篇被Google以"数千万曝光量"推向公众的论文,以及背后可能存在的学术不端行为。


背景:两篇论文的交集

RaBitQ是什么?

RaBitQ是2024年发表的高维向量量化方法,核心创新之一是在量化前对输入向量施加随机旋转(Johnson-Lindenstrauss变换),利用旋转后坐标分布的性质实现最优误差界。

  • 发表时间:2024年5月(arXiv),随后发表于顶级会议SIGMOD 2024
  • 理论保证:被证明达到理论计算机顶级会议FOCS 2017给出的渐近最优误差界
  • 代码开源:C++实现,默认采用多线程并行

TurboQuant是什么?

Google Research的论文,声称是一种"接近信息论下界"的在线向量量化算法,主打KV Cache压缩。

  • 发表时间:2025年4月(arXiv),2026年1月被ICLR 2026接收
  • 宣传口径:“重新定义AI效率”、“KV Cache压缩6倍”
  • 市场影响:发布当天导致Micron、Western Digital等存储股集体下跌

RaBitQ作者提出的三大质疑

质疑一:系统性回避方法相似性

核心问题:TurboQuant与RaBitQ在方法层面有直接的结构联系——两者都在量化前对输入向量施加随机旋转。这是两篇论文方法设计中最核心、最接近的部分。

证据链

  • 2025年1月,TurboQuant第二作者Majid Daliri主动联系RaBitQ团队,请求协助调试Python版RaBitQ实现
  • TurboQuant作者在ICLR审稿回复中亲口描述自己的方法:“We achieve this by…applying a random rotation
  • 但论文正文中,RaBitQ被描述为"grid-based PQ",刻意省略了random rotation这一核心步骤
  • ICLR审稿人曾明确要求澄清两者关系,但定稿版反而将RaBitQ描述移到附录

Google的回应:“随机旋转和Johnson-Lindenstrauss变换已成为领域标准技术,不可能引用每一个使用它们的方法。”

RaBitQ作者的反驳:作为在相同问题设定下率先将随机旋转与向量量化结合、并建立最优理论保证的先行工作,RaBitQ应当在文中被准确描述。


质疑二:错误描述理论结果

核心问题:TurboQuant论文在不提供任何论据的情况下,将RaBitQ的理论保证定性为"次优(suboptimal)",原因归结为"较粗糙的分析(loose analysis)"。

事实真相

  • RaBitQ拓展版论文(arXiv:2409.09913)的Theorem 3.2中,已严格证明RaBitQ的误差界达到渐近最优
  • 基于这一结果,RaBitQ团队被邀请至理论计算机科学顶级会议FOCS的Workshop进行报告
  • 2025年5月,RaBitQ作者与Majid Daliri进行多轮邮件技术讨论,逐条澄清了这一错误
  • Majid Daliri明确表示已将讨论告知全体共同作者

结果:TurboQuant论文从投稿、审稿、接收到大规模宣发的全过程中,这个没有证据支撑的断言始终未被修正。


质疑三:刻意创造不公平实验环境

核心问题:TurboQuant论文使用劣化实现、关闭多线程、单核CPU测试RaBitQ,却使用A100 GPU测试自己的方法。

实验条件对比

项目RaBitQTurboQuant
实现语言作者自己翻译的Python未披露
硬件单核CPU,关闭多线程NVIDIA A100 GPU
官方代码C++多线程并行(未被使用)未开源

邮件证据:2025年5月,Majid Daliri在邮件中承认:

“we were using a single-core CPU instance, and multiprocessing was indeed disabled […] we weren’t fully utilizing parallelism, which explains why it was significantly slower”

论文披露情况:以上两点均未在论文中充分披露。读者看到的是"RaBitQ比TurboQuant慢数个数量级",却无从知道这一结论建立在刻意创造的不公平条件之上。


第四方质疑:实验基准口径不一

除了RaBitQ作者的质疑,第三方研究者Jonas Matthias Kübler也在ICLR OpenReview独立提出了另一层问题:

问题一:PyTorch vs JAX 口径不一

  • 论文中:速度基准测试使用的是 PyTorch
  • 博客推广时:却换成了 JAX
  • 问题:两者性能特征不同,这种口径切换让读者无法准确判断实际性能

问题二:FP32作为对比基准有失公允

  • TurboQuant博客以 FP32(32位浮点) 作为对比基准
  • 但在实际生产环境中,KV Cache量化早已普遍使用 FP16或BF16
  • 以FP32为基准得出的"6倍压缩"结论,在实际场景中可能并不成立

这些质疑与RaBitQ的指控形成了互补——前者关注实验设计的公平性,后者关注学术诚信的完整性


事件时间线

时间事件
2024年5月RaBitQ论文在arXiv发布,源代码公开
2024年9月RaBitQ拓展版论文发布,证明渐近最优性
2025年1月TurboQuant第二作者联系RaBitQ团队,请求协助调试
2025年4月TurboQuant论文在arXiv发布
2025年5月RaBitQ作者邮件指出实验条件差异和理论错误,TurboQuant方停止回复
2025年11月RaBitQ作者联系ICLR 2026 PC Chairs,未获回应
2026年1月TurboQuant论文被ICLR 2026接收
2026年3月TurboQuant通过Google官方渠道大规模推广,社交媒体浏览量达数千万次
2026年3月RaBitQ作者正式向TurboQuant全体作者发送邮件,要求修正
2026年3月27日RaBitQ作者在ICLR OpenReview和知乎公开发声

Google的回应与RaBitQ的下一步

Google的回应

  • 仅第一作者Amir Zandieh回复
  • 承诺会修正"问题二和问题三"(理论描述和实验环境)
  • 拒绝修正"问题一"(即讨论TurboQuant与RaBitQ在技术上的相似性)
  • 仅愿意在ICLR 2026正式会议结束之后才做相应修正

RaBitQ作者的下一步

  • 已在ICLR OpenReview发布公开评论
  • 向ICLR General Chairs、PC Chairs、Code and Ethics Chairs提交正式投诉
  • 计划在arXiv发布详细的技术报告
  • 考虑向相关机构进一步反映

争议的本质:署名、引用与学术诚信

有网友点出了这场争议的核心:

“这些研究者要的是署名和引用,他们并没有直接说这篇论文的结论是错的。”

这句话揭示了一个重要前提:RaBitQ作者并未质疑TurboQuant的技术价值本身,而是质疑:

  1. 学术记录的准确性:方法之间的关系应当被诚实呈现
  2. 引用的公平性:先行工作应当获得应有的学术认可
  3. 实验的可比性:对比应当建立在公平的基础之上

这是一个关于学术规范的争议,而非关于技术对错的争论。


这场争议告诉我们什么?

1. 学术传播与商业PR的张力

Google将一篇ICLR论文以"数千万曝光量"推向公众,这种体量下,“错误的学术叙事不需要主动传播,只需要不被纠正,就会自动成为共识”。

2. 同行评审的局限性

两位ICLR审稿人都曾要求澄清TurboQuant与RaBitQ的关系,但最终版本反而将相关内容移到附录。这暴露了顶级会议审稿流程在面对大厂论文时的无力。

3. 开源与可复现性的重要性

RaBitQ在论文发布时就开源了C++代码,而TurboQuant至今未发布官方实现。这种透明度差异,让不公平对比有了可操作空间。

4. 市场与技术的错位

就在这场学术争议爆发的同一天,TurboQuant已经引发了全球内存股的血案。市场反应的是"Google突破性算法"的叙事,而非论文本身的技术细节。


结语:真理越辩越明

RaBitQ作者在声明中写道:

“我们提出这些问题,目标是让公共学术记录准确地反映各方法之间的真实关系。”

这不是简单的"谁抄了谁"的争论,而是关于学术诚信、公平竞争和公共信息质量的严肃议题。

当一篇论文被赋予"重新定义AI效率"的光环,当它能在一天之内让数百亿市值蒸发,它背后的每一个断言、每一次比较、每一个实验设置,都应该经得起 scrutiny。

散热正常,慧哥。🧊


参考来源