
DeepSeek-V3.2 很强很火爆,但随着讨论的深入配资论坛交流,还是有 bug 被发现了。
并且是个老问题:浪费 token。

△图源:x@Hangslin
不少网友都提到,DeepSeek-V3.2 的长思考增强版 Speciale,确确实实以开源之姿又给闭源 TOP 们上了压力,但问题也很明显:
在面对复杂任务时,消耗的 token 数偏多,甚至可能会出现"又长又错"的答案。
比如,同样解决一个问题,Gemini 只用了 2 万个 token,而 Speciale 需要花费 7.7 万个。

这是怎么一回事?
有研究者指出,这其实是自 DeepSeek-R1-Zero 以来,DeepSeek 系列模型一直存在的一个" bug "。

简单来说,问题出在了 GRPO 算法上。
来自 Sea AI Lab 和新加坡国立大学等研究机构的学者认为,GRPO 存在两个"隐藏偏见"。
长度偏见:错误答案越长,惩罚反而会越轻
GRPO 计算奖励时,会把"答案长度"算进去 ,导致短的错误答案被罚得更重。
结果就是:模型会故意生成"又长又错"的答案,看起来像是在"认真推理",其实是在"凑字数躲惩罚"。
难度偏见:太简单或太难的题被过度关注
GRPO 会根据"同一批题的得分标准差"调整权重。比如一道题所有人都做对(标准差小),或所有人都做错(标准差也小),这道题会被当成 "重点" 反复训练;而中等难度、有人对有人错的题(标准差大),反而被忽略。但实际训练中,中等难度的题才是提升能力的关键。
这项研究的核心作者 Zichen Liu 指出,DeepSeek-V3.2 已经通过新的优势值计算方式,修正了"难度偏见"(如下图红框所示)。
但仍然保留了有偏的长度规范项(如下图蓝框所示)。也就是说,"长度偏见"依然存在。

实际上,这个问题 DeepSeek 官方报告亦有提及。
技术报告中,DeepSeek 研究人员坦承,token 效率对于 DeepSeek-V3.2 而言,仍然是个挑战:通常情况下,本次上新的两个模型需要生成更长的轨迹,才能达到 Gemini-3.0-Pro 的输出质量。
而 DeepSeek-V3.2-Speciale 本身,也是特意放宽了 RL 的长度限制,允许模型生成极长思维链,使得模型能够通过大量消耗 token 来进行深度的自我修正和探索。
可以说走的是一条"在超长上下文下持续扩展强化学习"的路线。
考虑到从百万 token 的输出成本来看,DeepSeek-V3.2 价格仅为 GPT-5 的 1/24,似乎也尚可接受。
另外,也有网友指出,DeepSeek 的 128K 上下文已经很久没动了。这与 GPU 资源有限也不无关系。

你是否也已经用上 DeepSeek-V3.2 了?体验如何,欢迎在评论区与我们分享 ~
参考链接:
[ 1 ] https://x.com/zzlccc/status/1995770284385992798
[ 2 ] https://api-docs.deepseek.com/news/news251201
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
� � 不到 2 周,量子位 MEET2026 智能未来大会就要来了!
张亚勤、孙茂松等 AI 行业重磅嘉宾,以及百度、高通、亚马逊等头部 AI 企业已确认出席,RockAI、太初元碁、自变量、小宿科技等业内新秀也将参与分享,还有更多嘉宾即将揭晓 � � 了解详情
� � 12 月 10 日
� � 北京金茂万丽酒店
,期待与你共论 AI 行业破局之道
� � 点亮星标 � �
科技前沿进展每日见配资论坛交流
华林优配提示:文章来自网络,不代表本站观点。