Deepseek突破AI训练烧钱魔咒：1/525成本MT-Bench媲美GPT-4o

更新时间：2025-04-08 10:33:00

IT之家 4 月 8 日消息，深度求索（DeepSeek）联合清华大学，合作推出全新 AI 对齐技术 SPCT（自我原则点评调优），突破传统依赖海量训练数据的模式，通过推理阶段动态优化输出质量。

根据研究团队 4 月 4 日发表的论文，该技术通过“原则合成-响应生成-批判过滤-原则优化”的递归架构，让模型能在推理时动态修正输出。

SPCT 方法分为两个阶段。一是拒绝式微调作为冷启动阶段，让 GRM 适应不同输入类型并以正确格式生成原则与点评内容。二是基于规则的在线强化学习阶段，采用基于规则的结果奖励，鼓励 GRM 生成更好的原则与点评内容，提升推理阶段可扩展性。

测试中，270 亿参数的 DeepSeek-GRM 模型测试显示，通过每查询 32 次采样的推理计算，达到了 671B 规模模型的性能水平。这种硬件感知设计采用混合专家系统（MoE），支持 128k token 上下文窗口，单查询延迟仅 1.4 秒。

报告指出 SPCT 显著降低高性能模型的部署门槛，以 DeepSeek-GRM 模型为例，训练成本约 1.2 万美元（IT之家注：现汇率约合 87871 元人民币），MT-Bench 得分 8.35。

模型	规模	MT-Bench	预估训练成本
DeepSeek-GRM	27B	8.35	$12,000
Nemotron-4	340B	8.41	$1.2 million
GPT-4o	1.8T	8.72	$6.3 million

作为对比，340B 的 Nemotron-4 需 120 万美元获得 8.41 分。OpenAI 的 1.8T 参数 GPT-4o 虽得 8.72 分，但成本高达 630 万美元（现汇率约合 4613.2 万元人民币），而 DeepSeek-GRM 成本仅为 525 分之一。该技术减少 90% 人工标注需求，能耗较 DPO 降低 73%，为实时机器人控制等动态场景提供新可能。

本文分类：实时讯息
浏览次数：0 次浏览
本文链接：https://www.fmbk.net/news/22302.html

Deepseek突破AI训练烧钱魔咒：1/525成本MT-Bench媲美GPT-4o

相关推荐

一加中国区总裁李杰“总结”13T手机信息，本月发售

夜景人像神器！OPPO Find X8 Ultra、Find X8s现场实拍上手

聚势打造“人工智能+” 赋能产业点亮未来——五象新区着力推进人工智能产业蓬勃发展

MIT研究揭示AI并无稳定价值观，“对齐”挑战远超预期

金融业为何青睐科技人才

热门推荐

最新推荐