Deepseek突破AI训练烧钱魔咒:1/525成本MT-Bench媲美GPT-4o

更新时间:2025-04-08 10:33:00

IT之家 4 月 8 日消息,深度求索(DeepSeek)联合清华大学,合作推出全新 AI 对齐技术 SPCT(自我原则点评调优),突破传统依赖海量训练数据的模式,通过推理阶段动态优化输出质量。

根据研究团队 4 月 4 日发表的论文,该技术通过“原则合成-响应生成-批判过滤-原则优化”的递归架构,让模型能在推理时动态修正输出。

SPCT 方法分为两个阶段。一是拒绝式微调作为冷启动阶段,让 GRM 适应不同输入类型并以正确格式生成原则与点评内容。二是基于规则的在线强化学习阶段,采用基于规则的结果奖励,鼓励 GRM 生成更好的原则与点评内容,提升推理阶段可扩展性。

测试中,270 亿参数的 DeepSeek-GRM 模型测试显示,通过每查询 32 次采样的推理计算,达到了 671B 规模模型的性能水平。这种硬件感知设计采用混合专家系统(MoE),支持 128k token 上下文窗口,单查询延迟仅 1.4 秒。

报告指出 SPCT 显著降低高性能模型的部署门槛,以 DeepSeek-GRM 模型为例,训练成本约 1.2 万美元(IT之家注:现汇率约合 87871 元人民币),MT-Bench 得分 8.35。

模型规模MT-Bench预估训练成本
DeepSeek-GRM27B8.35$12,000
Nemotron-4340B8.41$1.2 million
GPT-4o1.8T8.72$6.3 million

作为对比,340B 的 Nemotron-4 需 120 万美元获得 8.41 分。OpenAI 的 1.8T 参数 GPT-4o 虽得 8.72 分,但成本高达 630 万美元(现汇率约合 4613.2 万元人民币),而 DeepSeek-GRM 成本仅为 525 分之一。该技术减少 90% 人工标注需求,能耗较 DPO 降低 73%,为实时机器人控制等动态场景提供新可能。

相关推荐

一加中国区总裁李杰“总结”13T手机信息,本月发售

IT之家 4 月 11 日消息,一加中国区总裁李杰今日发文,对一加 13T 手机的部分信息进行了总结,并称“这个月一定让大家都能买得到”。黄金尺寸小屏,定位「小屏大魔王」,又小又美又强;全新冰川电池,容量 6 开头,小屏中的唯一;出厂写入风驰游戏内核,游戏体验断层领先;纯直的小直屏,手感过渡非常丝滑

2025-04-11 20:40:00

夜景人像神器!OPPO Find X8 Ultra、Find X8s现场实拍上手

IT之家 4 月 11 日消息,4 月 10 日晚间,OPPO 发布年度影像旗舰 Find X8 Ultra,其采用轻薄直屏设计,搭载全新 OPPO LUMO 凝光影像系统和夜神五摄影像系统,包括全球首个分区色温感知镜头 —— 丹霞原彩镜头,改变了夜景人像拍摄的清晰度与色彩表现。此外,Find X8

2025-04-11 00:16:00

聚势打造“人工智能+” 赋能产业点亮未来——五象新区着力推进人工智能产业蓬勃发展

当前,“人工智能+”持续走热,人工智能成为引领新一轮科技革命和产业变革的重要驱动力量。《2025年南宁市政府工作报告》提出,“做实‘一体两翼’产业发展格局,打造产业园区改革发展新标杆”,强调“‘一体’支撑强牵引。聚焦先进制造业和生产性服务业深度融合,充分发挥国家级平台示范带动作用,重点发展面向东盟的

2025-04-10 13:08:00

MIT研究揭示AI并无稳定价值观,“对齐”挑战远超预期

IT之家 4 月 10 日消息,几个月前,一项研究暗示随着人工智能(AI)越来越复杂,其会发展出“价值体系”,例如优先考虑自身福祉而非人类福祉。然而,麻省理工学院(MIT)最近发表的一篇论文却给这种夸张的观点泼了冷水,得出结论认为 AI 实际上并没有任何连贯的价值观。MIT 研究的共同作者表示,他们

2025-04-10 08:06:00

金融业为何青睐科技人才

来源:经济日报在人工智能技术应用不断深化的背景下,金融业对科技人才的渴求愈加强烈。近期陆续发布的上市银行2024年年报显示,5家国有大型商业银行2024年金融科技投入已超1100亿元,截至2024年12月末,五大行的金融科技人员数量已超10万人。回溯历史不难发现,信息技术与金融业的双向奔赴由来已久,

2025-04-10 06:17:00