DeepSeek甩出了一张“王炸”
12月26日消息,王炸国产大模型DeepSeek推出DeepSeek-V3,甩出一个强大的王炸混合专家(Mixture-of-Experts, MoE)语言模型。主要的甩出技术迭代是671B的MoE,37B的王炸激活参数,在14.8万亿个高质量token上进行了预训练。甩出 AI圈表示,王炸“圣诞节真的甩出来了”。 翻译翻译,王炸首先,甩出从训练时间看,王炸正如DeepSeek在发布报告中指出的甩出那样,“尽管其表现出色,王炸DeepSeek-V3的甩出完整训练仅需2.788M H800 GPU小时。” 打个比方,王炸如果对标Llama 3 系列模型,其计算预算为 3930 万 H100 GPU Hours—— 大约可以训练 DeepSeek-V3 十五次。 从成本上看,如果我们假设 H800 GPU 的租金为每 GPU 小时 2 美元,DeepSeek-V3 的总训练成本仅为 557.6万美元。 不仅如此,在最新发布的技术报告里,经过与DeepSeek-V2.5、Qwen2.5-72B-Inst、Llama-3.1-405B-Inst、GPT-4o-0513和Claude-3.5-Sonnet-1022几个模型的跑分, DeepSeek-V3 在多个性能基准测试中表现出色。 在MATH500、AIME2024和Codeforces三个维度更是遥遥领先,数学和编程能力极强,一度超过 GPT-4o 和 Claude 3.5 Sonnet 这两大领先的闭源模型。 虽然在某些语言理解和软件工程任务中稍有逊色,但也是TOP2尖子选手。 DeepSeek自言,这得益于采用了Multi-head Latent Attention (MLA)和DeepSeek MoE架构,实现了高效的推理和经济高效的训练。 又引入了辅助损失自由负载平衡策略和多token预测训练目标,提升了模型性能。同时,在14.8万亿个高质量token上进行了预训练时,通过监督微调和强化学习阶段充分挖掘了其潜力。 综合评估显示,DeepSeek-V3优于其他开源模型,性能接近领先的闭源模型。并且,训练过程非常稳定,没有遇到不可恢复的损失峰值或回滚。相比之下,在同一天,ChatGPT再次宕机,修复时间尚未确定。 Meta AI 研究科学家田渊栋在X上对 DeepSeek-V3 “极有限的预算”和“强劲的表现”深感惊喜。 曾为 Glean 和 Google Search 的创始团队成员的 VC Deedy更是将DeepSeek-V3赞为“世界上最好的开源大模型”。 DeepSeek-V3的基础模型以英语和中文为主的多语言语料库上进行预训练,因此主要在一系列以英语和中文为主的基准测试上评估其性能,同时也在一个多语言基准测试上进行评估。而基于其内部集成的HAI-LLM框架,具体跑分如下: 如上可以看到 V3 在英语、编程、数学、中文、多语言几个维度的表现。 英语(English):DeepSeek-V3 Base 在大多数测试中表现最佳,例如在 BBH(EM)、MMLU(EM)、MMLU-Redux(EM)、DROP(F1)、ARC-Easy(EM)、ARC-Challenge(EM)、HellaSwag(EM)、PIQA(EM)、WinoGrande(EM)、TriviaQA(EM) 和 AGIEval(EM) 等测试中。在 Pile-test(BPB) 基准测试中,DeepSeek-V3 Base 的得分为 0.548,也略高于其他模型。 代码(Code):DeepSeek-V3 Base 在 HumanEval(Pass@1)、MBPP(Pass@1)、LiveCodeBench-Base(Pass@1)、CRUXEval-I(EM) 和 CRUXEval-O(EM) 等测试中表现突出。 数学(Math):DeepSeek-V3 Base 在 GSM8K(EM)、MATH(EM)、MGSM(EM) 和 CMath(EM) 等测试中表现优异。 中文(Chinese):DeepSeek-V3 Base 在 CLUEWSC(EM)、C-Eval(EM)、CMMLU(EM)、CMRC(EM)、C3(EM) 和 CCPM(EM) 等测试中表现良好。 多语言(Multilingual):DeepSeek-V3 Base 在 MMMLU-non-English(EM) 测试中表现最佳。 由于DeepSeek“大方”开源,Open AI水灵灵地被网友cue进行横向对比,有一种被push的支配感。 不少玩家还在X上分享了自己的使用体验,认为DeepSeek-V3 很“聪明”,并对Deepseek团队表示极大的尊重。 DeepSeek 是一家创新型科技公司,长久以来专注于开发先进的大语言模型(LLM)和相关技术,由知名私募巨头幻方量化孕育而生,作为大厂外唯一一家储备万张 A100 芯片的公司,幻方量化为DeepSeek的技术研发提供了强大的硬件支持。 早在通过开源大模型如 DeepSeek Coder 等,DeepSeek 就展示了在人工智能技术领域的实力。DeepSeek V2 模型的发布,更是提供了一种史无前例的性价比,推动了中国大模型价格战的发展,并因其创新的 MLA 架构和 DeepSeekMoESparse 结构而受到业界的广泛关注。 DeepSeek 被硅谷誉为“来自东方的神秘力量”,其 V2 模型论文在当时即被认为可能是今年最好的一篇。 半年后,DeepSeek 带着 V3 再次登场,用行动说明,中国大模型创业者,也可以加入到这场全球技术创新的 AI 竞赛中。
- 最近发表
- 随机阅读
-
- 悄无声息的就退了?你觉得马龙退出WTT世界排名的真正原因是?
- 三星集团今年市值蒸发161.25兆韩元!三星电子跌超30%成主因
- 2025年第九届亚冬会竞赛总日程(3.0版)正式发布
- 奥运冠军走进临沂体校 传授技艺激励新人
- 足协杯资格赛厦门集美诚毅1胜1负,明天与青岛崂山港帆争小组第二
- 曝剪映两位负责人离职 :曾带领产品月活用户超8亿 年收入近百亿
- 余承东亲测享界S9“车位到车位”智驾:自己全程啥也没干
- [流言板]幸福的烦恼!湖人博主提问:史密斯和八村垒谁应该首发?
- 坐拥1600万粉丝:网红“潘宏爱玩狗”不反对吃狗肉
- 索博:可能没人想到我们会有这么好的开局,我们相信斯洛特
- 樊振东再回应为何退出世界排名:此前未被告知退赛要罚款
- 新平台明年问世 英伟达:机器人ChatGPT时刻即将到来!
- 俄罗斯前国脚布加耶夫在俄乌战争中阵亡,终年43岁
- 钟睒睒再谈企业家直播带货:可能给农民制造畅销错觉
- 23岁墨西哥华裔球员布里希多加盟洲际杯亚军帕丘卡
- 崔东树:国产自主高端纯电轿车将赶超特斯拉
- 欧超母公司发言人:俄罗斯球队仍无法参加赛事
- 联发科天玑9400喜获年度最佳智能手机AI芯片大奖!
- 韩国客机着火179人遇难!韩国队官方发文哀悼:愿逝者安息
- 热火火箭冲突近距离视角回放:希罗和阿门汤普森口角,随后阿门将希罗放倒,双方冲突一触即发
- 搜索
-
- 友情链接
-
- 阿斯报:贝林厄姆身体状况无大碍,理论上可出战塞维利亚
- 两位核心引领两套班底,切尔西用轮换掀起青春风暴
- [流言板]杭州LGD.NBW遗憾止步2024年王者荣耀挑战者杯淘汰赛1/4决赛
- [流言板]一波拉开!米切尔连中4记三分,骑士第三节20
- [流言板]粉丝快冲!文班亚马Ins晒出LV为自己客制的外星人小包的照片
- 拉莫斯晒照祝本泽马37岁生日快乐:祝贺兄弟,想念你!
- 2025哔哩哔哩跨年晚会节目单公布
- 都说交易福克斯,其实交易小萨才是明智之举
- 英超彩经:阿森纳轻取升班马 布莱顿力擒小蜜蜂
- 明年量产 华为展示快充自动充电机器人:适配超充联盟所有车型
- 意甲第17轮裁判:马萨执法蒙扎vs尤文迪贝洛执法罗马vs帕尔马
- 明年3月、6月两次国家队比赛前,中超分别间隔17天和18天
- [流言板]约基奇、默里和威少三人同场15+10助攻,NBA历史首次
- 新世俱杯抽签,会缔造死亡之组么?吸金大赛如何让梦想成真
- 英超彩经:红军延续火热状态 曼城热刺持续低迷
- [流言板]每日邮报:富勒姆冬窗希望签下利物浦后腰远藤航
- [流言板]粉丝快冲!文班亚马Ins晒出LV为自己客制的外星人小包的照片
- 聪明且低调的斯洛特,绝非接替克洛普的“便宜货”
- [流言板]0失误100%命中率三双!马龙将本场DPOG颁给了威斯布鲁克
- 都说交易福克斯,其实交易小萨才是明智之举
- 英超彩经:曼城反弹红军大胜 蓝军告捷红魔擒狼
- 欧冠综述:巴萨客场力克多特 尤文二球完胜曼城
- 【欧冠】利物浦已经晋级?不严谨!一队与利物浦成镜像
- 伞兵为什么转架枪位,以前不一直都是自由人吗
- 意甲第17轮裁判:马萨执法蒙扎vs尤文迪贝洛执法罗马vs帕尔马
- [流言板]在误吹德拉蒙德技术犯规之后,裁判对纳斯承认“我搞砸了”
- 图片报:蓝军想签科贝尔且能掏出7000万欧,多特需欧冠资格来留人
- 对线一年了,17粉今天祝4AM,飘柔元旦,希望各位2015年心想事成,身体健康!
- [流言板]约基奇、默里和威少三人同场15+10助攻,NBA历史首次
- 李想强烈支持保留激光雷达:禾赛科技获三家国内销量Top 5车企定点