> 自媒体 > (AI)人工智能 > 学习笔记:简单认识一下DeepSeek
学习笔记:简单认识一下DeepSeek
来源:云体验师
2025-02-09 12:08:05
513
管理

2024年12月26日,开源AI模型DeepSeek V3发布就引起了很大关注度。不仅是因为性能够好,更主要是因为它训练成本很低。随后发布的R1版本的推理性能又上了一个台阶,足以挑战OpenAI的o1,因此再次爆火。

DeepSeek V3,低成本高性能表现的国产开源大模型

DeepSeek V3是一个强大的混合专家(MoE)语言模型。它拥有6710亿参数,但在生成每个Token的时候只会激活370亿个参数。

名词解释1:混合专家语言模型

混合专家(Mixture of Experts, MoE)语言模型是一种特殊的模型设计,它的核心思想是“分工合作”。比如,让一个人从头到尾完成一项复杂工作,这个人很难擅长所有环节。于是,你决定组建一个团队,每个人都是某个领域的专家,每部分的任务交给特定的人,也就是让模型的一部分工作。比如,只让370亿个参数工作。

为了提高推理效率和训练成本的可控性,DeepSeek-V3采用了Multi-head Latent Attention (多头潜在注意力)和DeepSeekMoE架构,这些架构在DeepSeek-V2中得到了验证。

名词解释2:多头潜在注意力

多头潜在注意力(MLA)不仅可以更准确地找到重要的信息,而且还知道这些信息之间的关系。就像你和朋友们一起读一本书,每个人负责不同的部分,最后汇总所有人的发现。这样既能更快地完成任务,又能更全面地理解内容。在语言模型中,MLA 帮助模型更好地理解文本,比传统的MHA方法更省计算资源。

DeepSeek V3引入了无辅助损失负载均衡策略(auxiliary-loss-free strategy),旨在优化模型在不同任务间的负载分配,减少负载均衡可能带来的性能下降。同时,它设置了多token预测训练目标(MTP),增强了模型在处理多任务时的表现。

DeepSeek-V3在14.8万亿高质量、多样化的token上进行了预训练,随后通过监督微调和强化学习阶段进一步提升模型的能力。

经过全面评估,DeepSeek-V3超越了Llama 3.1 405B和通义千问 2.5 72B,并接近Anthropic的Claude 3.6 Sonnet和OpenAI的GPT-4o等闭源模型。这也是DeepSeek-V3发布后能快速获得关注的主要原因。

DeepSeek-V3不仅模型性能表现非常优异,而且训练过程非常高效,总共仅用了278.8万H800 GPU机时。最后成本仅为557万美元,远低于其他大型语言模型的训练成本。

事实上,DeepSeek设计了FP8混合精度训练框架,首次验证了FP8训练在极大规模模型上的可行性和有效性。

这点非常重要,如今FP32在大规模训练中的使用逐渐减少,仅在训练过程中关键的梯度计算部分使用,用的最多是FP16,更低的计算精度可以减少内存占用和计算量,从而加速训练过程,但用FP8这种精度的还是非常少的。

总之,DeepSeek通过算法、框架和硬件的共同设计,克服了跨节点MoE训练中的通信瓶颈,几乎实现了计算和通信的完全重叠,大大提高了训练效率并降低了训练成本。完成了一次漂亮的工程实践。

在278.8万H800 GPU机时当中,预训练占了266.4万。后续训练阶段用了10万GPU机时,后训练阶段主要是将DeepSeek-R1系列模型中的推理能力蒸馏到了DeepSeek-V3,显著提升了推理性能。

名词解释3:模型蒸馏

所谓蒸馏,就是将DeepSeek-R1模型作为老师模型,通过向老师模型发送一系列的提示词,得到输出数据。将提示词和回答的数据用来给作为学生模型的DeepSeek-V3做微调,就等于将DeepSeek-R1的知识传递给了DeepSeek-V3。

DeepSeek-R1,对标OpenAI o1模型的推理模型

为了支持学术界的研究,开发团队将DeepSeek-R1-Zero、DeepSeek-R1以及从DeepSeek-R1中蒸馏出的六个精简模型也都开源了。其中,DeepSeek-R1-Distill-Qwen-32B在多个基准测试中超过了OpenAI-o1-mini。

Meta的AI大佬杨立昆则认为,这不是中国AI超越了美国AI,而是开源的模式超越了封闭的模式。DeepSeek将V3和R1都开源给业界的做法显然也是支持这一看法的。

本文主要内容来自DeepSeek Github主页:

https://github.com/deepseek-ai/DeepSeek-V3?tab=readme-ov-file

https://github.com/deepseek-ai/DeepSeek-R1?tab=readme-ov-file

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
土耳其为何对中国汽车下手?因为实在打不过了
在土耳其的奇瑞汽车据金融界的报道,土耳其《官方公报》(Official Gazet..
裁员太猛,理想又吃回头草
“前两天HR又找我,想让我回去,由于补偿金还没给,这段时间休假白送我,..
深度关注丨汽车消费向“新”而行
中央纪委国家监委网站 李云舒图为近日,在河北省邯郸市永年区汽车促销活..
奔驰全新C级曝光!明年首发/内饰升级三块大屏
日前爱卡汽车再次获取了一组奔驰全新C级纯电版车型渲染图片,新车预计将..
放松汽车限购虽迟但已至——关于汽车限购政策的来由、现状与经济效益测算..
编者按由于世纪之初的交通拥堵与气候问题,自2010年以来全国多地开始实行..
途岳以空间和发动机见长,但还能持续多久
买车你最在意什么,对于家用车来说,大家在意两点。首先是车子的空间,只..
5月新能源卖爆了!埃安重回4万,理想冲至3万5,蔚来、极氪破纪录……..
鲜花盛开的5月,多地汽车以旧换新政策纷纷出台,新能源汽车下乡再启新程..
特斯拉全新Model Y曝光!用“3”同款外观/内饰翻新
日前爱卡汽车获取了一组特斯拉全新Model Y车型外观渲染图片,新车预计最..
汽车价值战的“问界范式”,九个月从稚嫩走到成熟
王子阳/文从微型电动车市场,到中高端增程车市场,再到混动紧凑型轿车市..
关于作者
细雨入梦(普通会员)
文章
1318
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40408 企业收录2984 印章生成248702 电子证书1107 电子名片64 自媒体77267

@2022 All Rights Reserved 浙ICP备19035174号-7
0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索