学习笔记：简单认识一下DeepSeek-脚本导航

> 自媒体 > （AI）人工智能 > 学习笔记：简单认识一下DeepSeek

学习笔记：简单认识一下DeepSeek

来源：云体验师

2025-02-09 12:08:05

513

管理

2024年12月26日，开源AI模型DeepSeek V3发布就引起了很大关注度。不仅是因为性能够好，更主要是因为它训练成本很低。随后发布的R1版本的推理性能又上了一个台阶，足以挑战OpenAI的o1，因此再次爆火。

DeepSeek V3，低成本高性能表现的国产开源大模型

DeepSeek V3是一个强大的混合专家（MoE）语言模型。它拥有6710亿参数，但在生成每个Token的时候只会激活370亿个参数。

名词解释1：混合专家语言模型

混合专家（Mixture of Experts, MoE）语言模型是一种特殊的模型设计，它的核心思想是“分工合作”。比如，让一个人从头到尾完成一项复杂工作，这个人很难擅长所有环节。于是，你决定组建一个团队，每个人都是某个领域的专家，每部分的任务交给特定的人，也就是让模型的一部分工作。比如，只让370亿个参数工作。

为了提高推理效率和训练成本的可控性，DeepSeek-V3采用了Multi-head Latent Attention (多头潜在注意力)和DeepSeekMoE架构，这些架构在DeepSeek-V2中得到了验证。

名词解释2：多头潜在注意力

多头潜在注意力（MLA）不仅可以更准确地找到重要的信息，而且还知道这些信息之间的关系。就像你和朋友们一起读一本书，每个人负责不同的部分，最后汇总所有人的发现。这样既能更快地完成任务，又能更全面地理解内容。在语言模型中，MLA 帮助模型更好地理解文本，比传统的MHA方法更省计算资源。

DeepSeek V3引入了无辅助损失负载均衡策略（auxiliary-loss-free strategy），旨在优化模型在不同任务间的负载分配，减少负载均衡可能带来的性能下降。同时，它设置了多token预测训练目标（MTP），增强了模型在处理多任务时的表现。

DeepSeek-V3在14.8万亿高质量、多样化的token上进行了预训练，随后通过监督微调和强化学习阶段进一步提升模型的能力。

经过全面评估，DeepSeek-V3超越了Llama 3.1 405B和通义千问 2.5 72B，并接近Anthropic的Claude 3.6 Sonnet和OpenAI的GPT-4o等闭源模型。这也是DeepSeek-V3发布后能快速获得关注的主要原因。

DeepSeek-V3不仅模型性能表现非常优异，而且训练过程非常高效，总共仅用了278.8万H800 GPU机时。最后成本仅为557万美元，远低于其他大型语言模型的训练成本。

事实上，DeepSeek设计了FP8混合精度训练框架，首次验证了FP8训练在极大规模模型上的可行性和有效性。

这点非常重要，如今FP32在大规模训练中的使用逐渐减少，仅在训练过程中关键的梯度计算部分使用，用的最多是FP16，更低的计算精度可以减少内存占用和计算量，从而加速训练过程，但用FP8这种精度的还是非常少的。

总之，DeepSeek通过算法、框架和硬件的共同设计，克服了跨节点MoE训练中的通信瓶颈，几乎实现了计算和通信的完全重叠，大大提高了训练效率并降低了训练成本。完成了一次漂亮的工程实践。

在278.8万H800 GPU机时当中，预训练占了266.4万。后续训练阶段用了10万GPU机时，后训练阶段主要是将DeepSeek-R1系列模型中的推理能力蒸馏到了DeepSeek-V3，显著提升了推理性能。

名词解释3：模型蒸馏

所谓蒸馏，就是将DeepSeek-R1模型作为老师模型，通过向老师模型发送一系列的提示词，得到输出数据。将提示词和回答的数据用来给作为学生模型的DeepSeek-V3做微调，就等于将DeepSeek-R1的知识传递给了DeepSeek-V3。

DeepSeek-R1，对标OpenAI o1模型的推理模型

为了支持学术界的研究，开发团队将DeepSeek-R1-Zero、DeepSeek-R1以及从DeepSeek-R1中蒸馏出的六个精简模型也都开源了。其中，DeepSeek-R1-Distill-Qwen-32B在多个基准测试中超过了OpenAI-o1-mini。

Meta的AI大佬杨立昆则认为，这不是中国AI超越了美国AI，而是开源的模式超越了封闭的模式。DeepSeek将V3和R1都开源给业界的做法显然也是支持这一看法的。

本文主要内容来自DeepSeek Github主页：

https://github.com/deepseek-ai/DeepSeek-V3?tab=readme-ov-file

https://github.com/deepseek-ai/DeepSeek-R1?tab=readme-ov-file

赏礼

赏钱

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

AMD：Deepseek 浇油，GPU“备胎” 梦断 ASIC

4个月前

deepseek功能介绍，如何快速认识deepseek

4个月前