> 自媒体 > (AI)人工智能 > GPT3 的工作原理 - 可视化和动画
GPT3 的工作原理 - 可视化和动画
来源:钻井工程师随笔
2023-05-06 16:35:01
895
管理
How GPT3 Works - Visualizations and AnimationsGPT3 的工作原理 - 可视化和动画

Jay Alammar 发表的一篇blog,我用机器翻译转给大家看看,关于最火热的GPT3的工作原理。

原文地址:

https://jalammar.github.io/how-gpt3-works-visualizations-animations/

The tech world is abuzz with GPT3 hype. Massive language models (like GPT3) are starting to surprise us with their abilities. While not yet completely reliable for most businesses to put in front of their customers, these models are showing sparks of cleverness that are sure to accelerate the march of automation and the possibilities of intelligent computer systems. Let’s remove the aura of mystery around GPT3 and learn how it’s trained and how it works.科技界充斥着 GPT3 炒作。大规模语言模型(如 GPT3)的能力开始让我们大吃一惊。虽然对于大多数企业来说,展示在客户面前的这些模型还不是完全可靠,但这些模型正在显示出聪明的火花,这些火花肯定会加速自动化的进程和智能计算机系统的可能性。让我们揭开 GPT3 的神秘面纱,了解它的训练方式和工作原理。

A trained language model generates text.经过训练的语言模型生成文本。

We can optionally pass it some text as input, which influences its output.我们可以选择将一些文本作为输入传递给它,这会影响它的输出。

The output is generated from what the model “learned” during its Training period where it scanned vast amounts of text.输出是根据模型在扫描大量文本的训练期间“学习”的内容生成的。

Please note: This is a description of how GPT-3 works and not a discussion of what is novel about it (which is mainly the ridiculously large scale). The architecture is a transformer decoder model based on this paper https://arxiv.org/pdf/1801.10198.pdf请注意:这是对 GPT-3 工作原理的描述,而不是讨论它的新颖之处(主要是荒谬的大规模)。该架构是基于本文https://arxiv.org/pdf/1801.10198.pdf的transformer解码器模型

GPT3 is MASSIVE. It encodes what it learns from training in 175 billion numbers (called parameters). These numbers are used to calculate which token to generate at each run.GPT3 是巨大的。它用 1750 亿个数字(称为参数)对从训练中学到的内容进行编码。这些数字用于计算每次运行时要生成的令牌。

The untrained model starts with random parameters. Training finds values that lead to better predictions.未经训练的模型以随机参数开始。训练会找到导致更好预测的值。

These numbers are part of hundreds of matrices inside the model. Prediction is mostly a lot of matrix multiplication.这些数字是模型中数百个矩阵的一部分。预测主要是很多矩阵乘法。

In my Intro to AI on YouTube, I showed a simple ML model with one parameter. A good start to unpack this 175B monstrosity.在我在 YouTube 上的人工智能介绍中,我展示了一个带有一个参数的简单 ML 模型。打开这个 175B 怪物的包装是一个好的开始。

To shed light on how these parameters are distributed and used, we’ll need to open the model and look inside.为了阐明这些参数的分布和使用方式,我们需要打开模型并查看内部。

GPT3 is 2048 tokens wide. That is its “context window”. That means it has 2048 tracks along which tokens are processed.GPT3 是 2048 个令牌宽。那就是它的“上下文窗口”。这意味着它有 2048 个处理令牌的轨道。

It’s impressive that this works like this. Because you just wait until fine-tuning is rolled out for the GPT3. The possibilities will be even more amazing.令人印象深刻的是,它是这样工作的。因为您只需等到 GPT3 推出微调。可能性将更加惊人。

Fine-tuning actually updates the model’s weights to make the model better at a certain task.微调实际上是更新模型的权重,使模型在某个任务上表现更好。

Written on July 27, 2020 写于 2020 年 7 月 27 日

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
合资车再次大胜!最新轿车质量年度排名,思域丢冠,威朗星瑞达标..
很长时间以来,合资车在国内市场占据主导地位,而大家之所以更认可合资车..
国产车VS合资车:质量对决,谁更胜一筹?
近年来,国产车与合资车的质量之争愈演愈烈。随着国产车企在技术、配置和..
同价位的国产车真的不如合资车?拆解三大争议
#为什么国产车的质量不如合资车好?#引言近年来,“国产车与合资车质量对..
2025还有合资车值得买?BBA换新2.0T,大众日系便宜卖智驾?..
第二是尺寸进一步加长,除了探岳L轴距增加了60mm外,凌渡L、速腾L和Polo ..
2021年质量最好的十大合资车揭晓,本田特斯拉前五,现代力压日产..
导读:对于合资车品牌大家都是非常认可的,而像丰田、本田、日产、宝马、..
落地不到10万!这些大牌合资月薪3k就能买,还能说不买吗..
近年来,国产车的进步虽然明显,但仍有不少国人迷恋合资车型,买买君觉得..
被国产车逼急了!这三款合资车“内卷”严重,定价刷新了下限!..
今年以来的汽车市场,有两个特别“反常”的现象。一是新能源异军突起,渗..
这五款合资车销量急剧下滑!暴跌5倍到10倍,如今6.89万都卖不动..
曾经风光无限的车型,如今却纷纷面临销量暴跌的局面。我们常常看到曾是街..
deepseek:合资车和国产车型的优缺点到底在哪?怎么选择?..
在选购汽车时,合资车与国产车的选择一直是消费者关注的重点。deepseek的..
关于作者
杨子(普通会员)
文章
1464
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40406 企业收录2984 印章生成244941 电子证书1089 电子名片62 自媒体76477

@2022 All Rights Reserved 浙ICP备19035174号-7
0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索