您现在的位置是:首页 > 编程 > 

chatGPT 背后的技术 之 Transformer 详解

2025-07-16 07:47:35
chatGPT 来自于 GPT.5, GPT.5 是在GPT 的 基础上做微调,而GPT基于GPT2, GPT2基于GPT1, GPT1 最终是 基于 Transformer。 Transformer 其实不仅仅是 chatGPT 背后的技术,Transformer是当今几乎所有先进模型(包括大模型)的核心,今天我就带你搞懂Transformer,Let's go! Tr

chatGPT 来自于 GPT.5, GPT.5 是在GPT 的 基础上做微调,而GPT基于GPT2, GPT2基于GPT1, GPT1 最终是 基于 Transformer。

Transformer 其实不仅仅是 chatGPT 背后的技术,Transformer是当今几乎所有先进模型(包括大模型)的核心,今天我就带你搞懂Transformer,Let's go!

Transformer 论文 题目叫 Attention Is All You eed, 翻译成中文叫“你需要的只是注意力”。

这是一篇2017年的谷歌团队的论文,在这篇论文之前,主要的序列化模型都是基于循环神经网络或者卷积神经网络,包括编码器和解码器。性能最佳的模型还通过注意机制连接编码器和解码器。这篇论文提出了一种新的简单网络架构,即Transformer,完全基于注意机制(这也是为什么论文标题叫“你需要的只是注意力”),不再使用循环和卷积。

循环模型通常沿着输入和输出序列的符号位置对计算进行分解。将位置与计算时间步骤对齐,它们生成一系列隐藏状态 ht,而ht作为前一个隐藏状态 ht-1 和位置 t 的输入的函数。这种固有的顺序特性导致在训练时无法并行化。

这篇论文提出了Transformer,这是一种模型架构,它摒弃了循环模型,而是完全依赖注意机制来绘制输入和输出之间的全局依赖关系。Transformer允许更大规模的并行化。

模型具体架构:

大多数有竞争力的神经序列转换模型都具有编码器-解码器结构。在这种结构中,编码器将输入符号表示的序列 (x1; :::; xn) 映射到连续表示的序列 z = (z1; :::; zn)。给定 z,解码器便逐个元素地生成输出序列 (y1; :::; ym)。在每个步骤中,模型都是自回归的,在生成下一个元素时,使用先前生成的信号作为额外的输入。Transformer遵循这种整体架构,编码器和解码器都使用堆叠的自注意力和逐点全连接层,编码器和解码器分别显示在下图的左半部分和右半部分。

编码器:编码器由 = 6 个相同的层堆叠而成。每一层包括两个子层。第一个是多头自注意力机制,第二个是简单的逐位置全连接前馈网络

#感谢您对电脑配置推荐网 - 最新i3 i5 i7组装电脑配置单推荐报价格的认可,转载请说明来源于"电脑配置推荐网 - 最新i3 i5 i7组装电脑配置单推荐报价格

本文地址:http://www.dnpztj.cn/biancheng/1099772.html

相关标签:无
上传时间: 2025-07-15 12:31:34
留言与评论(共有 12 条评论)
本站网友 李佐军
29分钟前 发表
使用先前生成的信号作为额外的输入
本站网友 松江论坛
15分钟前 发表
循环模型通常沿着输入和输出序列的符号位置对计算进行分解
本站网友 北京如家团购
2分钟前 发表
本站网友 农电工
20分钟前 发表
性能最佳的模型还通过注意机制连接编码器和解码器
本站网友 互联网资讯
18分钟前 发表
在生成下一个元素时
本站网友 trackid
26分钟前 发表
而GPT基于GPT2
本站网友 改善睡眠
4分钟前 发表
Transformer 其实不仅仅是 chatGPT 背后的技术
本站网友 景深是什么意思
15分钟前 发表
本站网友 永州二手房信息
7分钟前 发表
Transformer 其实不仅仅是 chatGPT 背后的技术
本站网友 建设项目经济评价方法与参数
22分钟前 发表
解码器便逐个元素地生成输出序列 (y1;
本站网友 小米手机销售量
0秒前 发表
它们生成一系列隐藏状态 ht