chatGPT 背后的技术 之 Transformer 详解
chatGPT 来自于 GPT.5, GPT.5 是在GPT 的 基础上做微调,而GPT基于GPT2, GPT2基于GPT1, GPT1 最终是 基于 Transformer。
Transformer 其实不仅仅是 chatGPT 背后的技术,Transformer是当今几乎所有先进模型(包括大模型)的核心,今天我就带你搞懂Transformer,Let's go!
Transformer 论文 题目叫 Attention Is All You eed, 翻译成中文叫“你需要的只是注意力”。
这是一篇2017年的谷歌团队的论文,在这篇论文之前,主要的序列化模型都是基于循环神经网络或者卷积神经网络,包括编码器和解码器。性能最佳的模型还通过注意机制连接编码器和解码器。这篇论文提出了一种新的简单网络架构,即Transformer,完全基于注意机制(这也是为什么论文标题叫“你需要的只是注意力”),不再使用循环和卷积。
循环模型通常沿着输入和输出序列的符号位置对计算进行分解。将位置与计算时间步骤对齐,它们生成一系列隐藏状态 ht,而ht作为前一个隐藏状态 ht-1 和位置 t 的输入的函数。这种固有的顺序特性导致在训练时无法并行化。
这篇论文提出了Transformer,这是一种模型架构,它摒弃了循环模型,而是完全依赖注意机制来绘制输入和输出之间的全局依赖关系。Transformer允许更大规模的并行化。
模型具体架构:
大多数有竞争力的神经序列转换模型都具有编码器-解码器结构。在这种结构中,编码器将输入符号表示的序列 (x1; :::; xn) 映射到连续表示的序列 z = (z1; :::; zn)。给定 z,解码器便逐个元素地生成输出序列 (y1; :::; ym)。在每个步骤中,模型都是自回归的,在生成下一个元素时,使用先前生成的信号作为额外的输入。Transformer遵循这种整体架构,编码器和解码器都使用堆叠的自注意力和逐点全连接层,编码器和解码器分别显示在下图的左半部分和右半部分。
编码器:编码器由 = 6 个相同的层堆叠而成。每一层包括两个子层。第一个是多头自注意力机制,第二个是简单的逐位置全连接前馈网络
#感谢您对电脑配置推荐网 - 最新i3 i5 i7组装电脑配置单推荐报价格的认可,转载请说明来源于"电脑配置推荐网 - 最新i3 i5 i7组装电脑配置单推荐报价格
推荐阅读
留言与评论(共有 12 条评论) |
本站网友 李佐军 | 29分钟前 发表 |
使用先前生成的信号作为额外的输入 | |
本站网友 松江论坛 | 15分钟前 发表 |
循环模型通常沿着输入和输出序列的符号位置对计算进行分解 | |
本站网友 北京如家团购 | 2分钟前 发表 |
本站网友 农电工 | 20分钟前 发表 |
性能最佳的模型还通过注意机制连接编码器和解码器 | |
本站网友 互联网资讯 | 18分钟前 发表 |
在生成下一个元素时 | |
本站网友 trackid | 26分钟前 发表 |
而GPT基于GPT2 | |
本站网友 改善睡眠 | 4分钟前 发表 |
Transformer 其实不仅仅是 chatGPT 背后的技术 | |
本站网友 景深是什么意思 | 15分钟前 发表 |
本站网友 永州二手房信息 | 7分钟前 发表 |
Transformer 其实不仅仅是 chatGPT 背后的技术 | |
本站网友 建设项目经济评价方法与参数 | 22分钟前 发表 |
解码器便逐个元素地生成输出序列 (y1; | |
本站网友 小米手机销售量 | 0秒前 发表 |
它们生成一系列隐藏状态 ht |