【机器学习】《ChatGPT速通手册》笔记
文章目录
- 第0章 前言
- 第1章 ChatGPT的由来
-
- (一)自然语言处理任务
- (二)ChatGPT所用数据数据大小
- (三)ChatGPT的神经网络模型有175亿个参数
- (四)模型压缩 方案
- 第2章 ChatGPT页面功能介绍
-
- (一)ChatGPT聊天套路
- (二)ChatGPT机制
- (三)重新生成(相同问题和上下文生成不同回答)
- (四)提前终止
- 第章 ChatGPT的法律风险
- 第4章 ChatGPT避坑指南
- 第5章 ChatGPT场景案例
-
- (一)提取概要
- (二)stable diffusion prompt生成
- (三)情感分类
- (四)词格分类
- (五)数据集模拟生成
- (六)生成复杂密码
- (七)多语言翻译
- (八)生成代码
- (九)代码解释
- (十)编程语言转换
- (十一)服务器体验沙箱
- (十二)网页自动化
- (十三)生成知识图谱
- (十四)数据可视化
- (十五)Leetcode
- (十六)编写PRD需求说明书
- 第6章 当前热门AI应用
-
- (一)notion AI笔记
- (二)Copilot编程助手
- (三)Character.AI定制角
- (四)AIPRM扩展
- 第7章 ChatGPT配合其他AI能力的应用
-
- (一)和Dall2配合生成故事绘本
- (二)解析Bing Chat逻辑
- (三)和D-ID配合生成数字人视频
- (四)BLIP2多模态聊天
- (五)图文生成视频
- 第8章 OpenAI API介绍
-
- (一)优势
- (二)几个常用模型
- (三)付费
- 总结
以下为一些知识点的简单记录,没有逻辑性,大多以分条形式展示。
由于是粗读,且个人水平有限,所以可能有些地方理解的不够准确,仅供参考。如有问题欢迎指正。
第0章 前言
类似产品:
第1章 ChatGPT的由来
包括:文本分类、语言翻译、情感分析、问答系统、对话生成。
1、OpenAI公司没有单独公布过细节
2、一位人工智能领域知名博士曾介绍过,根据OpenAI公司公开数据推测,GPT-所有训练数据集大小一共有75.4G。
分布如下:
、其他方面消息称,GPT-语料高达45T。由于与博士说的相差太大,所以猜测是数据来源未精选前的规模。
4、ChatGPT的规模上面说了,那它能够在多大程度上代表互联网呢?经过一些列的推算,我们可以武断认为整个互联网上的文本大概是1000T。
所以大概是75.4G:1000T,抑或是45T:1000T。
即使获得可靠的预训练大模型,在本地化部署环境做推理计算也有较高成本。对特定领域进行微调也有一定难度。
可能后续需要引入一些模型压缩方案。例如:量化、蒸馏、剪枝、参数共享等。
知识蒸馏是之前大模型压缩的常用方案,但目前很难直接进行。(原因:ChatGPT只开放API,不开放模型)
一种可能的途径是利用ChatGPT的思维链功能,即,将问答记录里的思维链过程作为压缩小模型的训练数据。(但OpenAI明确禁止商用)
第2章 ChatGPT页面功能介绍
我们把给ChatGPT输入的问题文本叫Prompt(提示词)。
Prompt Learning提示学习 = => In-Context Learning上下文学习 ==> Chain of Thought思维链
只有当模型参数大于100B(100亿参数)时,思维链的威力才能发挥出来。
ChatGPT使用的是基于Transformer的自回归语言模型,这种模型采用了自注意力季知(Self-Attention Mechanism),它可以让机器理解和捕捉对话的上下文,进而实现上下文连续对话。
ChatGPT还采用了LSTM长短期记忆模型,让ChatGPT准确地捕捉对话的上下文,从而实现更好的上下文连续对话能力。
原因/原理:
1、ChatGPT是一个基于神经网络的语言模型,其生成的回答是基于其在训练数据中学习到的语言规则、语义知识和上下文信息等因素。因此,对于同一个问题,ChatGPT可以根据不同的上下文和语境生成不同的答案。
2、ChatGPT模型中的权重参数是通过随机初始化开始训练的,而训练过程中也会受到随机性的影响。
、ChatGPT还具有一些可以控制生成回答风格和特定输出的参数和超参数,如temperature、max_tokens、top-p采样等,这些参数也会影响生成的回答。
能够节省计算资源。
我们每次提问,ChatGPT都会基于自然语言处理(LP)技术和深度学习算法进行大量的计算,不断地从历史文本中提取信息来预测下一个单词或短语,直到生成整个回答。
第章 ChatGPT的法律风险
1、简单直接要求作恶的提问×
#感谢您对电脑配置推荐网 - 最新i3 i5 i7组装电脑配置单推荐报价格的认可,转载请说明来源于"电脑配置推荐网 - 最新i3 i5 i7组装电脑配置单推荐报价格
推荐阅读
留言与评论(共有 17 条评论) |
本站网友 月经安全期计算器 | 16分钟前 发表 |
简单直接要求作恶的提问× | |
本站网友 正德人寿保险股份有限公司 | 19分钟前 发表 |
第章 ChatGPT的法律风险 1 | |
本站网友 grails | 4分钟前 发表 |
从而实现更好的上下文连续对话能力 | |
本站网友 白鸽的功效 | 15分钟前 发表 |
让ChatGPT准确地捕捉对话的上下文 | |
本站网友 治疗帕金森 | 19分钟前 发表 |
max_tokens | |
本站网友 医生执业资格查询 | 15分钟前 发表 |
对话生成 | |
本站网友 广东交通 | 5分钟前 发表 |
ChatGPT的规模上面说了 | |
本站网友 东方明珠花园 | 24分钟前 发表 |
让ChatGPT准确地捕捉对话的上下文 | |
本站网友 眼霜作用 | 28分钟前 发表 |
ChatGPT还具有一些可以控制生成回答风格和特定输出的参数和超参数 | |
本站网友 gmail登陆 | 19分钟前 发表 |
因此 | |
本站网友 夏新n806 | 10分钟前 发表 |
大多以分条形式展示 | |
本站网友 proven | 29分钟前 发表 |
其生成的回答是基于其在训练数据中学习到的语言规则 | |
本站网友 荷叶茶 | 26分钟前 发表 |
(原因:ChatGPT只开放API | |
本站网友 你好七叶 | 28分钟前 发表 |
对话生成 | |
本站网友 辛巴达欢乐城堡 | 24分钟前 发表 |
(三)ChatGPT的神经网络模型有175亿个参数 (四)模型压缩 方案 即使获得可靠的预训练大模型 | |
本站网友 假体隆鼻效果 | 7分钟前 发表 |
2 |