【机器学习】《ChatGPT速通手册》笔记

2025-07-19 23:27:04

文章目录第0章前言第1章 ChatGPT的由来（一）自然语言处理任务（二）ChatGPT所用数据数据大小（三）ChatGPT的神经网络模型有175亿个参数（四）模型压缩方案第2章 ChatGPT页面功能介绍

文章目录

第0章前言
第1章 ChatGPT的由来
- （一）自然语言处理任务
- （二）ChatGPT所用数据数据大小
- （三）ChatGPT的神经网络模型有175亿个参数
- （四）模型压缩方案
第2章 ChatGPT页面功能介绍
- （一）ChatGPT聊天套路
- （二）ChatGPT机制
- （三）重新生成（相同问题和上下文生成不同回答）
- （四）提前终止
第章 ChatGPT的法律风险
第4章 ChatGPT避坑指南
第5章 ChatGPT场景案例
- （一）提取概要
- （二）stable diffusion prompt生成
- （三）情感分类
- （四）词格分类
- （五）数据集模拟生成
- （六）生成复杂密码
- （七）多语言翻译
- （八）生成代码
- （九）代码解释
- （十）编程语言转换
- （十一）服务器体验沙箱
- （十二）网页自动化
- （十三）生成知识图谱
- （十四）数据可视化
- （十五）Leetcode
- （十六）编写PRD需求说明书
第6章当前热门AI应用
- （一）notion AI笔记
- （二）Copilot编程助手
- （三）Character.AI定制角
- （四）AIPRM扩展
第7章 ChatGPT配合其他AI能力的应用
- （一）和Dall2配合生成故事绘本
- （二）解析Bing Chat逻辑
- （三）和D-ID配合生成数字人视频
- （四）BLIP2多模态聊天
- （五）图文生成视频
第8章 OpenAI API介绍
- （一）优势
- （二）几个常用模型
- （三）付费
总结

以下为一些知识点的简单记录，没有逻辑性，大多以分条形式展示。
由于是粗读，且个人水平有限，所以可能有些地方理解的不够准确，仅供参考。如有问题欢迎指正。

第0章前言

类似产品：

第1章 ChatGPT的由来

（一）自然语言处理任务

包括：文本分类、语言翻译、情感分析、问答系统、对话生成。

（二）ChatGPT所用数据数据大小

1、OpenAI公司没有单独公布过细节
2、一位人工智能领域知名博士曾介绍过，根据OpenAI公司公开数据推测，GPT-所有训练数据集大小一共有75.4G。
分布如下：

、其他方面消息称，GPT-语料高达45T。由于与博士说的相差太大，所以猜测是数据来源未精选前的规模。
4、ChatGPT的规模上面说了，那它能够在多大程度上代表互联网呢？经过一些列的推算，我们可以武断认为整个互联网上的文本大概是1000T。
所以大概是75.4G：1000T，抑或是45T：1000T。

（三）ChatGPT的神经网络模型有175亿个参数（四）模型压缩方案

即使获得可靠的预训练大模型，在本地化部署环境做推理计算也有较高成本。对特定领域进行微调也有一定难度。
可能后续需要引入一些模型压缩方案。例如：量化、蒸馏、剪枝、参数共享等。
知识蒸馏是之前大模型压缩的常用方案，但目前很难直接进行。（原因：ChatGPT只开放API，不开放模型）
一种可能的途径是利用ChatGPT的思维链功能，即，将问答记录里的思维链过程作为压缩小模型的训练数据。（但OpenAI明确禁止商用）

第2章 ChatGPT页面功能介绍

（一）ChatGPT聊天套路

我们把给ChatGPT输入的问题文本叫Prompt（提示词）。
Prompt Learning提示学习 = => In-Context Learning上下文学习 ==> Chain of Thought思维链
只有当模型参数大于100B（100亿参数）时，思维链的威力才能发挥出来。

（二）ChatGPT机制

ChatGPT使用的是基于Transformer的自回归语言模型，这种模型采用了自注意力季知（Self-Attention Mechanism），它可以让机器理解和捕捉对话的上下文，进而实现上下文连续对话。
ChatGPT还采用了LSTM长短期记忆模型，让ChatGPT准确地捕捉对话的上下文，从而实现更好的上下文连续对话能力。

（三）重新生成（相同问题和上下文生成不同回答）

原因/原理：
1、ChatGPT是一个基于神经网络的语言模型，其生成的回答是基于其在训练数据中学习到的语言规则、语义知识和上下文信息等因素。因此，对于同一个问题，ChatGPT可以根据不同的上下文和语境生成不同的答案。
2、ChatGPT模型中的权重参数是通过随机初始化开始训练的，而训练过程中也会受到随机性的影响。
、ChatGPT还具有一些可以控制生成回答风格和特定输出的参数和超参数，如temperature、max_tokens、top-p采样等，这些参数也会影响生成的回答。

（四）提前终止

能够节省计算资源。
我们每次提问，ChatGPT都会基于自然语言处理（LP）技术和深度学习算法进行大量的计算，不断地从历史文本中提取信息来预测下一个单词或短语，直到生成整个回答。

第章 ChatGPT的法律风险

1、简单直接要求作恶的提问×

#感谢您对电脑配置推荐网 - 最新i3 i5 i7组装电脑配置单推荐报价格的认可，转载请说明来源于"电脑配置推荐网 - 最新i3 i5 i7组装电脑配置单推荐报价格

本文地址：http://www.dnpztj.cn/biancheng/1107960.html

本站网友月经安全期计算器	16分钟前发表
简单直接要求作恶的提问×
本站网友正德人寿保险股份有限公司	19分钟前发表
第章 ChatGPT的法律风险 1
本站网友 grails	4分钟前发表
从而实现更好的上下文连续对话能力
本站网友白鸽的功效	15分钟前发表
让ChatGPT准确地捕捉对话的上下文
本站网友治疗帕金森	19分钟前发表
max_tokens
本站网友医生执业资格查询	15分钟前发表
对话生成
本站网友广东交通	5分钟前发表
ChatGPT的规模上面说了
本站网友东方明珠花园	24分钟前发表
让ChatGPT准确地捕捉对话的上下文
本站网友眼霜作用	28分钟前发表
ChatGPT还具有一些可以控制生成回答风格和特定输出的参数和超参数
本站网友 gmail登陆	19分钟前发表
因此
本站网友夏新n806	10分钟前发表
大多以分条形式展示
本站网友 proven	29分钟前发表
其生成的回答是基于其在训练数据中学习到的语言规则
本站网友荷叶茶	26分钟前发表
（原因：ChatGPT只开放API
本站网友你好七叶	28分钟前发表
对话生成
本站网友辛巴达欢乐城堡	24分钟前发表
（三）ChatGPT的神经网络模型有175亿个参数（四）模型压缩方案即使获得可靠的预训练大模型
本站网友假体隆鼻效果	7分钟前发表
2

【机器学习】《ChatGPT速通手册》笔记

文章目录

第0章前言

第1章 ChatGPT的由来

第2章 ChatGPT页面功能介绍

第章 ChatGPT的法律风险

在Java中为什么不推荐使用Float

SpringBoot快速入门

HBase的高可用性是如何实现的？

java: 无法访问org.springframework.boot.SpringApplication解决办法

【机器学习】《ChatGPT速通手册》笔记

文章目录

第0章 前言

第1章 ChatGPT的由来

第2章 ChatGPT页面功能介绍

第章 ChatGPT的法律风险

在Java中为什么不推荐使用Float

SpringBoot快速入门

HBase的高可用性是如何实现的？

java: 无法访问org.springframework.boot.SpringApplication解决办法

第0章前言