MindIE推理采样后处理参数temperature和top
MindIE推理采样后处理参数temperature和top
MindIE跑Qwen系列模型推理,测试发现后处理参数top_k很大,temperature=2的场景,模型输出有精度问题。
经过进一步复现和测试,发现如下现象。
在Ascend的npu上面temperature=2和top_k很大时有精度问题。
添加图片注释,不超过 140 字(可选)
在gpu也有同样问题
添加图片注释,不超过 140 字(可选)
MindIE的后处理
后处理参数的顺序temperature > top_k > softmax > top_p,查看代码可知temperature 的使用方式是logits/temperature ,即temperature 越大,各个logits之间的差就越小,在softmax阶段,根据softmax的原理,值差距越小,token概率就越接近(意味着很难选到正确的token,极端情况有精度问题)。
过程分析
后处理过程:temperature=2 时。temperature处理后,logits值差距变小,如果top_k比较大,则大量logits进入softmax,且softmax后概率都比较接近。在top_p之后,大部分token都有可能被选到且概率相近,容易出现精度问题,如果top_k变小或者top_p变小则不容易出现。
验证:
将top_p设置小,npu无精度问题。
添加图片注释,不超过 140 字(可选)
将top_k设置小,npu无精度问题。
添加图片注释,不超过 140 字(可选)
将top_k设置小,gpu无精度问题
添加图片注释,不超过 140 字(可选)
1、后处理顺序temperature > top_k > softmax > top_p。 2、temperature处理原理 logits/temperature(注意此时logits不是概率)。 、softmax特点:值差距越大,输出的概率差距越大,且非线性。 4、如果大部分token概率相近且都有被选中的概率,那么就会有精度问题。
#感谢您对电脑配置推荐网 - 最新i3 i5 i7组装电脑配置单推荐报价格的认可,转载请说明来源于"电脑配置推荐网 - 最新i3 i5 i7组装电脑配置单推荐报价格
推荐阅读
留言与评论(共有 20 条评论) |
本站网友 柠檬网络电视 | 20分钟前 发表 |
如果top_k比较大 | |
本站网友 丽江旅游团购 | 5分钟前 发表 |
验证:将top_p设置小 | |
本站网友 闵行二手房信息 | 13分钟前 发表 |
添加图片注释 | |
本站网友 6个月宝宝吃什么 | 8分钟前 发表 |
如果top_k变小或者top_p变小则不容易出现 | |
本站网友 reti | 19分钟前 发表 |
根据softmax的原理 | |
本站网友 北京304医院 | 11分钟前 发表 |
添加图片注释 | |
本站网友 农产品大全 | 29分钟前 发表 |
4 | |
本站网友 冯大中 | 28分钟前 发表 |
添加图片注释 | |
本站网友 张仁杰 | 26分钟前 发表 |
查看代码可知temperature 的使用方式是logits/temperature | |
本站网友 节节高 | 21分钟前 发表 |
temperature=2的场景 | |
本站网友 怀孕9个月 | 0秒前 发表 |
且softmax后概率都比较接近 | |
本站网友 zhuangbility | 8分钟前 发表 |
则大量logits进入softmax | |
本站网友 ipv6是什么 | 10分钟前 发表 |
如果大部分token概率相近且都有被选中的概率 | |
本站网友 e洗车 | 26分钟前 发表 |
现象经过进一步复现和测试 | |
本站网友 悭吝 | 22分钟前 发表 |
MindIE推理采样后处理参数temperature和top 背景MindIE跑Qwen系列模型推理 | |
本站网友 海航招聘网 | 10分钟前 发表 |
logits值差距变小 | |
本站网友 闽侯租房 | 17分钟前 发表 |
4 | |
本站网友 百度牛 | 16分钟前 发表 |
不超过 140 字(可选)经验总结1 | |
本站网友 刷火车票软件 | 27分钟前 发表 |
且非线性 |