人工智能的发展还是「算力至上」吗?
人工智能的发展还是「算力至上」吗?
应该说算力是重要的因素,但不是唯一的因素。可以看看最近火爆全网的DeepSeek-v模型,它就能够利用不多的算力,做出媲美GPT'-4o的模型效果出来,这就可以说明算力并不是大模型唯一的条件。
DeepSeek V的训练总共才用了不到280万个GPU小时,而Llama 405B却用了080万GPU小时。用训练一个模型所花费的钱来说,训练一个DeepSeek V只需要花费557.6万美元,相比之下,一个简单的7B Llama 模型则需要花费76万美元。
从论文中的公布细节可以得到它的训练成本估算:
- 以 H800 GPU 小时为单位。H800 GPU 的租赁价格假定为每小时 2 美元。
- 训练分为三个阶段:预训练、上下文扩展和后期训练:
- 预训练:使用了 2664K(266.4 万)GPU 小时,成本约为 52.8 万美元。
- 上下文扩展:使用了 119K(11.9 万)GPU 小时,成本约为 2.8 万美元。
- 后期训练:使用了 5K GPU 小时,成本约为 1,000 美元。
- 总成本:2788K(278.8 万)GPU 小时,总费用为 557.6 万美元。
比起动辄几百亿人民币都训练不出来一个好用的大模型,DeepSeek V的训练简直颠覆了大家的想象。这里训练这么省钱当然主要是因为该模型原生就是FP8,还有在模型架构上做了一些优化导致模型训练成本很低。
在又快又好的同时,DeepSeek V的API价格也被打下来了。每一百万的输入tokens,只需要0.27$;每百万的输出tokens需要1.1$。
我们这里对比一下目前国外几个前沿大模型的价格,GPT-4每百万输入tokens,高达0$,而Claude Opus每百万输出tokens也要15$。从价格上来看,DeepSeek V真的是太便宜的,便宜到我都怀疑这个公司还能不能赚到钱。
添加图片注释,不超过 140 字(可选)
而如果要平衡性能和成本,它就成了DeepSeek官方绘图中唯一进入“最佳性价比”三角区的模型。其他像GPT-4o、Claude.5等模型,价格都比较昂贵。
添加图片注释,不超过 140 字(可选)
还有一个重要因素是数据集也是大模型提升效果的另一个重要因素。
目前最主流的说法认为,大模型的scaling raw正在慢慢失效,也就是目前的大模型尽管有着大量的数据集进行训练,但是其能力却没有大规模的提升,体现出了Scaling raw在慢慢失效。
添加图片注释,不超过 140 字(可选)
为什么会导致性能提升有效呢?主要是现在大模型所需要的大规模数据集已经耗尽了,高质量的数据集其实没有多少。
OpenAI就为此创建了一个“基础团队”,主要研究怎么合成高质量的数据,提供给大模型进行学习。而如果能够源源不断的提供给大模型一个高质量的数据集,那么确实有可能会进一步提升
要生成高质量的数据,目前常用的方法是通过一个在相关内容上进行过预训练的大语言模型生成合成数据。具体来说,生成过程通常是基于少量的真实数据,编写一组特定的 prompt,再经由生成模型生成具有针对性和高质量的合成数据。
添加图片注释,不超过 140 字(可选)
但是这种生成数据的方法会有两个明显的问题。
- 一个是信息增益有限:合成数据的有效性在于其为模型提供了新的信息。如果合成数据与原始数据过于相似,信息增益有限,模型的泛化能力提升也会受限。
- 另一个是数据质量控制困难:合成数据的质量直接影响模型的性能。生成高质量的合成数据需要精确的建模和丰富的先验知识,确保合成数据在多样性和真实性上与真实数据相匹配。
所以目前怎么大规模合成高质量的数据,使得scaling raw持续发挥作用,是各大厂商需要急切解决的问题。
从上面的分析来看,其实影响大模型的原因不仅仅是算力问题,也有可能是数据集纯度问题。所以不应该单独只追求“算力之上”,至少在训练一个大模型的时候,其数据集也会影响模型最终的效果。
#感谢您对电脑配置推荐网 - 最新i3 i5 i7组装电脑配置单推荐报价格的认可,转载请说明来源于"电脑配置推荐网 - 最新i3 i5 i7组装电脑配置单推荐报价格
推荐阅读
留言与评论(共有 7 条评论) |
本站网友 顶顶顶 | 3分钟前 发表 |
成本约为 2.8 万美元 | |
本站网友 老凤祥黄金价格 | 10分钟前 发表 |
但不是唯一的因素 | |
本站网友 西山华府 | 10分钟前 发表 |
另一个是数据质量控制困难:合成数据的质量直接影响模型的性能 | |
本站网友 增强现实 | 15分钟前 发表 |
DeepSeek V的训练简直颠覆了大家的想象 | |
本站网友 搜狗网论坛 | 15分钟前 发表 |
DeepSeek V的训练简直颠覆了大家的想象 | |
本站网友 带走一盏渔火 | 21分钟前 发表 |
而Claude Opus每百万输出tokens也要15$ |