只需要18万个小时的GPU运算时间。
我们现在有2048块GPU同时运算,所以,处理这些数据,只需要3.7天。而我们整个预训练阶段需要处理的数据,预计需要花费266.4万小时。
加上,上下文长度扩展的19万小时,以及后训练的5千小时,我们550B完整训练,只需要花费278.8万GPU小时,也就是两个月左右。
因此,现在每块英伟达H800GPU的租赁价格大概是每小时2美元,这代表着,我们550B的总训练成本,只需要557.6万美元。
不过这个成本仅包括我们的官方训练时的成本。不包括与架构、算法或数据的先前研究和消融实验相关的成本。
而作为对比,和我们同水平的ChatGPT-4的训练成本,需要超过1亿美元,因此,如果仅仅是算这个,他们的成本,是我们的十八倍。”
该说不说,即便是高文已经尽量通俗了,可听讲的人当中,有9成还是没怎么听懂。
不过没听懂没关系,作为领导,最大的能力就是抓住核心。
而高文刚刚的核心其实就四个:更低的算力(阉割版的芯片)、更好的架构、更低的价格、同等的水平。
当这四个关键组合起来,老先生的眼睛直接亮了。
熟。
这味道太熟了。
这些年,在其他行业,老先生曾无数次见证过类似的说法,更低的成本,同等的水平;同等的成本,更高的水平。
&
本章未完,请点击下一页继续阅读! 第5页 / 共10页