。
无非就是多做些实验,多消耗几倍的算力罢了。
折算成金额,一年十来亿顶了天。
对于早已财富自由的孟繁岐来说,只要钱能解决的事情都不是事。
可问题就在于,老黄的计算设备研发,终究还是要时间的。
不像孟繁岐,可以提前三五年往外发新的算法技术,黄仁勋的硬件技术那是真的催不来,只能一点点缓步推进。
这番发展速度上的错位,导致孟繁岐如今有力无处施展。
“如果能有后来的H100集群,我所需要的显卡数量可以减少至少8到10倍。”孟繁岐如今受到的一大限制,就是继续拓展算法边界所需要的显卡数量实在太多了。
卡一多,它就容易出问题,和人一样。
假设说一张卡训练三个月,百分之99.99的概率都是正常的。
当这个数字来到2000,乃至10000的时候,这个概率则会惊人地降低为82%和百分之37%。
也就是说,当你使用万卡集群的时候,想让每一张卡都能顺顺利利地把工作给完成了,这个可能性只有可怜的三分之一。
而只要一张卡出现了问题,就势必会对整个集群产生影响,中止训练。
为了避免这种一卡罢工,万卡围观的情况发生,孟繁岐投入了大量的资源和时间。
可GPT4o,以及具有推理功能的
本章未完,请点击下一页继续阅读! 第2页 / 共5页