00后华裔小哥哈佛辍学组团挑战英伟达史上最快AI芯片Sohu推理性能超H100二
栏目:行业资讯 发布时间:2024-06-27
 龙8long8唯一官方网站龙8long8唯一官方网站【新智元导读】史上最快Transformer芯片诞生了!用Sohu跑Llama 70B,推理性能已超B200十倍,超H100二十倍!刚刚,几位00后小哥从哈佛辍学后成立的公司Etached,宣布再融资1.2亿美元。  就在上周,英伟达的市值达到3.3万亿美元,超过微软成为全球第一。而Etched相信,自己的35人团队能够击败英伟达。  他们的

  龙8long8唯一官方网站龙8long8唯一官方网站【新智元导读】史上最快Transformer芯片诞生了!用Sohu跑Llama 70B,推理性能已超B200十倍,超H100二十倍!刚刚,几位00后小哥从哈佛辍学后成立的公司Etached,宣布再融资1.2亿美元。

  就在上周,英伟达的市值达到3.3万亿美元,超过微软成为全球第一。而Etched相信,自己的35人团队能够击败英伟达。

  他们的豪放预言,得到了硅谷真金白银的支持。投资名单中,是一众豪华的机构和硅谷大佬,包括Peter Thiel。

  Etched创始人之一Gavin Uberti表示,「我们正在押注人工智能领域最大的赌注——一种只能运行Transformer模型的芯片,但其运行速度比GPU快几个数量级。也许注意力确实是你所需要的全部...」

  Pika研究人员表示,每秒50万token简直太疯狂了。你可以在2秒内写出「圣经」,或者一年内生成15万亿token。

  Thiel Fellowship的主任Alex Handy,对几位年轻人表示了高度的赞许:「投资Etched是对 AI 价值的战略性押注。他们的芯片解决了竞争对手不敢面对的可扩展性问题,挑战了同行中普遍存在的停滞状态。」

  在他看来,正是因为几位小哥做了底层的工作,硅谷的程序员们才能继续安心编程,不必担心正在开发技术的底层出问题。

  为此,他们花了两年时间打造Sohu,这是世界上第一个用于Transformer的专用芯片(ASIC)。

  对于Llama 70B,Sohu的吞吐量每秒超过了50万个token,因此它可以构建在GPU上根本不可能实现的产品。

  奥特曼曾说过,「扩展参数规模确实非常重要。当我们在太阳周围建造了一个戴森球(Dyson Sphere)之后,我们才可以考虑讨论是否应该停止这么做,但在那之前不应该停下来」。

  每个大型AI公司(谷歌、OpenAI/微软、Anthropic/亚马逊等)都在未来几年投入超1000亿美元来继续扩大LLM规模。

  然而,再扩展1000倍必定是昂贵的,形象地解释,下一代数据中心的成本将超过一个小国的GDP。

  就比如,英伟达的B200、AMD的MI300、英特尔的Gaudi 3,以及亚马逊的Trainium2都将2个芯片集成到一张卡上,以使其性能翻倍。

  在Transformer占领世界之前,许多公司构建了灵活的AI芯片和GPU来处理数百种不同的机器学习架构。

  在这种巨大参数规模之下,即使只有1%的性能提升,也足以证明5000万-1亿美元的定制芯片项目是值得的。

  Etched.ai的几位创始人表示,他们相信硬件彩票——能在硬件上运行得最快、最便宜的模型,就是获胜的那一个。

  1. Transformer正在为每一个大型AI产品提供支持,无论是Agent、搜索还是聊天。

  2. 随着未来几年模型训练的规模从10亿美元扩大到100亿美元,再到1000亿美元,测试新架构的风险也急剧上升。

  与其重新测试Scalling law和性能,不如把时间花在基于Transformer的功能开发上,比如多token预测。

  许多建立在Transformer之上的功能,比如推测解码、树搜索等,在替代方案中都很难得到支持。

  由于Sohu只能运行一种算法,因此绝大多数的控制流逻辑可以被移除,从而允许其拥有更多的数学模块。

  结果就是,Sohu的FLOPS利用率高达90%以上;相比之下,使用TRT-LLM的GPU仅为为30%左右。

  目前最先进的算力——英伟达H200,在没有稀疏处理的情况下具有989 TFLOPS的FP16/BF16算力。(超过了Google的新Trillium芯片之一)

  制造一个FP16/BF16/FP8乘法加法电路(所有矩阵数学的基础构件)需要10,000个晶体管。H100 SXM有528个张量核心,每个核心有4×8×16个FMA电路。通过计算可以得到,H100有27亿个晶体管专用于张量核心。

  实际上,H100拥有800亿个晶体管!这意味着在H100 GPU上的晶体管中,仅有3.3%用于矩阵乘法!

  但问题是,如果想要为各种模型(CNN、LSTM、SSM等)都提供支持,就不得不采取这样的设计。

  这时,如果选择只运行Transformer,就可以在芯片上容纳更多的FLOPS,且无需依赖更低的精度或稀疏处理。

  使用英伟达和AMD的标准基准测试——2048个输入token和128个输出token,大多数AI产品的输入都要比输出长得多(即使是新的Claude聊天,系统提示也有1000多个token)。

  在GPU和Sohu上,推理是以批次运行的。每个批次都会加载一次所有的模型权重,并在批次中的每个token上重复使用它们。

  通常,LLM的输入是计算密集的,而LLM的输出是内存密集的。所以,当我们将输入和输出token与连续批处理结合时,工作负载就会变得非常「计算密集」。

  这个过程中,会运行带有四个输入token和四个输出token的序列;每种颜色代表一个不同的序列。

  要让每个batch,都包含一个序列的2048个输入token,和127个不同序列的127个输出token。

  如果这样做的话,每个batch将需要大约(2048+127)×70B参数×每个参数2字节=304 TFLOPs,同时只需要加载70B参数×每个参数2字节=140 GB的模型权重,以及大约127× 64×8×128×(2048+127)×2×2=72GB的KV缓存权重。

  这需要的计算,就远超过内存带宽的需求,因为一个H200需要6.8PFLOPS的计算能力,才能最大化其内存带宽。

  由于Sohu有极高的计算能力和高利用率,我们就可以在不受内存带宽限制的情况下,运行巨大的吞吐量。

  注:在现实世界中,batch通常更大,输入长度各不相同,并且请求会以泊松分布到达。在这种情况下,Sohu的效果会更好。在这里之所以使用2048/128基准作为例子,是因为英伟达和AMD都在使用。

  这里,Sohu的好处就体现出来了——因为它只运行Transformer模型,所以我们只需要为Transformer模型编写软件!

  但是,没有关系!所有的Transformer模型都非常相似(即使是文本、图像、视频模型),调节超参数就足够了。

  工程师团队会手动调优GPU内核,以挤出更多的利用率,并进行逆向工程,比如哪些寄存器对每个张量核心的延迟最低。

  当时,图像和视频生成模型还是U-Net模型,自动驾驶汽车是由卷积神经网络(CNNs)驱动的,Transformer架构还远未普及。

  而现在,形势显然对他们非常有利。如今从语言到视觉,每个领域的顶尖模型都是Transformer。

  - Etced会直接和台积电合作开发4nm工艺,并且获得了足够的HBM和服务器,第一年的产量可以快速提升;

  视频模型每秒只能生成一帧,甚至ChatGPT注册用户达到1000万时(仅占全球用户的0.15%),就耗尽了OpenAI的GPU容量。

  即便是持续以每两年2.5倍的速度增加GPU的容量,也得需要10年时间,才能实现「实时」视频生成。

  创始人兼CEO Gavin Uberti自2020入学哈佛攻读数学专业,随后在2022年攻读硕士学位,专业是计算机。

  在创办Etched之前,Gavin Uberti曾在另外两家公司分别有过一段全职和简直经历,担任了算法和后端工程师,以及软件工程师。

  在进入大学之前,他参与了美国最著名的青少年科技创新大赛FIRST Tech Challenge,团队获得了Top 10奖项。团队开发的自动驾驶软件排在600个参赛团队第二名。

  另一位创始人Chris Zhu,也是在哈佛就读时就在校外疯狂实习,甚至还没有从哈佛毕业,就已经成为兼职教员。

  他个人的工作经历更为丰富些,不仅在高校MIT担任研究员、哈佛兼职教学研究员,还曾在亚马逊等公司做过实习。

  本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。