龙8long8史上最快AI芯片“Sohu”速度10倍于B200哈佛辍学生打造

栏目：行业资讯发布时间：2024-06-27

　龙8hk登录龙8hk登录今天凌晨，科技圈迎来了一个重要新闻。美国芯片创业公司 Etched 推出了自己的第一块 AI 芯片 Sohu，它运行大模型的速度比英伟达 H100 要快 20 倍，比今年 3 月才推出的顶配芯片 B200 也要快上超过 10 倍。　　最近一段时间，由于摩尔定律放缓，GPU 性能的提升很大程度上需要依赖于增加芯片面积和功耗。不论是英伟达 B200、AMD MI300X 还

　　龙8hk登录龙8hk登录今天凌晨，科技圈迎来了一个重要新闻。美国芯片创业公司 Etched 推出了自己的第一块 AI 芯片 Sohu，它运行大模型的速度比英伟达 H100 要快 20 倍，比今年 3 月才推出的顶配芯片 B200 也要快上超过 10 倍。

　　最近一段时间，由于摩尔定律放缓，GPU 性能的提升很大程度上需要依赖于增加芯片面积和功耗。不论是英伟达 B200、AMD MI300X 还是 Intel Gaudi 3，都不约而同的使用「二合一」的方式提升性能，功耗也翻倍了。

　　作为一个新兴领域，AI 模型的架构过去变化很大。但自 GPT-2 以来，最先进的模型几乎都在使用 Transformer，从 OpenAI 的 GPT 系列、谷歌的 PaLM、Facebook 的 LLaMa，再到特斯拉 FSD 自动驾驶所需的模型龙8long8。

　　Etched 给我们算了一笔账：芯片项目的成本为 5000 万至 1 亿美元，需要数年时间才能投入生产。另一方面，当模型训练成本超过 10 亿美元、推理成本超过 100 亿美元时，使用专用芯片是不可避免的。在这种产业规模下，1% 的改进就能撬动硬件架构的更新。

　　具体来讲，通过专门化，Sohu 具备了前所未有的性能。一台集成 8 块 Sohu 芯片的服务器每秒可以处理 50 万的 Llama 7B tokens。

　　针对 Llama 3 70B 的 FP8 精度基准测试显示：无稀疏性、8 倍模型并行、2048 输入或 128 输出长度。

　　由于 Sohu 仅能运行一种算法，因此可以删除绝大多数控制流逻辑，从而允许拥有更多数学块。也因此，Sohu 实现了 90% 以上的 FLOPS 利用率，而使用 TRT-LLM 的 GPU 约为 30%。

　　由于 GPU 的绝大部分区域都是可编程的，因此专注于 transformer 会容纳更多的计算。这可以从第一性原理中证明：

　　构建单个 FP16/BF16/FP8 乘加电路需要 10000 个晶体管，这是所有矩阵数学的基石。H100 SXM 拥有 528 个张量核心，每个核心拥有 4× 8 × 16 FMA 电路。乘法告诉我们：H100 有 27 亿个晶体管用于张量核心。

　　但是，H100 却有 800 亿个晶体管。这意味着 H100 GPU 上只有 3.3% 的晶体管用于矩阵乘法。这是英伟达和其他芯片厂商经过深思熟虑的设计决定。如果你想支持所有类型的模型（CNN、LSTM、SSM 等），那么没有比这更好的了。

　　在 Sohu 上，推理是分 batch 运行的。每个 batch 都需要加载所有模型权重一次，并在 batch 的每个 token 中重复使用。通常来说，LLM 输入是计算密集型的，而 LLM 输出是内存密集型的。当我们将输入和输出 token 与连续 batch 结合时，工作负载变成了高度计算密集型。

　　以下为 LLM 连续 batching 处理的示例，这里运行具有四个输入 token 和四个输出 token 的序列。每种颜色代表不同的序列。

　　Sohu 拥有了更多的计算能力且利用率非常高，因此可以运行巨大的吞吐量，而不会出现内存带宽瓶颈。

　　在 GPU 和 TPU 上，软件是一场噩梦。处理任意 CUDA 和 PyTorch 代码需要极其复杂的编译器。第三方 AI 芯片（如 AMD、Intel、AWS 等）在软件上总共花费了数十亿美元，但收效甚微。

　　这些框架非常僵化，虽然你可以进行模型超参数调优，但实际上不支持更改底层模型代码。但这没关系，因为所有 transformer 模型都非常相似（甚至是文本 / 图像 / 视频模型），所以超参数调优就是你线% 的 AI 公司是这样，但一些最大的 AI 实验室采用定制方式。他们有工程师团队来手动调整 GPU 核心以实现更高的利用率，并进行逆向工程以将寄存器对每个张量核心的延迟将至最低。

　　Etched 让我们不需要再进行逆向工程，他们的软件（从驱动程序、内核到服务堆栈）都将是开源的。如果你想实现自定义 transformer 层，则内核向导可以自由地这样做龙8long8。

　　Etched 的 CEO Gavin Uberti 告诉记者：「如果未来 Transformer 不再是主流，那我们就会灭亡。但如果它继续存在，我们就会成为有史以来最大的公司。」

　　打造 Sohu 芯片的 Etched 位于加州库比蒂诺，公司成立仅两年，目前团队只有 35 人，创始人是一对哈佛辍学生 Gavin Uberti（前 OctoML 和前 Xnor.ai 员工）和 Chris Zhu，他们与 Robert Wachen 和前赛普拉斯半导体公司首席技术官 Mark Ross 一起，一直致力于打造专用于 AI 大模型的芯片。

　　不过对于占据超过 80% AI 芯片市场份额的英伟达来说，1.2 亿美元只相当于它半天的收入。

　　「我们如此兴奋的原因，选择辍学的原因，以及我们召集团队，投身芯片项目的原因在于 —— 这是最重要的工作，」Etched 运营主管 Robert Wachen 说道。「整个技术的未来将取决于算力基础设施能否实现大规模。」

　　Uberti 声称到目前为止，已有匿名客户预订了「数千万美元」的硬件，预计在今年三季度，Sohu 将推向市场。

　　未来真的如 Uberti 所说，只有在 Sohu 这样的芯片上，视频生成、音频生成、具身智能等技术才能真正落地吗？

上一篇：龙8long8自家良率低、高通要价太高！曝三星旗舰手机将首次采用联发科定制芯片

下一篇：ETF最前线汇添富中证芯片产业ETF(516920)早盘下跌039%芯片概念主