产业观察：groq大火谨防炒作-尊龙凯时网址

作者：陈炳欣 02-22 16:11

来源：爱集微 #groq# #ai芯片# #推理# #lpu方案# #sram#

1.9w

集微网报道（文/陈炳欣）受国外初创公司groq推出ai芯片影响，日前国内股市存储板块出现一波异动，引起人们对这一事件的广泛关注。

据悉，groq公司是一家人工智能芯片公司，成立于2016年，总部位于美国加州圣塔克拉拉山景城。今年1月其推出新型人工智能芯片 lpu（language processing unit）芯片。该产品近日在一些公开测评、客户测试中，延时（latency）、吞吐量（throughput）等指标大受好评，据称ai推理速度远超英伟达gpu。groq尊龙凯时网址官网提供了两个开源模型的演示：在mixtral8x7b-32k的生成速度接近500 token/s，在llama 2 70b-4k接近300 token/s。

从技术上看，groq没有走gpu路线，而是采用了lpu方案。在设计架构上，gpu主要用于图形渲染，拥有数百个并行的处理单元。而lpu的架构旨在为 ai 计算提供确定性的性能，一种新型的端到端处理单元系统。不同于gpu使用的simd（单指令、多数据）模型，而是采用更精简的方法，消除了对复杂调度硬件的需求。这种设计允许有效利用每个时钟周期，确保一致的延迟和吞吐量。因此，lpu更加擅长llm处理，可以为具备序列组件的计算密集型应用（比如llm）提供更快的推理速度。

简单来讲，lpu的核心是克服限制llm处理两个瓶颈——计算密度和内存带宽。groq的芯片采用14nm制程，搭载了230mb大sram来保证内存带宽，片上内存带宽达到了80tb/s。在算力层面，gorq芯片的整型（8位）运算速度为750tops，浮点（16位）运算速度则为188tflops。

groq芯片的推出给业界带来不小的影响。从算力端来看，一款更高性能、更低成本（单位token费用）的芯片，有望在海量推理需求中提供一个新的选择。对应用端来说，更低成本和更高效率的推理过程也有望加速搜索、创意设计、办公软件等ai生成应用的落地和普及。

不过，针对groq芯片的质疑也随之而来。许多观点认为，groq芯片看起来虽然效果惊人，但计算成本tco，并不具有经济性。同样完成llama 70b模型推理，采用int8量化，运行三年groq 需要的硬件采购成本是576卡1144 万美元，运营成本是76.2万美元或更高；h100的硬件采购成本是8卡30万美元，运营成本是7.2万美元或略低。但也有大佬称，groq芯片的确在小batch size上显示出了优势。因此，groq芯片在小模型、本地或者线上定制化推理服务等场景具有一定应用前景，却不适用在云端大规模集群推理，尤其是gpu或者大厂asic被充分优化的场景。

无论这样的讨论结论如何，都集中于技术层面。但有一个现象却需注意。也就是文前所述，有人借此炒作sram话题，导致存储板块出现异动。

sram即静态随机存取存储器，与dram同属易失性内存。sram的优点是存取速度更快，但成本高，容量小。这与dram形成鲜明对比。由于当前ai芯片的主要瓶颈之一就是存储带宽问题。前段时间火热的hbm高带宽内存，实际上就是dram的超级加强版，通过堆叠多颗dram的芯片来提供更高的存储带宽和容量。groq芯片采用sram，而非hbm获得更高ai推理速度这一点，被人转移到sram之上，借以炒作起了一波股市行情，却又无视了sram成本高、容量小等问题。

sram作为一项已经十分成熟的技术产品，其优势与劣势都已非常明显。其很难凭借一款groq芯片就能打开所谓的“上升通道”。sram未来替代hbm，更属难能。

经过近两年的“低谷”，全球存储市场都处于反弹状态。此时的存储板块酝酿出一波上涨行情并非不可能。但切忌盲目跟风炒作，反而有可能节外生枝，对整个大势造成不利影响。