2025长三角(杭州)国际电子生产设备暨微电子博览会

时间:2025 年04月09-11日
地点:杭州国际博览中心

联系电话:李海菊 13161718173

距离开展

当前位置:主页 > 媒体中心 > 行业新闻 > >
行业新闻

产业观察:Groq大火 谨防炒作

来源:2025长三角(杭州)国际电子生产设备暨微电子博览会        发布时间:2024-02-26

产业观察:Groq大火 谨防炒作


集微网报道  受国外初创公司Groq推出AI芯片影响,日前国内股市存储板块出现一波异动,引起人们对这一事件的广泛关注。

据悉,Groq公司是一家人工智能芯片公司,成立于2016年,总部位于美国加州圣塔克拉拉山景城。今年1月其推出新型人工智能芯片 LPU(Language Processing Unit)芯片。该产品近日在一些公开测评、客户测试中,延时(Latency)、吞吐量(Throughput)等指标大受好评,据称AI推理速度远超英伟达GPU。Groq官网提供了两个开源模型的演示:在Mixtral8x7B-32k的生成速度接近500 token/s,在Llama 2 70B-4k接近300 token/s。

从技术上看,Groq没有走GPU路线,而是采用了LPU方案。在设计架构上,GPU主要用于图形渲染,拥有数百个并行的处理单元。而LPU的架构旨在为 AI 计算提供确定性的性能,一种新型的端到端处理单元系统。不同于GPU使用的SIMD(单指令、多数据)模型,而是采用更精简的方法,消除了对复杂调度硬件的需求。这种设计允许有效利用每个时钟周期,确保一致的延迟和吞吐量。因此,LPU更加擅长LLM处理,可以为具备序列组件的计算密集型应用(比如LLM)提供更快的推理速度。

简单来讲,LPU的核心是克服限制LLM处理两个瓶颈——计算密度和内存带宽。Groq的芯片采用14nm制程,搭载了230MB大SRAM来保证内存带宽,片上内存带宽达到了80TB/s。在算力层面,Gorq芯片的整型(8位)运算速度为750TOPs,浮点(16位)运算速度则为188TFLOPs。

Groq芯片的推出给业界带来不小的影响。从算力端来看,一款更高性能、更低成本(单位token费用)的芯片,有望在海量推理需求中提供一个新的选择。对应用端来说,更低成本和更高效率的推理过程也有望加速搜索、创意设计、办公软件等AI生成应用的落地和普及。

不过,针对Groq芯片的质疑也随之而来。许多观点认为,Groq芯片看起来虽然效果惊人,但计算成本TCO,并不具有经济性。同样完成LLaMA 70b模型推理,采用int8量化,运行三年Groq 需要的硬件采购成本是576卡1144 万美元,运营成本是76.2万美元或更高;H100的硬件采购成本是8卡30万美元,运营成本是7.2万美元或略低。但也有大佬称,Groq芯片的确在小batch size上显示出了优势。因此,Groq芯片在小模型、本地或者线上定制化推理服务等场景具有一定应用前景,却不适用在云端大规模集群推理,尤其是GPU或者大厂ASIC被充分优化的场景。

无论这样的讨论结论如何,都集中于技术层面。但有一个现象却需注意。也就是文前所述,有人借此炒作SRAM话题,导致存储板块出现异动。

SRAM即静态随机存取存储器,与DRAM同属易失性内存。SRAM的优点是存取速度更快,但成本高,容量小。这与DRAM形成鲜明对比。由于当前AI芯片的主要瓶颈之一就是存储带宽问题。前段时间火热的HBM高带宽内存,实际上就是DRAM的超级加强版,通过堆叠多颗DRAM的芯片来提供更高的存储带宽和容量。Groq芯片采用SRAM,而非HBM获得更高AI推理速度这一点,被人转移到SRAM之上,借以炒作起了一波股市行情,却又无视了SRAM成本高、容量小等问题。

SRAM作为一项已经十分成熟的技术产品,其优势与劣势都已非常明显。其很难凭借一款Groq芯片就能打开所谓的“上升通道”。SRAM未来替代HBM,更属难能。

经过近两年的“低谷”,全球存储市场都处于反弹状态。此时的存储板块酝酿出一波上涨行情并非不可能。但切忌盲目跟风炒作,反而有可能节外生枝,对整个大势造成不利影响。

免责声明:来源标记为网络的文章其原创性及文中陈述文字和内容未经我司证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺请读者仅作参考并请自行核实相关内容,版权归原作者所有,如有侵权请联系我们删除。