Q&AQ:GroqLPU和传统GPU有什么关键区别?-股票-壹米财经

行情频道：行情 / 知识 / 新股 / 要闻 / 基金 /

Q&AQ:GroqLPU和传统GPU有什么关键区别?

2024-02-24 18:53:19 收藏

a股今日大盘股市行情中国股市

Q&A

Q：GroqLPU和传统GPU有什么关键区别？GroqLPU在推理芯片市场的性能提升和成本如何？

A：GroqLPU实际上是为人工智能算法设计的DSA(领域特定加速器)，类似于典型的谷歌TPU，其结构明显不同于英伟达GPU。它的设计没有脱离传统的CMOS工艺，采用与传统内存相连的SMOS工艺（StorageMemory）架构，而不是使用新的存储设计。不同之处在于，Groq采用基于嵌入式SRAM架构的存储方式，取代了传统的cache系统和HBM(高带宽内存)。然而，这种设计并不是一个创新的突破，许多其他公司也使用类似的内部存储方法，如百度昆仑芯和英国Graphcore。Groq的存储容量不是最大的，但其架构非常适合大型模型计算，特别是大型语言模型，数据流格式和向量计算较宽。GroqLPU更适合大语言模型的计算需求，提供友好的编程模式，以满足当前大语言模型的需求。Groq对LPU进行了优化和调整，目前可提供高达500trillionoperations per second性能。

Q：为什么Groq设计的LPU存储量这么大，采用这种设计的成本和价格是多少？

A：虽然Groq的存储量不是市场上最大的，但其230或240兆字节的全球共享SM很容易编程，因为它可以被视为一个完整的内存，而不是多个分散的SM。这使得编程相对简单，因为不需要在多个小块之间做太多的优化。从工艺流派的角度来看，Groq采用基于传统CMOS工艺的存储设计。与新的存储过程相比，传统的CMOS更加成熟和广泛，制造商和生产链也更加丰富和完善。这意味着从设计到制造的成本相对较低，更容易找到OEM和批量生产。总的来说，Groq的设计选择可以更有效地控制其成本，并帮助其推理芯片在市场上的竞争力。

Q：请介绍大型Groq芯片的架构特点。

A：Groq芯片在架构上有几种不同的形式，包括净存计算和存储计算。在净存计算中，计算电路被放置在存储器中，如纯技术和后膜智能。另外，还有一种形式叫做过程计算，HBM（HighBandwidthMemory）这是一个典型的过程计算例子，它将原本放置在芯片外部的设计集成到芯片中，可以减少延迟，大大提高带宽。另外，实现芯片内部过程计算的方法有两种，一种是基于SM（StreamingMultiprocessors）二是基于cache的设计。例如，CPU和GPU内部通常有大容量的cache。与以前相比，GPU在cache容量上有所增加，从原来的16MB开始、24MB、32MB增加到96MB或128MB。DSA（Domain-SpecificArchitectures）几乎所有基于SRAM的设计，如含光800使用256MB，英特尔Graphcore使用780MB。不同的架构会导致价格和性能的差异，比如Groq芯片，容量不同于144MB或244MB，架构也不同，这使得它们的性能竞争力很强。例如，谷歌在其云服务中大规模使用Groq芯片，甚至超过了GPU的使用。

Q：如何评估Groq芯片的成本和性能比？

A：Groq成立后，其芯片成本较高，但在性能上却能达到每秒500个科目的分数（GFLOPS）计算能力。在考虑其性能的前提下，为了计算这种大型Groq芯片的成本，我们需要比较其他主流方案，如英伟达芯片的成本性能。在性能方面，Groq芯片既具有竞争力，又显示了其在高性能计算领域的可靠性。特别是在谷歌云服务的使用中，Groq芯片的使用量已经超过了传统的GPU，表明其性价比得到了市场的认可。考虑Groq芯片的成本和性能指标对于投资决策至关重要，以评估其在市场上的潜在影响力和投资回报率。

Q：在处理大型模型时，Groq芯片是否存在性能或成本问题？

A：从我们的计算来看，如果以拉马70B大型模型为例，其模型至少需要100GB内存。根据Groq的计算速度，运行这样的大型模型需要500多个芯片，这是非常夸张的。相比之下，NVIDIA只需要一个IP100就可以处理。如果部署，NVIDIA使用HGX平台，每张8张卡196GB，总共约1600GB。成本方面，Groq单芯片面积大，约720平方毫米14纳米，翻译成7纳米可能不到400平方毫米，但英伟达820平方毫米。因此，Groq的单芯片成本至少是英伟达的一半。但实际的产品定价和利润率可能会有所不同，NVIDIA单芯片的成本约为2000美元，而Groq芯片的价格可能是2000到3000美元。据我们所知，Groq声称自己的价格可以覆盖成本，即使它的利润率很低，也不会赔钱。

Q：Groq芯片在大模型处理中有哪些潜在的改进空间？

A：Groq的架构可能需要一些改进才能更适合大模型。如果采用TPU等支持HBM的架构，成本可能会大大降低，速度可能会提高。这是因为你不需要用500张卡来计算，你可以用8张卡。这样，如果HBM增加，Groq和NVIDIA的性能对比可能接近1：1。Groq目前需要500块芯片来匹配NVIDIA16块芯片的性能。但如果将NVIDIA的16万美元与25万美元相比，Groq的成本仍然更高。对下一代芯片的干预可能会增加外部存储，以减少所需芯片的数量，从而降低成本。目前，Groq卡的销售价格可能是5000美元，但成本可能在2000美元到3000美元之间。如果利润率进一步降低，Groq的成本和价格都有下降的空间，这可能更接近NVIDIA的定价。

Q：Groq芯片中的SM是什么，是新技术吗？

A：SM（StreamingMultiprocessor）它存在于所有芯片中，无论是大CPU、GPU或其他芯片都有SM。这不是一个新的创新，所以在芯片中添加SM并不意味着在架构上有其他特殊的创新。Groq最近给出了每秒500个特征的数据，但并没有突破现有技术的范围。

Q：Groq推理芯片的IP是如何设计和生产的，后期会有架构变化吗？

A：Groq的IP设计主要由核心芯片制造商自行完成，无需外包或分片处理。至于架构的变化，Groq目前只公布了其芯片的POD连接方式，没有提到chip-to-chip的高速服务创新显著。它们的界面类似于标准的MALink，因此在这方面可能与其他IP制造商的高速设计没有太大区别。Groq没有采用光模块或光通信等设计，所以在这些连接方式上没有太多的创新。然而，Groq的创新更多的是关于数据流处理和编程模式，特别是整个芯片作为大型SM（streamingmultiprocessor）使用加速计算电路。这种编程模式和数据流处理方式的创新是Groq最显著的特点。

Q：静态随机存取存储器（SRAM）为什么成本这么贵？未来是否有降低成本的空间？

A：SRAM的成本很高，因为它的工艺与数字电路没有什么不同。随着工艺技术的发展，特别是在7纳米的过程中，SRAM的尺寸缩小变得相对敏感。每一代工艺更新时，数字电路的面积可以缩小约一半，但SRAM的面积缩小约30%，没有数字电路那么大。这种情况导致了芯片中SRAM的成本比例逐渐增加。随着技术的进步，SRAM的成本上升，其面积缩小速度无法赶上数字电路，因此芯片的整体成本变得越来越昂贵。然而，SRAM的成本可以通过架构设计、冗余设计和DFM(设计制造集成)策略来降低。但总的来说，SRAM的相对成本随着工艺的进一步发展而上升。SRAM也面临着良率问题，随着位数的增加，良率下降速度加快。这些因素都意味着SRAM在未来过程中的成本管理将成为挑战。

Q：SSM（SRAM）为什么成本高于DM？（DRAM）？

A：SSM的设计结构比DM复杂，需要六个晶体管，DM只需要一个晶体管。在相同的工艺条件下，如西蒙斯工艺，DRAM的密度约为SRAM的六倍，导致SRAM的1/6。DRAM可以独立生产，SRAM必须与CPUU等数字电路一起生产、GPU等一起生产，不能大规模或大规模生产，增加了成本。因此，虽然DRAM单元密度高，成本低，但SRAM整合到数字电路后成本会相对较高。此外，随着数字电路技术向先进技术的发展趋势，SRAM的收缩速度小于数字电路，因此其相对成本随数字电路的收缩而增加。

Q：有没有潜在的方法可以降低SM的成本？例如，摩尔定律在数字电路中的应用。

A：随着工艺的进步，SRAM的成本降低速度小于数字电路，不能单独生产，这随着数字电路尺寸的降低而增加了相对值。摩尔定律对SRAM成本降低的潜在影响较小，即使有技术创新，也会受到生产模式的限制。

Q：Groq的架构是否与传统的SRAM和逻辑电路紧密结合相冲突？

A：Groq的架构通过装配线结构将整个SRAM作为一个整体使用，尽管它们在物理上是分开的，这是一种架构创新，而不是硬件创新。其他公司也可以采用类似的方法，但美国可能没有公司愿意尝试，因为它们可能与现有的谷歌TPU专利发生冲突。

Q：Groq芯片与GPU相比，在大型模型应用中是否存在推理质量差异？

A：理论上，如果Groq芯片和GPU使用相同的数据格式进行处理，比如FP16或Int8，应该没有区别。然而，与GPU是否使用Int8或FP16相比，存在不确定性。如果Groq使用Int8，GPU使用FP16，精度将不同，其中FP16通常具有较高的精度。但由于大型模型对精度不太敏感，Groq在实际应用中可能会使用Int8，而不会产生显著影响。

Q：海光、寒武纪、华为在国内厂商大模型芯片上的进展情况如何？

A：海光推出的芯片主要服务于传统的高性能计算HPC领域，并没有特别优化人工智能加速器，因此不特别适合大模型推理。华为的产品也很相似，也没有明显指向人工智能大模型推理的特殊设计。

Q：Groq芯片是否需要外接HBM，未来是否有这种趋势？

A：Groq的芯片设计不包括外部存储设备，只包括PCIE接口和类似MA链接的高速接口，这可能是设计上的缺点。在未来，Groq可能会朝着外部HBM的设计方向发展，以提高成本效率。目前，Groq需要使用更多的芯片来满足大模型操作的需求。如果未来的设计能够与HBM外接，它可能会减少所需芯片的数量，提高成本效率。

Q：Gogle的TPU是否使用HBM，Groq芯片的设计是否与TPU相似？

A：GoogleTPU采用HBM(高带宽存储器)技术，具体来说是32TBSBM的存储模式。大约三分之一的设计类似于Groq的芯片。可以说，一些设计必须从Groq中学习，因为许多专利，包括clock核心，都是Groq。例如，Groq的设计在处理大模型操作方面有其创新性，这也是其他公司可以学习的。

Q：Groq处理方案对国内企业有借鉴意义吗？HBM和Groq等存储容量小的产品在实际应用中与大容量存储方案有什么区别？

A：Groq的处理方案对国内企业有一定的借鉴意义。例如，许多公司都在探索计算或过程计算。虽然800冷数据显示不是很成功，但昆仑和百度新闻的架构更接近Groq等大容量SM（流处理器）的架构。但在ICBN(基本国际电信号缩略语)无法采用的情况下，Groq方案是一个相对可实现的选择。至于HBM等高带宽但存储容量小的技术，其使用与几GB大容量存储的区别主要在于对大型模型的执行要求。如果不使用外部DM，大模型通常需要100GB到200GB的空间才能运行。或者ICM存储，可能需要几百块芯片。在这种情况下，不适合小公司或单一工厂，因为它们更适合在云环境中运营。例如，像谷歌和百度这样的大公司在云中操作大模型时，可能需要购买数万张存储卡，因此存储规模的问题并不是他们的障碍。从终端用户的角度来看，这些技术提供了足够的性能和非常快的速度，不会感到明显的缓慢。关键是，对于云的后端实施者来说，问答任务是占用约16张卡还是500张卡，这是成本和资源利用的重大差异。产业链研究

上一篇：严为民:大转折来了,未来会飙飞!

下一篇：返回列表

Q&AQ:GroqLPU和传统GPU有什么关键区别?

英特尔等硅光芯片的未来发展前景分析

中国有数百个人工智能大模型,但模型性能参差不齐,昆仑万维的“

新高可能会走出反转趋势

财通基金梓才:6只基金单日净值超过8%

祖传秘方开门红!龙年第一个交易日