行情频道: 行情 / 知识 / 新股 / 要闻 / 基金 /

Q&A

Q:GroqLPU和传统GPU有什么关键区别?GroqLPU在推理芯片市场的性能提升和成本如何?

A:GroqLPU实际上是为人工智能算法设计的DSA(领域特定加速器),类似于典型的谷歌TPU,其结构明显不同于英伟达GPU。它的设计没有脱离传统的CMOS工艺,采用与传统内存相连的SMOS工艺(StorageMemory)架构,而不是使用新的存储设计。不同之处在于,Groq采用基于嵌入式SRAM架构的存储方式,取代了传统的cache系统和HBM(高带宽内存)。然而,这种设计并不是一个创新的突破,许多其他公司也使用类似的内部存储方法,如百度昆仑芯和英国Graphcore。Groq的存储容量不是最大的,但其架构非常适合大型模型计算,特别是大型语言模型,数据流格式和向量计算较宽。GroqLPU更适合大语言模型的计算需求,提供友好的编程模式,以满足当前大语言模型的需求。Groq对LPU进行了优化和调整,目前可提供高达500trillionoperations per second性能。

Q:为什么Groq设计的LPU存储量这么大,采用这种设计的成本和价格是多少?

A:虽然Groq的存储量不是市场上最大的,但其230或240兆字节的全球共享SM很容易编程,因为它可以被视为一个完整的内存,而不是多个分散的SM。这使得编程相对简单,因为不需要在多个小块之间做太多的优化。从工艺流派的角度来看,Groq采用基于传统CMOS工艺的存储设计。与新的存储过程相比,传统的CMOS更加成熟和广泛,制造商和生产链也更加丰富和完善。这意味着从设计到制造的成本相对较低,更容易找到OEM和批量生产。总的来说,Groq的设计选择可以更有效地控制其成本,并帮助其推理芯片在市场上的竞争力。

Q:请介绍大型Groq芯片的架构特点。

A:Groq芯片在架构上有几种不同的形式,包括净存计算和存储计算。在净存计算中,计算电路被放置在存储器中,如纯技术和后膜智能。另外,还有一种形式叫做过程计算,HBM(HighBandwidthMemory)这是一个典型的过程计算例子,它将原本放置在芯片外部的设计集成到芯片中,可以减少延迟,大大提高带宽。另外,实现芯片内部过程计算的方法有两种,一种是基于SM(StreamingMultiprocessors)二是基于cache的设计。例如,CPU和GPU内部通常有大容量的cache。与以前相比,GPU在cache容量上有所增加,从原来的16MB开始、24MB、32MB增加到96MB或128MB。DSA(Domain-SpecificArchitectures)几乎所有基于SRAM的设计,如含光800使用256MB,英特尔Graphcore使用780MB。不同的架构会导致价格和性能的差异,比如Groq芯片,容量不同于144MB或244MB,架构也不同,这使得它们的性能竞争力很强。例如,谷歌在其云服务中大规模使用Groq芯片,甚至超过了GPU的使用。

Q:如何评估Groq芯片的成本和性能比?

A:Groq成立后,其芯片成本较高,但在性能上却能达到每秒500个科目的分数(GFLOPS)计算能力。在考虑其性能的前提下,为了计算这种大型Groq芯片的成本,我们需要比较其他主流方案,如英伟达芯片的成本性能。在性能方面,Groq芯片既具有竞争力,又显示了其在高性能计算领域的可靠性。特别是在谷歌云服务的使用中,Groq芯片的使用量已经超过了传统的GPU,表明其性价比得到了市场的认可。考虑Groq芯片的成本和性能指标对于投资决策至关重要,以评估其在市场上的潜在影响力和投资回报率。

Q:在处理大型模型时,Groq芯片是否存在性能或成本问题?

A:从我们的计算来看,如果以拉马70B大型模型为例,其模型至少需要100GB内存。根据Groq的计算速度,运行这样的大型模型需要500多个芯片,这是非常夸张的。相比之下,NVIDIA只需要一个IP100就可以处理。如果部署,NVIDIA使用HGX平台,每张8张卡196GB,总共约1600GB。成本方面,Groq单芯片面积大,约720平方毫米14纳米,翻译成7纳米可能不到400平方毫米,但英伟达820平方毫米。因此,Groq的单芯片成本至少是英伟达的一半。但实际的产品定价和利润率可能会有所不同,NVIDIA单芯片的成本约为2000美元,而Groq芯片的价格可能是2000到3000美元。据我们所知,Groq声称自己的价格可以覆盖成本,即使它的利润率很低,也不会赔钱。

Q:Groq芯片在大模型处理中有哪些潜在的改进空间?

A:Groq的架构可能需要一些改进才能更适合大模型。如果采用TPU等支持HBM的架构,成本可能会大大降低,速度可能会提高。这是因为你不需要用500张卡来计算,你可以用8张卡。这样,如果HBM增加,Groq和NVIDIA的性能对比可能接近1:1。Groq目前需要500块芯片来匹配NVIDIA16块芯片的性能。但如果将NVIDIA的16万美元与25万美元相比,Groq的成本仍然更高。对下一代芯片的干预可能会增加外部存储,以减少所需芯片的数量,从而降低成本。目前,Groq卡的销售价格可能是5000美元,但成本可能在2000美元到3000美元之间。如果利润率进一步降低,Groq的成本和价格都有下降的空间,这可能更接近NVIDIA的定价。

Q:Groq芯片中的SM是什么,是新技术吗?

A:SM(StreamingMultiprocessor)它存在于所有芯片中,无论是大CPU、GPU或其他芯片都有SM。这不是一个新的创新,所以在芯片中添加SM并不意味着在架构上有其他特殊的创新。Groq最近给出了每秒500个特征的数据,但并没有突破现有技术的范围。

Q:Groq推理芯片的IP是如何设计和生产的,后期会有架构变化吗?

A:Groq的IP设计主要由核心芯片制造商自行完成,无需外包或分片处理。至于架构的变化,Groq目前只公布了其芯片的POD连接方式,没有提到chip-to-chip的高速服务创新显著。它们的界面类似于标准的MALink,因此在这方面可能与其他IP制造商的高速设计没有太大区别。Groq没有采用光模块或光通信等设计,所以在这些连接方式上没有太多的创新。然而,Groq的创新更多的是关于数据流处理和编程模式,特别是整个芯片作为大型SM(streamingmultiprocessor)使用加速计算电路。这种编程模式和数据流处理方式的创新是Groq最显著的特点。

Q:静态随机存取存储器(SRAM)为什么成本这么贵?未来是否有降低成本的空间?

A:SRAM的成本很高,因为它的工艺与数字电路没有什么不同。随着工艺技术的发展,特别是在7纳米的过程中,SRAM的尺寸缩小变得相对敏感。每一代工艺更新时,数字电路的面积可以缩小约一半,但SRAM的面积缩小约30%,没有数字电路那么大。这种情况导致了芯片中SRAM的成本比例逐渐增加。随着技术的进步,SRAM的成本上升,其面积缩小速度无法赶上数字电路,因此芯片的整体成本变得越来越昂贵。然而,SRAM的成本可以通过架构设计、冗余设计和DFM(设计制造集成)策略来降低。但总的来说,SRAM的相对成本随着工艺的进一步发展而上升。SRAM也面临着良率问题,随着位数的增加,良率下降速度加快。这些因素都意味着SRAM在未来过程中的成本管理将成为挑战。

Q:SSM(SRAM)为什么成本高于DM?(DRAM)?

A:SSM的设计结构比DM复杂,需要六个晶体管,DM只需要一个晶体管。在相同的工艺条件下,如西蒙斯工艺,DRAM的密度约为SRAM的六倍,导致SRAM的1/6。DRAM可以独立生产,SRAM必须与CPUU等数字电路一起生产、GPU等一起生产,不能大规模或大规模生产,增加了成本。因此,虽然DRAM单元密度高,成本低,但SRAM整合到数字电路后成本会相对较高。此外,随着数字电路技术向先进技术的发展趋势,SRAM的收缩速度小于数字电路,因此其相对成本随数字电路的收缩而增加。

Q:有没有潜在的方法可以降低SM的成本?例如,摩尔定律在数字电路中的应用。

A:随着工艺的进步,SRAM的成本降低速度小于数字电路,不能单独生产,这随着数字电路尺寸的降低而增加了相对值。摩尔定律对SRAM成本降低的潜在影响较小,即使有技术创新,也会受到生产模式的限制。

Q:Groq的架构是否与传统的SRAM和逻辑电路紧密结合相冲突?

A:Groq的架构通过装配线结构将整个SRAM作为一个整体使用,尽管它们在物理上是分开的,这是一种架构创新,而不是硬件创新。其他公司也可以采用类似的方法,但美国可能没有公司愿意尝试,因为它们可能与现有的谷歌TPU专利发生冲突。

Q:Groq芯片与GPU相比,在大型模型应用中是否存在推理质量差异?

A:理论上,如果Groq芯片和GPU使用相同的数据格式进行处理,比如FP16或Int8,应该没有区别。然而,与GPU是否使用Int8或FP16相比,存在不确定性。如果Groq使用Int8,GPU使用FP16,精度将不同,其中FP16通常具有较高的精度。但由于大型模型对精度不太敏感,Groq在实际应用中可能会使用Int8,而不会产生显著影响。

Q:海光、寒武纪、华为在国内厂商大模型芯片上的进展情况如何?

A:海光推出的芯片主要服务于传统的高性能计算HPC领域,并没有特别优化人工智能加速器,因此不特别适合大模型推理。华为的产品也很相似,也没有明显指向人工智能大模型推理的特殊设计。

Q:Groq芯片是否需要外接HBM,未来是否有这种趋势?

A:Groq的芯片设计不包括外部存储设备,只包括PCIE接口和类似MA链接的高速接口,这可能是设计上的缺点。在未来,Groq可能会朝着外部HBM的设计方向发展,以提高成本效率。目前,Groq需要使用更多的芯片来满足大模型操作的需求。如果未来的设计能够与HBM外接,它可能会减少所需芯片的数量,提高成本效率。

Q:Gogle的TPU是否使用HBM,Groq芯片的设计是否与TPU相似?

A:GoogleTPU采用HBM(高带宽存储器)技术,具体来说是32TBSBM的存储模式。大约三分之一的设计类似于Groq的芯片。可以说,一些设计必须从Groq中学习,因为许多专利,包括clock核心,都是Groq。例如,Groq的设计在处理大模型操作方面有其创新性,这也是其他公司可以学习的。

Q:Groq处理方案对国内企业有借鉴意义吗?HBM和Groq等存储容量小的产品在实际应用中与大容量存储方案有什么区别?

A:Groq的处理方案对国内企业有一定的借鉴意义。例如,许多公司都在探索计算或过程计算。虽然800冷数据显示不是很成功,但昆仑和百度新闻的架构更接近Groq等大容量SM(流处理器)的架构。但在ICBN(基本国际电信号缩略语)无法采用的情况下,Groq方案是一个相对可实现的选择。至于HBM等高带宽但存储容量小的技术,其使用与几GB大容量存储的区别主要在于对大型模型的执行要求。如果不使用外部DM,大模型通常需要100GB到200GB的空间才能运行。或者ICM存储,可能需要几百块芯片。在这种情况下,不适合小公司或单一工厂,因为它们更适合在云环境中运营。例如,像谷歌和百度这样的大公司在云中操作大模型时,可能需要购买数万张存储卡,因此存储规模的问题并不是他们的障碍。从终端用户的角度来看,这些技术提供了足够的性能和非常快的速度,不会感到明显的缓慢。关键是,对于云的后端实施者来说,问答任务是占用约16张卡还是500张卡,这是成本和资源利用的重大差异。产业链研究

相关阅读
  • 英特尔等硅光芯片的未来发展前景分析

    英特尔等硅光芯片的未来发展前景分析

    硅光一直倾向于讲故事,主要是因为他是英特尔最早用来对抗博通EML传统方案的标杆或阵营。英特尔硅光在2016年占订单的20%, 经过7-8年的发展,其实份额一直很小,很难莲藕,光芯片流片也很差。英特尔从未赚过钱。硅光的渗透率一...

    2024-02-20 21:58:17
  • 中国有数百个人工智能大模型,但模型性能参差不齐,昆仑万维的“

    中国有数百个人工智能大模型,但模型性能参差不齐,昆仑万维的“

    如果你想数一数未来几年非常确定的轨道,人工智能必须有一席之地。人工智能是一个富有想象力的市场。在ChatGPT诞生并风靡全球之前,我们不知道人工智能可以迅速渗透到各个方面,改变我们的生活方式。例如,以大模型为基础的...

    2024-02-20 22:09:31
  • 新高可能会走出反转趋势

    新高可能会走出反转趋势

    [指数]今天的指数冲击,可能是在牛s生命预测的线上和线下范围内。但收盘是站在2920点,表明它仍然比预期更强劲,但不幸的是,成交量可以进一步萎缩。所以后续可能是在消化利润板块后继续反弹。如果合作良好,发布新高可能会走...

    2024-02-21 09:39:47
  • 财通基金梓才:6只基金单日净值超过8%

    财通基金梓才:6只基金单日净值超过8%

    假如说春节期间最引人注目的消息,Sora一定是榜上有名,让人再次体验到了ChatGPT带来的震撼。大家都没想到,一年前“巨石强森吃石头”的傻瓜人工智能在短短一年内演变成60秒细节精致、光影优秀的视频。假期过后的两个交易...

    2024-02-20 21:53:35
  • 祖传秘方开门红!龙年第一个交易日

    祖传秘方开门红!龙年第一个交易日

    祖传秘方-开门红!龙年第一个交易日,a股全线走红,各大指数全线上涨,上证指数上涨1.56%,创业板指数上涨1.13%,科技创新50指数上涨1.57%。与节前相比,两市成交额9572.9亿,明显缩水!就个股而言,普遍上涨格局,涨跌家数比4157:1028年,涨...

    2024-02-20 21:54:08

本文Q&AQ:GroqLPU和传统GPU有什么关键区别?由壹米财经整理发布,欢迎转载收藏,转载请带上本文链接。
免责声明:【壹米财经】发布的所有信息,并不代表本站赞同其观点和对其真实性负责,投资者据此操作,风险请自担。部分内容文章及图片来自互联网或自媒体,版权归属于原作者,不保证该信息(包括但不限 于文字、图片、图表及数据)的准确性、真实性、完整性、有效性、及时性、原创性等,如有问题,请联系我们! 分享到: 新浪微博 微信

扫描左侧二维码
看手机移动端,随时随地看 股票 新闻