下载此beplayapp体育下载

电子行业“AI的裂变时刻”系列报告3：为什么H20的推理性价比高？.docx

beplayapp体育下载分类：通信/电子 | 页数：约12页举报非法beplayapp体育下载有奖

1 / 12

下载提示

1.该资料是网友上传的，本站提供全文预览，预览什么样，下载就什么样。
2.下载该beplayapp体育下载所得收入归上传者、原创者。
3.下载的beplayapp体育下载，不会出现我们的网址水印。

同意并开始全文预览

(约 1-6 秒)

1 / 12 下载此beplayapp体育下载

beplayapp体育下载列表 beplayapp体育下载介绍

该【电子行业“AI的裂变时刻”系列报告3：为什么H20的推理性价比高？】是由【琥珀】上传分享，beplayapp体育下载一共【12】页，该beplayapp体育下载可以免费在线阅读，需要了解更多关于【电子行业“AI的裂变时刻”系列报告3：为什么H20的推理性价比高？】的内容，可以使用beplayapp体育下载的站内搜索功能，选择自己适合的beplayapp体育下载，以下文字是截取该文章内的部分文字，如需要获得完整电子版，请下载此beplayapp体育下载到您的设备，方便您编辑和打印。目录索引一、H20推理性能超过H100,L20推理性能比肩L40S 5二、PREFILL是算力密集场景,H20受算力制约性能表现较弱 7三、DECODE是显存带宽密集场景,H20性能表现优异 7四、H20在多数推理场景中性能优异、性价比高,但也存在特殊情况 8五、备注及附录 9六、风险提示 12图表索引图1:推理全程每秒输出Tokens数量对比(单位:Tokens/s) 5图2:推理性能对比(以A100作为参考基准) 5图3:推理全程每秒输出Tokens数量对比(单位:Tokens/s) 6图4:推理性能对比(以L40作为参考基准) 6图5:L40S单卡推理1stTokenLatency基于框架推算结果VSNVIDIA公布测试结果 9图6:MI300X与H100推理性能计算结果对比(根据框架计算) 10图7:MI300X与H100推理性能测试结果对比(AMD官网披露) 10图8:H200与H100推理性能计算结果对比(根据框架计算) 11图9:H200与H100推理性能测试结果对比(NVIDIA官网披露) 11表1:几种算力芯片的关键参数 5表2:Prefill阶段用时推算表 7表3:Decode阶段用时推算表 7表4:推理系统性能表现(ISL512/BSL3584) 8表5:推理系统性能表现(ISL3968/BSL128) 8一、H20推理性能超过H100,L20推理性能比肩L40S2023年10月,美国商务部发布更新针对AI芯片的出口管制规定,对出口中国的AI算力芯片产品的算力、算力密度、带宽等上限提出了明确要求。基于出口管制要求,NVIDIA为中国市场定制了H20、L20等产品。从表观参数来看,H20的FP16、INT8等主要算力参数仅为A100的不足1/2,更是仅为H100的约1/7;L20的主要算力参数相较于L40、L40S分别下降约1/3、2/3。这些最新的针对中国市场定制的产品算力参数被大幅阉割,使得市场大多对其性能表现、性价比持悲观或怀疑态度。我们基于理论计算,研究了H20、L20等产品在大模型推理端的性能表现;推算结果显示,H20、L20均展现出较优异的推理性能。表1:几种算力芯片的关键参数算力芯片型号NVIDIAH20NVIDIAA100NVIDIAH100NVIDIAH200NVIDIAL20NVIDIAL40NVIDIAL40SFP16算力(TFLOPS)1483**********.5181362FP8/INT8算力(TFLOPS/TOPS)29662419791979239362733显存容量(GB)968080141484848显存带宽(GB/s)4000203933524800864864864数据来源:NVIDIA官网,CSDN,H20推理性能优于A100、H100,仅略逊于H200。分别使用单张H20、A100、H100、H200进行推理,推理场景为:Llama2-13B模型,数据格式FP16,BatchSize=16;3组输入输出,输入/输出Tokens数量分别为128/3968、512/3584、2048/2048。以整个推理阶段推理系统平均每秒输出(单位:Tokens/s)作为推理能力衡量标准。参考图1,在3组推理场景下,H20的推理速度均明显优于A100,;在前两组推理场景下,H20的推理速度优于H100,第三组推理场景下H20与H100推理速度基本持平。取三组平均值,,。图1:推理全程每秒输出Tokens数量对比(单位:Tokens/s)120010008006004002000图2:推理性能对比(以A100作为参考基准)237%ISL128;OSL3968ISL512;OSL3584ISL2048;OSL183%166%100%2048H20 A100 H100 H200H20 A100 H100 H200 数据来源:NVIDIA官网,AGISphere,AttentionIsAllYouNeed作者AshishVaswani等,备注:推理场景,单GPU,Llama2-13B,BS=16,FP16数据来源:NVIDIA官网,AGISphere,AttentionIsAllYouNeed作者AshishVaswani等,数据来源:NVIDIA官网,AGISphere,AttentionIsAllYouNeed作者AshishVaswani等,备注:推理场景,单GPU,Llama2-13B,BS=16,FP16数据来源:NVIDIA官网,AGISphere,AttentionIsAllYouNeed作者AshishVaswani等,L20推理性能与L40、L40S基本相同。分别使用单张L40S、L40、L20进行推理,推理场景为:Llama2-7B模型,数据格式FP16,BatchSize=16;3组输入输出,输入/输出Tokens数量分别为128/3968、512/3584、2048/2048。以整个推理阶段推理系统平均每秒输出(单位:Tokens/s)作为推理能力衡量标准。参考图3,在前两组推理场景中,L40S、L40、L20的推理速度无明显差异;仅在最后一组场景(ISL/OSL2048/2048)中,L40S推理速度相较于L40、L20优势较明显。取三组平均值,L20推理速度仅比L40S速度慢约2%。图3:推理全程每秒输出Tokens数量对比(单位:Tokens/s)图4:推理性能对比(以L40作为参考基准)400350300250200150100500ISL128;OSL3968ISL512;OSL3584L40S L40 L20ISL2048;OSL2048101% 100% 99%L40S L40 L20 数据来源:NVIDIA官网,AGISphere,AttentionIsAllYouNeed作者AshishVaswani等,备注:推理场景,单GPU,Llama2-7B,BS=16,FP16数据来源:NVIDIA官网,AGISphere,AttentionIsAllYouNeed作者AshishVaswani等,为什么算力被大幅阉割的H20会有如此优异的推理性能表现?在接下来的两个章节,我们将分别分析推理过程中Prefill环节、Decode环节H20的推理性能表现。表2:Prefill阶段用时推算表二、Prefill是算力密集场景,H20受算力制约性能表现较弱Prefill阶段算力负载体现在对用户所有输入Tokens进行一次并行计算;显存带宽负载主要体现在参数量从HBM向算力芯片的传输。在大多数推理场景下(如输入Tokens较长、或BatchSize较大),Prefill阶段计算耗时高于显存传输的耗时,因此该环节的耗时(也被称为Firsttokenlatency)通常是由算力芯片的算力能力决定,Prefill阶段属于算力密集场景。参考表1,由于H20的算力较弱,在Prefill环节H20耗时明显高于其他三款芯片。这也意味着在使用H20进行推理时,用户从完成问题输入、到看到问题第一个文字的输出,中间需要等待较长时间。H20A100H100H200所需计算时间(ms)27681313414414所需内存传输时间(ms)1020129Prefill阶段总时间(ms)27681313414414数据来源:NVIDIA官网,AGISphere,AttentionIsAllYouNeed作者AshishVaswani等,备注:推理场景,单张GPU,Llama2-13B,Batchsize=16,FP16,ISL512/BSL3584三、Decode是显存带宽密集场景,H20性能表现优异在Prefill阶段结束后,大模型开始生成回答,该过程被称为Decode。由于Decode过程中,回答的Tokens必须逐个生成,且每个Token生成过程中,都需要重复一次参数从HBM向算力芯片的传输,且Decode阶段不断扩大的KVCache也需要在HBM和算力芯片间往复传输,使得Decode阶段通常显存传输耗时明显高于计算耗时;Decode阶段属于显存带宽密集场景,更高的显存带宽对加速Decode至关重要。参考表3,由于H20具有较高的显存带宽,在Decode阶段H20每生成1个Token所需时间低于A100、H100,这也使得H20在整个推理过程具有较高的推理速度。表3:Decode阶段用时推算表H20A100H100H200每生成1个Token所需计算时间(ms)(ms)18342115Decode阶段每生成1个Token用时(ms)18342115数据来源:NVIDIA官网,AGISphere,AttentionIsAllYouNeed作者AshishVaswani等,备注:推理场景,单张GPU,Llama2-13B,Batchsize=16,FP16,ISL512/BSL3584四、H20在多数推理场景中性能优异、性价比高,但也存在特殊情况多数应用场景下,站在H20推理使用用户角度,在输入问题后,等待界面出现第一个回答文字的等待时间会较长(相较于使用A100/H100/H200进行推理),,对用户使用体验的负面影响是有限的。(备注:实际用户等待时间还包括网络延迟、用户端侧延迟等)而在回答开始后,使用H20的用户会体验到回答生成速度较快(相较于使用A100/H100进行推理),每秒57个Tokens的生成速度明显高于人类阅读速度。(备注:通常每秒生成20个及以上Tokens就能给用户带来较舒适的在线阅读体验)站在H20持有人角度,持有人更关心一个推理系统Throughput的速度,因为对相同一套推理系统或成本相近的不同推理系统,平均Throughput(Tokens/s)越高,意味着每Token所平摊的系统硬件成本越低。从性价比角度看,假设H20与H100售价相近,在多数情况下,H20也有望成为性价比更高的推理芯片选择。表4:推理系统性能表现(ISL512/BSL3584)H20A100H100H200Firsttokenlatency(ms)27681313414414每秒生成Tokens数量(Tokens/s)57294868推理全程每秒生成Tokens数量(Tokens/s)8734607591085数据来源:NVIDIA官网,AGISphere,AttentionIsAllYouNeed作者AshishVaswani等,备注:推理场景,单张GPU,Llama2-13B,Batchsize=16,FP16,ISL512/BSL3584以上关于H20优异的推理性能的分析,是建立在较常见的推理场景(回答文字大于等于提问文字),在一些特殊推理场景下,例如输入一段长文字并输出长文字核心观点(对应较长的输入Tokens和较短的输出Tokens),参考表5,站在用户角度,从输入问题到出现答案的耗时会较为漫长(超过20s);站在持有人角度,推理全程H20的推理速度会下降至明显低于A100。因此,我们认为H20的推理性能优异、推理性价比高,适用于大部分推理场景,而非全部场景;H20实际的推理性能及性价比,需要结合实际使用场景、售价等综合评判。表5:推理系统性能表现(ISL3968/BSL128)H20A100H100H200Firsttokenlatency(ms)2144910**********回答过程每秒生成Tokens数量(Tokens/s)41213449推理全程每秒生成Tokens数量(Tokens/s)83125294351数据来源:NVIDIA官网,AGISphere,AttentionIsAllYouNeed作者AshishVaswani等,备注:推理场景,单张GPU,Llama2-13B,Batchsize=16,FP16,ISL3968/BSL128五、备注及附录备注:本报告关于H20的推理性能结果,均为理论推算结果,并非H20的实际测试结果。一方面,在理论计算过程中会涉及关键假设参数;另一方面,算力芯片实际应用过程中,其推理过程的软、硬件环境也会影响其最终表现。因此理论计算结果难免与实际测试结果存在一定出入。但同时,我们也对比了基于我们的推算框架的计算结果,与披露的部分算力芯片产品实际测试推理性能结果。基于我们的框架的计算值与NVIDIAL40S、AMDMI300X、NVIDIAH200等产品披露的实际测试推理性能展现出较高的一致性。(一)推算结果VS测试结果:NVIDIAL40S基于推算框架,对L40S单卡推理中1stTokenLatency进行推算,在推理模型Llama2-7B/13B/70B,ISL=2048,OSL=128,BS=1,FP8的推理场景下,推算得出结果分别为72ms/140ms/701ms,与NVIDIA公布的实际测试结果77ms/143ms/669ms对比,误差均在6%以内,具有较高的一致性。图5:L40S单卡推理1stTokenLatency基于框架推算结果VSNVIDIA公布测试结果80070060050040030020010007%6%2%5%6%5%4%3%2%1%0%Llama2-7B Llama2-13B Llama2-70B基于框架测算结果(ms) 英伟达披露测试结果(ms) 误差(百分比·右轴)数据来源:NVIDIA官网,AGISphere,AttentionIsAllYouNeed作者AshishVaswani等,备注:推理环境,NVIDIAL40S单卡,Llama2-7B/13B/70B,ISL=2048,OSL=128,BS=1,FP8(二)推算结果VS测试结果:AMDMI300XVSNVIDIAH100基于推算框架,我们计算比较了AMDMI300X与NVIDIAH100的推理性能。在Latency优先场景下,();在Throughput优先场景下,(AMD官网测基于框架测算结果(ms) 英伟达披露测试结果(ms) 误差(百分比·右轴)数据来源:NVIDIA官网,AGISphere,AttentionIsAllYouNeed作者AshishVaswani等,备注:推理环境,NVIDIAL40S单卡,Llama2-7B/13B/70B,ISL=2048,OSL=128,BS=1,FP8(二)推算结果VS测试结果:AMDMI300XVSNVIDIAH100基于推算框架,我们计算比较了AMDMI300X与NVIDIAH100的推理性能。在Latency优先场景下,();在Throughput优先场景下,();基于我们框架的计算结果与AMD官网披露的测试数据具有较高的一致性。图6:MI300X与H100推理性能计算结果对比(根据框架计算)图7:MI300X与H100推理性能测试结果对比(AMD官网披露) ThroughputH100 MI300X 数据来源:AMD官网,AGISphere,AttentionIsAllYouNeed作者AshishVaswani等,BLOOM:A176B-ParameterOpen-AccessMultilingualLanguageModel作者TevenLeScao,等,备注:Latencyimprovement推理环境,8卡AMDMI300X/8卡NVIDIAH100,Llama2-70B,ISL=2048,OSL=128,BS=1,FP16;Throughput推理环境,8卡AMDMI300X/8卡NVIDIAH100,Bloom-176B,ISL=1948,OSL=100,BS=128/32,FP16数据来源:AMD官网,备注:Latencyimprovement推理环境,8卡AMDMI300X/8卡NVIDIAH100,Llama2-70B,ISL=2048,OSL=128;Throughput推理环境,8卡AMDMI300X/8卡NVIDIAH100,Bloom-176B,ISL=1948,OSL=100(三)推算结果VS测试结果:NVIDIAH200VSNVIDIAH100基于推算框架,我们计算比较了NVIDIAH200与NVIDIAH100的推理性能。参考NVIDIA给定的推理场景,在Llama2-13B、GPT-3175B、Llama2-70B的大模型推理场景中,计算得到H200:、、,计算结果与NVIDIA官网披露的结果(、、)具有较高的一致性。

电子行业“AI的裂变时刻”系列报告3：为什么H20的推理性价比高？来自beplayapp体育下载www.apt-nc.com转载请标明出处.