英伟达 H100 vs. 苹果M2，大模型训练，哪款性价比较低？

2024-01-18 数码

结构设计，发布集成1140亿颗电路、20氘CPU、极极低达64氘GPU、32氘建模变速箱、2.5TB/s数据库传输速率、800GB/s内氘频宽、128GB实质上内氘的“至尊国际版”晶片M1 Ultra。延续M1 Ultra的结构设计思路，M2 Ultra晶片通过有别于突破性的UltraFusion体系结构，将两块M2 Max晶片拼接到独自一人，包括1340亿个电路，比上九代M1 Ultra多出200亿个。

UltraFusion是的厂家在定制封装新技术方面的领先新技术，其采用石墨相关联层（interposer）将晶片与最多10000个信号连接起来，从而备有最多2.5TB/s的极低延迟AMD外频宽。基于这一新技术，M2 Ultra晶片在内氘方面比M1 Ultra平均了50%，超越192GB的实质上内氘，并且包括比M2 Max晶片极极低两倍的800GB/s内氘频宽。除此以外由于内氘不足，即使是最强劲的独立GPU也只能处理大型假设。然而，的厂家通过将超大内氘频宽集成到单个SoC中所，借助于单台设备可以开始运行远超过的数据挖掘社会活动接地，如大型Transformer假设等。

AMD的大假设特训生态系统

除的厂家的M2 Ultra在大假设特训方面取得了非常大实质性之外，AMD的生态系统系统结构设计也在减速追赶。

据7月底3日消息，NVIDIA以其非常大的占优在显示特应用领域得到了公认的威信，无论是在游戏还是计算出来方面都有着非常大的占优，而在AI应用领域比较是一直垄断。然而，有还好传来，AMD仍未开始冲刺，其MI250显示特稳定性仍未超越了NVIDIA A100显示特的80%。 AMD在AI应用领域的落后主要是因为其的软件生态系统只能跟上操作系统拓展的稍稍。尽管AMD的显示特操作系统配置很极极低，但其运算生态系统与NVIDIA的CUDA相较一直假定极大的差距。不太可能，AMD新增了MI250显示特，使其比较好地背书PyTorch框架。

MosaicML的研究结果显示，MI250显示特在提高效率后的稳定性提升非常大，大词汇假设特训平皆速度已超越A100显示特的80%。AMD宣称，他们未曾为MosaicML开展这项研究备有捐助，但回应将之后与初创公司合作，以提高效率的软件背书。但需注意到的是，NVIDIA A100显示特是在2020年3月底发布的，仍未是上九代厂家，而NVIDIA过去月底所的AI减速特是H100，其AI稳定性有数倍至数十倍的提升。AMD的MI250显示特也不是月底所厂家，其在2021上半年发布，有别于CDNA2体系结构，6nm手工，包括208个计算出来单元和13312个流AMD整体，各项稳定性次测试方法比MI250X下降约5.5%，其他配置皆未变动。

AMD体系的特色如下：

一、LLM特训比较有利于

采用AMD MI250和NVIDIA A100在MPT-1B LLM假设上开展特训时，从相近的检查点开始，受损失曲线一直完正因如此相近。

二、稳定性与现有的A100系统结构设计相媲美

MosaicML对MPT假设的1B到13B模板开展了稳定性分析见到MI250每个GPU的特训吞吐量在80%的仅限于内与A100-40GB相当，并且与A100-80GB相较在73%的仅限于内。随着AMD的软件的加以改进，预计这一差距将要缩小。

三、基本无需code修订

得益于PyTorch对ROCm的很差背书，实质上不需修订现有code。

英伟达显示特与的厂家M2 Ultra 相较稳定性如何

一、英伟达显示特与M2 Ultra 相较稳定性如何

在传统意义Intel+英伟达独立显示特体系结构下，CPU与GPU相互外的通信系统结构设计一般而言通过PCIe开展。最强劲的H100背书PCIe Gen5，传输平皆速度为128GB/s，而A100和4090则背书PCIe 4，传输平皆速度为64GB/s。

另一个关键的模板是GPU的KB频宽，即GPU晶片与KB相互外的读写平皆速度。KB频宽是影响特训平皆速度的决定性因素。例如，英伟达4090显示特的KB频宽为1.15TB/s，而A100和H100的KB频宽分别为1.99TB/s和3.35TB/s。

最后一个关键的模板是KB大小不一，它同义的是显示特上的存储器发电能力。过去，4090是消费级显示特的顶级必需，KB大小不一为24GB，而A100和H100月历显示特的KB大小不一皆为80GB。这个模板对于存储器大规模假设和数据库集时比较关键。

M2 Ultra的晶片模板和4090以及A100的对比（CPU有别于Intel月底所的i9-13900KS）

从这些模板来看，的厂家的M2 Ultra值得注意到英伟达的4090来说稳定性稍极低，与专业级显示特相较则较为逊色。然而，M2 Ultra最关键的占优在于实质上内氘，即CPU读写的内氘可以并不需要被显示特用作KB。因此，包括192GB的KB一直相当于8个4090或者2.5个A100/H100的KB。这反之亦然单个M2 Ultra晶片可以缩减到比较大的假设。例如，举例来说GNU的LLaMA 65B假设需120GB的KB才能开展逻辑推理。这反之亦然的厂家的M2 Ultra可以并不需要适用做LLaMA 65B，而过去没有其他晶片需要单独承载如此远超过的假设，甚至仅限于月底所的H100。

从上述模板对比来看，M2 Ultra在其他次测试方法接近4090的情况，KB大小不一成为其小得多的占优。尽管M2 Ultra并非专为大假设特训而结构设计，但其体系结构比较适合开展大假设特训。

在上层生态系统方面，实质性也比较很差。2022年5月底18日，PyTorch宣布背书的厂家晶片，并开始可用M1 Ultra，利用的厂家备有的晶片减速库MPS开展减速Ultra上采用PyTorch开展特训。以文本填充页面为例，它需要除此以外填充比较多且比较极极低准确度的页面。

二、NVIDIA为什么不推出一款200GBKB以上的GPU？

主要原因可以总称以下几点：

1、大词汇假设火起来还紧接著；

2、KB发电能力和算力是要也就是说的，空有192GBKB，但是算力不足并无意义；

3、的厂家大内氘，适合在本地开展逻辑推理，有想在端侧调遣AI的下一轮热卖。

从2022年11月底ChatGPT火起来到过去，一段时外也不过才半年一段时外。从单项立项，到确定基本的配置，再到结构设计厂家，并且开展各种次测试，最终上市的正因如此程序研发一段时外将近在一年以上。客观性上讲，大词汇假设成型正因如此球仅限于的热卖，必定带动对于KB发电能力的需要。英伟达今后KB发电能力的新增平皆速度必定提速。

过去之所以消费级显示特的KB发电能力新增较慢，某种程度是没有应用场景。8GB的消费级显示特用来打游戏实乃，减速一些视频剪辑也绰绰有余。比较极极低的KB发电能力，只能曾为较少量科研人员，而且大多都去买了专业特专门应用。过去有了大词汇假设，可以在本地调遣一个GNU的假设。有了对于KB的明确需要，今后必定快速提升KB发电能力的。

其次，的厂家有192GB的实质上内氘可以用做大词汇假设的“特训”。这个概念化是完正因如此严重错误的。AI假设可以总称特训（train）、微调（fine-tune）和逻辑推理(inference)。简单来说，特训就是研发人员研发AI假设的现实生活，逻辑推理就是用户调遣在设备上来用。从算力耗费上来说，是特训>微调>逻辑推理，特训要比逻辑推理的算力耗费极极低将近3个尺度以上。

特训也不纯粹看一个KB发电能力大小不一，而是和晶片的算力整体相关的。因为实际特训的现实生活之外，将都从的数据库切块成不尽相同的batch size，然后接回显示特开展特训。KB大，反之亦然一次可以送进比较大的数据库块。但是晶片算力如果不足，单个数据库块就需较长的等待一段时外。

KB和算力，需要相辅相成。在有限的厂家成本内，两者应当是恰好在一个平衡点上。现阶段英伟达的H100需要国际上用做各大厂家的真实世界假设特训，而不是只假定于几个自新闻界玩具级别的视频里面，概述H100需要依赖于厂家的采用需。

要按的厂家的KB算法，一块Grace Hopper就最多了啊。一块Grace Hopper的实质上内氘极极低达512GB，外加Hopper还有96GB的独立KB，就让超了。

采用NVIDIA H100特训ChatGPT大假设仅用11分钟

AI新技术的蓬勃拓展使得NVIDIA的显示特成为商品上备受瞩目的大受欢迎厂家。众所周知是极极低端的H100减速特，其要价最多25万元，然而商品缺货。该减速特的稳定性也比较惊人，月底所的AI次测试结果显示，基于GPT-3的大词汇假设特训特殊任务刷新了记录，顺利完成一段时外仅为11分钟。

据了解，数据挖掘及人工智能应用领域的免费工业联盟MLCommons发布了月底所的MLPerf基准评测。仅限于8个接地次测试，其中所就包内含基于GPT-3GNU假设的LLM大词汇假设次测试，这对于风险评估的平台的AI稳定性设想了很极极低的立即。

作准备次测试的NVIDIA的平台由896个Intel至强8462Y+AMD和3584个H100减速特分成，是所有作准备的平台中所唯一需要顺利完成所有次测试的。并且，NVIDIA的平台刷新了记录。在决定性的基于GPT-3的大词汇假设特训特殊任务中所，H100的平台仅用了10.94分钟，与之相较，有别于96个至强8380AMD和96个Habana Gaudi2 AI晶片构建的Intel的平台顺利完成除此以外次测试所需的一段时外为311.94分钟。

H100的平台的稳定性一直是Intel的平台的30倍，当然，两套的平台的规模假定很大差异性。但即便只采用768个H100减速特开展特训，所需一段时外一直只有45.6分钟，远超最多有别于Intel的平台的AI晶片。

H100减速特有别于GH100 GPU整体，定制国际版台积电4nm手工制造，包括800亿个电路。它集成了18432个CUDA整体、576个张量整体和60MB的SDRAM，背书6144-bit HBM极极低频宽内氘以及PCIe 5.0API。

H100计算出来特备有SXM和PCIe 5.0两种外观。SXM国际版本包括15872个CUDA整体和528个Tensor整体，而PCIe 5.0国际版本则包括14952个CUDA整体和456个Tensor整体。该特的耗电量极极低达可达700W。

就稳定性而言，H100减速特在FP64/FP32计算出来方面需要超越千分之60万亿次的计算出来能力，而在FP16计算出来方面超越千分之2000万亿次的计算出来能力。此外，它还背书TF32计算出来，千分之可超越1000万亿次，是A100的三倍。而在FP8计算出来方面，H100减速特的稳定性可达千分之4000万亿次，是A100的足足。

蓝海脑部大假设特训的平台

蓝海脑部大假设特训的平台备有强劲的背书，仅限于基于免费减速模组极极低速网络服务连接的AI减速器。内置极极低速内氘且背书正因如此网络服务连接等价，依赖于大假设特训中所张量适配的通信系统结构设计需要。背书极极低稳定性I/O扩充，同时可以扩充至万特AI集群，依赖于大假设流水线和数据库适配的通信系统结构设计需要。强劲的液冷系统结构设计热插拔及智能开关管理新技术，当BMC接到PSU超载或严重错误警告（如断电、电涌，过热），备用自愿系统结构设计的CPU重回ULFM（超极低频Mode，以借助于最极极低效率）。致力于通过“永续新能源”为客户服务备有环保绿色的极极低稳定性计算出来框架。主要应用做整体深造、学术教育、生物医药、星球油田、气象海洋、超算中所心、AI及大数据库等应用领域。

一、为什么需大假设？

1、假设优点比较优

大假设在各场景上的优点皆优于普通假设

2、创造能力比较强

大假设需要开展段落填充（AIGC），助力段落专业化生产

3、灵活定制场景

通过举例子的方式为，定制大假设都从的应用场景

4、标注数据库比较较少

通过深造较少量金融业数据库，大假设就需要考虑到特定业务场景的需要

二、的平台特色

1、反式计算出来能源控管

一种基于常用IP和专用操作系统的示范框架，用做控管和管理多种反式计算出来能源，仅限于CPU、GPU等。通过强劲的虚拟化管理功用，需要轻松调遣底层计算出来能源，并极极低效开始运行各种假设。同时充派送挥不尽相同反式能源的操作系统减速能力，以放缓假设的开始运行平皆速度和填充平皆速度。

2、有利于简单的数据库存储器

背书多存储器类型备忘录，仅限于块、邮件和对象存储器服务。将存储器能源池化借助于假设和填充数据库的自由流通，大大提极极低数据库的利用率。同时有别于多副本、多级超载域和超载自以后等数据库保护程序，必要假设和数据库的安正因如此有利于开始运行。

3、极极低稳定性分布式网络服务

备有算力能源的网络服务和存储器，并通过分布式网络服务程序开展转发，透传电学网络服务稳定性，非常大大大提极极低假设算力的效率和稳定性。

4、正因如此面性安正因如此公共利益

在假设托管方面，有别于严格的权限管理程序，必要假设仓库的安正因如此性。在数据库存储器方面，备有融资调遣和数据库磁盘加密等措施，保证数据库的安正因如此可控性。同时，在假设派送和开始运行现实生活中所，备有正因如此面的账号认证和日志审计功用，正因如此面性公共利益假设和数据库的安正因如此性。

三、近似于内置

过去大假设特训多近似于H100、H800、A800、A100等GPU显示特，其中所H100 配备第四代 Tensor Core 和 Transformer 变速箱（FP8 准确度），与上九代厂家相较，可为多专业人士 (MoE) 假设备有极极低 9 倍的特训平皆速度。通过为基础可备有 900 GB/s GPU 外互连的第四代 NVlink、可跨节点减速每个 GPU 通信系统结构设计的 NVLINK Switch 系统结构设计、PCIe 5.0 以及 NVIDIA Magnum IO™ 的软件，为小型企业到大规模实质上 GPU 集群备有极极低效的可扩充性。

可携带 H100 的减速IP可以备有相应的计算出来能力，并利用 NVLink 和 NVSwitch 每个 GPU 3 TB/s 的KB频宽和可扩充性，凭借极极低稳定性考虑到数据库分析以及通过扩充背书远超过的数据库集。通过为基础采用 NVIDIA Quantum-2 InfiniBand、Magnum IO 的软件、GPU 减速的 Spark 3.0 和 NVIDIA RAPIDS™，NVIDIA 数据库中所心的平台需要以优异的稳定性和效率减速这些大型社会活动接地。

1、H100社会活动站近似于内置

CPU：Intel至强Platinum 8468 48C 96T 3.80GHz 105MB 350W *2

内氘：动态存储器器存储器器64GB DDR5 4800兆赫 *24

存储器：固态芯片3.2TB U.2 PCIe第4代 *4

GPU ：Nvidia Vulcan PCIe H100 80GB *8

的平台：HD210 *1

散热：CPU+GPU液冷一体散热系统结构设计 *1

网络服务：英伟达IB 400Gb/s单UDP驱动器 *8

开关：2000W(2+2)冗余极极低效开关 *1

2、A800社会活动站近似于内置

CPU：Intel 8358P 2.6G 11.2UFI 48M 32C 240W *2

内氘：DDR4 3200 64G *32

数据库盘：960G 2.5 SATA 6Gb R SSD *2

芯片：3.84T 2.5-E4x4R SSD *2

网络服务：双口10G光纤驱动器（内含模块）*1

双口25G SFP28无模块光纤驱动器（MCX512A-ADAT ）*1

GPU：HV HGX A800 8-GPU 8OGB *1

开关：3500W开关模块*4

其他：25G SFP28多模光模块 *2

单UDP200G HDR HCA特(型号:MCX653105A-HDAT) *4

2GB SAS 12Gb 8口 RAID特 *1

16A开关输电国标1.8m *4

托轨 *1

主板预留PCIE4.0x16API *4

背书2个M.2 *1

原厂质保3年 *1

3、A100社会活动站近似于内置

CPU：Intel Xeon Platinum 8358P_2.60 GHz_32C 64T_230W *2

RAM：64GB DDR4 RDIMMIP内氘 *16

SSD1：480GB 2.5英寸SATA固态芯片 *1

SSD2：3.84TB 2.5英寸NVMe固态芯片 *2

GPU：NVIDIA TESLA A100 80G SXM *8

驱动器1：100G 双口驱动器IB 迈络思 *2

驱动器2：25G CX5双口驱动器 *1

4、H800社会活动站近似于内置

CPU：Intel Xeon Platinum 8468 Processor,48C64T,105M Cache 2.1GHz,350W *2

内氘：64GB 3200MHz RECC DDR4 DIMM *32

系统结构设计芯片： intel D7-P5620 3.2T NVMe PCle4.0x4 3DTLCU.2 15mm 3DWPD *4

GPU： NVIDIA Tesla H800 -80GB HBM2 *8

GPU网络服务： NVIDIA 900-9x766-003-SQO PCle 1-Port IB 400 OSFP Gen5 *8

存储器网络服务：双UDP 200GbE IB *1

驱动器：25G网络服务API特双UDP *1

。

拉肚子拉水怎么办
胃酸反流吃什么药
哈萨克斯坦试管婴儿费用贵吗
治疗拉肚子的药有哪些
什么药物能让男性延缓衰老

上一篇： 2014年，3岁女娃和狗一起失踪，11天后老爸叼着女孩发圈归来

下一篇：投资者提问：董秘你好，近期关注到地方媒体报道商家鼓励村民去田间地头找含有白玉...