荣格工业资源APP
了解工业圈,从荣格工业资源APP开始。
图片来源 / nextplatform
来源 / nextplatform;荣格电子芯片编译
作者 / Timothy Prickett Morgan
数据中心中没有多少设备采用英特尔4工艺蚀刻,这系由于芯片制造商对7纳米极紫外浸没式光刻技术的改进而延缓了其推广。但英特尔并没有止步不前。
英特尔的 Loihi 2 神经形态处理器就是突破口之一。美国桑迪亚国家实验室正在启动一台超级计算机,其中1,152个相互连接,以创建英特尔所谓的最大的神经形态系统Hala Point。
随着Nvidia(英伟达)的高端“Blackwell”GPU 加速器现在在其峰值配置中将功率推高至 1,200 瓦,并且需要液体冷却,而其他加速器无疑也会紧随其后,它们的插座不可避免得会变大,因为摩尔定律在芯片制造中的扩展速度会放缓,现在是退后一步的好时机,看看合理扩展的神经形态系统可以做什么,它不仅具有更像真实大脑中使用的真实神经元的电路,而且与数据中心中通常用于各种计算的XPU相比,其消耗的功率要少几个数量级。
下一代计算架构显然是我们在“下一个平台(The Next Platform )”密切关注的东西,以防万一特定类型的数据流引擎、神经形态处理器或量子计算机发展到足以在现实世界的工作负载上大规模工作。我们一直在关注IBM的TrueNorth项目,它源于Big Bluedid与美国国防高级研究计划局的合作、BrainChip公司的Akida神经形态处理器、Knowm公司基于忆阻器和突触启发的存储,当然还有英特尔的Loihi 1和Loihi 2系列芯片。
Loihi 2神经形态处理器是英特尔Hala Point大型神经拟态系统的核心,该系统正在桑迪亚进行测试,以了解它如何应用于各种人工智能工作负载,以及如何将它与基于CPU、GPU和其他计算引擎的AI方法进行比较。桑迪亚喜欢测试新架构,因为这是世界各地国家高性能计算(HPC)实验室的任务之一。
从2015年开始,英特尔就开始了神经拟态计算的研究;2017年9月,其研究部门英特尔实验室推出了第一款Loihi神经形态芯片,并于 2019年7月应用在Pohoiki Beach系统中,该系统有64个这样的Loihi 1处理器相互连接。当时,英特尔表示,Loihi 1芯片实现了一个尖峰神经网络架构,就像你随身携带的脂肪组织一样,大约相当于13万个神经元和1.28亿个突触。英特尔最终扩展了一个名为Pohoiki Springs的系统,该系统将800多个Loihi芯片连接在一起,并为AI模型提供了超过1亿个神经元。(人类大脑大约有1000亿个神经元,或者说是1000倍以上,仅供参考。)
Pohoiki Beach和Pohoiki Springs机器由英特尔实验室提供给数百名AI研究人员,但尚未商业化。基于第二代Loihi 2神经形态处理器的Hala Point系统也不未达到这一步,但它至少进入了桑迪亚大学。该大学已经创建了一个名为”Whetstone”的工具,可以将运行在CPU 和GPU上的各种卷积神经网络转换为运行在基于Loihi和Loihi 2芯片的机器上的尖峰神经网络。
通过转向英特尔4工艺,Loihi 2芯片的面积大约是Loihi 1的一半,并且具有相同数量的神经元核心,100万个神经元增加了8倍,突触数量几乎与Loihi 1相同(1.23 亿个)。以下是两个芯片的速度和馈电:
以下是Loihi 2芯片的框图:
Loihi 设备上的嵌入式处理器内核数量从Loihi 1上的3个增加到6个,这些内核使用C或 Python进行编程,用于编码和解码尖峰神经网络软件使用的数据。
这就把我们带到了Hala Point。有了1,152个这样的Loihi 2芯片,桑迪亚现在的机器集群有 140,544个神经元核心和2,304个主机X86核心。这些神经元核心实现了11.5亿个神经元,大约是人脑的1%,大致相当于猫头鹰的大脑。这台 Hala Point 机器总共有1382亿个突触。
这比过去两年世界各地的研究人员都在玩的Pohoiki Springs机器的脑力高出10倍。
Hala Point 服务器节点中有十几张卡,每张卡包括六个Loihi 2计算复合体,每个计算复合体有八个Loihi 2芯片。每张卡有 48 个Loihi 2芯片,相当于576U机架安装机箱中的2个 Loihi 6 芯片。因此,这台仅消耗 2,600 瓦的超级计算机可以安装在 42U 机架的 12U 中。
Hala Point 每秒能够处理380万亿次突触操作和每秒240万亿次神经元操作,总内存带宽为每秒16 PB。这款12U系统以8位数据分辨率运行稀疏深度神经网络,可以以每瓦15 teraops 的功率效率执行相当于20 petaops的处理。
为什么止步于此?这些6U机箱中只有174 个——计算能力仅比 Hala Point 系统提高了 87 倍——将拥有与人脑相同数量的“神经元”。
有趣的是,人类的大脑燃烧了大约20瓦的功率,而这174个外壳将燃烧226.2千瓦的果汁,大约是大脑的11,310倍。这样一个 1000 亿个Loihi 2 芯片的神经元簇将占用25个机架的空间,与普通人脑的80立方英寸左右相比,这是155万立方英寸的空间。大脑的空间效率是Loihi 2芯片集群的19,350倍。
有趣的是:如果摩尔定律可以毫不费力地每两年将芯片密度提高一倍,那么在空间效率上与大脑相匹配只需要34年,在能源效率上与大脑相匹配只需要27年。3D堆叠,这在Loihi芯片上是绝对可能的,也许会缩短这个时间,并使计算更复杂。
我们有一个更有趣的问题:如果你能用1万亿个模拟神经元或10万亿个模拟神经元来模拟人脑,而不是用1000亿个真实神经元来制造真正的人脑,会发生什么?不管这意味着什么,它会“更聪明”吗?
如果人类能从当前的灭绝级事件中幸存下来,可以肯定的是:一定会有人试图解答这些问题。而且,也许并不需要花费太多的资金就能做到。这听起来比用不知道有多少个GPU来做这件事要便宜得多…
原文链接:
https://www.nextplatform.com/2024/04/24/sandia-pushes-the-neuromorphic-ai-envelope-with-hala-point-supercomputer/
*声明:本文系原作者创作,荣格电子芯片编译。文章内容系其个人观点,我方转载仅为分享与讨论,不代表我方赞成或认同,如有异议,请联系后台。