编者按:本文来自微信大众号“新智元”(ID:AI_era),修改 小芹、大明。36氪经授权转载。
面积42225 平方毫米,具有1.2 万亿个晶体管,400000 个中心,片上内存18 Gigabytes,内存带宽19 PByte/s,fabric带宽100 Pbit/s。
这便是有史以来最大的芯片——Cerebras Wafer Scale Engine!
这颗巨型芯片由Cerebras Systems公司推出,芯片发布后,三位我国芯片范畴专家在朋友圈当即做出点评:
芯片专家唐杉:“崇拜一下Cerebras的巨型芯片,每边大约9英寸,22cm。我记住我之前写文章还画过一个相似的比照图。[机敏]Wired的文章,看来Cerebras要走到前台了。”
深鉴科技联合创始人姚颂:“Cerebras的Wafer-scale chip的确绚丽,有一种一起的美感,就好像看到大炮巨舰的那种绚丽之情。期望Andrew Feldman一切顺利。”
猎户星空首席战略官王兵:“一万两千亿晶体管的巨大芯片,300mm wafer能做出的最大芯片,应战芯片职业极限之作。假如能成功必然会推翻整个AI芯片职业。不过即便是用了多种过错冗余技能,量产良品率还将会是个巨大的应战。”
Cerebras Wafer Scale Engine具有1.2万亿个晶体管。1971年英特尔首款4004处理器的晶体管数量为2,300个,最近的AMD处理器具有320亿个晶体管。
大多数芯片实践上是在12英寸硅晶片上创立的芯片调集,并在芯片工厂中批量生产。但Cerebras Systems芯片是在单个晶圆上互连的单芯片。这些互连规划使这些芯片悉数坚持高速运转状况,万亿个晶体管能够悉数一同作业。
经过这种方法,Cerebras Wafer Scale Engine成为有史以来最大的处理器,它专门规划用于处理AI运用问题。该公司在本周在斯坦福大学举办的Hot Chips会议上评论这款“国际最大”的芯片的规划。
此前,三星实践上已制作出了一个闪存芯片eUFS,具有2万亿个晶体管。但Cerebras芯片专为流程加工而规划,具有400,000个中心,芯片面积42,225平方毫米。它比最大的Nvidia GPU大56.7倍,后者尺度为815平方毫米,含211亿个晶体管。
史上最大芯片跟网球的比照
WSE还包括3,000倍的高速片上存储器,并且具有10,000倍的存储器带宽。
该芯片来自Andrew Feldman领导的团队,后者曾创立微型服务器公司SeaMicro,并以3.34亿美元的价格卖给了AMD。Cerebras Systems的联合创始人兼首席硬件架构师Sean Lie将将在Hot Chips大会上展现Cerebras Wafer Scale Engine。这家坐落加州Los Altos的公司具有194名职工。
Cerebras CEOFieldman与SeaMicro box开始版别合影
芯片尺度在AI使命中十分重要,因为大尺度芯片能够更快地处理信息,在更短的时刻内给出答案。这能够削减“练习时刻”,使研究人员能够测验更多主意,运用更多数据并处理新问题。谷歌、Facebook、OpenAI、腾讯、百度和许多企业都以为,今日约束AI开展的根本约束是练习模型需求的时刻太长。因而,缩短练习时刻有望消除整个职业获得前进的首要瓶颈。
当然,芯片制作商一般不会制作这么大的芯片。在单个晶片的制作过程中一般会呈现一些杂质。假如一种杂质会导致一块芯片发作毛病,那么晶圆上的多种杂质就会导致多块芯片出问题。实践制作出的芯片产值仅占实践作业芯片的一小部分。假如晶圆上只要一个芯片,它有杂质的几率是100%,杂质会使芯片失效。但Cerebras规划的芯片留有冗余,一种杂质不会导致整个芯片都不能用。
单晶圆供给超级核算机级的核算才能
“Cerebras WSE”专为人工智能规划而规划,其间包括了不少根底立异,处理了约束芯片尺度的长达数十年的技能应战 - 如良品率,功率传送、封装等,推动了最先进技能的开展。和包装,每个架构决议计划都是为了优化AI作业的功能。结果是,Cerebras WSE依据作业量供给了数百或数千倍的现有处理方案的功能,只需很小的功耗和空间。”Cerebras Systems首席履行官的Fieldman说。
经过加快神经网络练习的一切元从来完结这些功能提高。神经网络是一种多级核算反应回路。输入在循环中移动速度越快,循环学习的速度越快,即练习时刻越短。能够经过加快循环内的核算和通讯来加快输入的循环速度。
Cerebras WSE芯片面积比现在最大的GPU大56.7倍, 并供给更多中心进行核算,有更多中心挨近内存,因而内核能够高效运转。因为这些很多的内核和内存坐落单个芯片上,因而一切通讯都在芯片上进行,通讯带宽高、推迟低,因而中心组能够以最高功率进行协作。
Cerebras WSE中的46,225平方毫米的芯片面积上包括40万个AI优化中心,无缓存、无开支的核算内核,以及和18千兆字节的本地化分布式超高速SRAM内存。内存带宽为每秒9 PB。这些中心经过细粒度、全硬件、片上网状衔接通讯网络衔接在一同,可供给每秒100 petabits的总带宽。更多中心、更多本地内存和低推迟高带宽结构,一起构成了面向AI加快使命的最佳架构。
“尽管AI在一般意义上被运用,但没有两个数据集或两个AI使命是相同的。新的AI作业负载不断涌现,数据集也在不断变大,”Tirias Research首席分析师兼创始人Jim McGregor在一份声明中表明。
“跟着AI的开展,芯片和渠道处理方案也在不断开展。Cerebras WSE是半导体和渠道规划方面的一项惊人的工程成果,它在单个晶圆级的处理方案中供给了超级核算机级的核算才能、高功能内存和带宽。”
Cerebras 表明,假如没有多年来与台积电(TSMC)的密切合作,他们不可能获得这个创纪录的成果。台积电是全球最大的半导体代工厂,在先进工艺技能方面处于领先地位。WSE芯片由台积电选用先进的16nm制程技能制作。
400000个AI优化的内核
WSE包括40万个AI优化的核算内核(compute cores)。这种核算内核被称为稀少线性代数核(Sparse Linear Algebra Cores, SLAC),具有灵活性、可编程性,并针对支撑一切神经网络核算的稀少线性代数进行了优化。SLAC的可编程性确保了内核能够在不断改变的机器学习范畴运转一切的神经网络算法。
因为稀少线性代数内核是为神经网络核算进行优化的,因而它们可完结业界最佳利用率——一般是GPU的3倍或4倍。此外,WSE中心还包括Cerebras创造的稀少捕获技能,以加快在稀少作业负载(包括0的作业负载)上的核算功能,比方深度学习。
零在深度学习核算中很遍及。一般,要相乘的向量和矩阵中的大多数元素都是0。但是,乘以0是糟蹋硅,功率和时刻的行为,因为没有新的信息。
因为GPU和TPU是密布的履行引擎——引擎的规划永久不会遇到0——所以它们即便在0时也会乘以每一个元素。当50-98%的数据为零时,如深度学习中经常呈现的状况相同,大多数乘法都被糟蹋了。因为Cerebras的稀少线性代数中心永久不会乘以零,一切的零数据都被过滤掉,能够在硬件中越过,然后能够在其方位上完结有用的作业。
比GPU大3000倍的片上内存
内存是每一种核算机体系结构的要害组成部分。挨近核算的内存意味着更快的核算、更低的推迟和更好的数据移动功率。高功能的深度学习需求很多的核算和频频的数据拜访。这就要求核算中心和内存之间要十分挨近,而在GPU中却不是这样,GPU中绝大多数内存都很慢,并且离核算中心很远。
Cerebras Wafer Scale Engine包括了比迄今为止任何芯片都要多的内核和本地内存,并且在一个时钟周期内具有18 GB的片上内存。WSE上的中心本地内存的调集供给了每秒9 PB的内存带宽——比最好的GPU大3000倍的片上内存和10000倍的内存带宽。
低推迟、高带宽的一起通讯结构
Swarm通讯结构是WSE上运用的处理器间通讯结构,它以传统通讯技能功耗的一小部分完结了带宽的打破和低推迟。Swarm供给了一个低推迟、高带宽的2D网格,它将WSE上的一切400,000个核衔接起来,每秒的带宽总计达100 petabits。
路由、牢靠的音讯传递和同步都在硬件中处理。音讯会主动激活每个抵达音讯的运用程序处理程序。Swarm为每个神经网络供给了一个一起的、优化的通讯途径。软件依据正在运转的特定用户界说的神经网络的结构,装备经过400,000个中心的最优通讯途径,以衔接处理器。
典型的音讯遍历一个具有纳秒推迟的硬件链接。一个Cerebras WSE的总带宽是每秒100 PB。不需求TCP/IP和MPI等通讯软件,因而能够防止功能丢失。这种结构的通讯能量本钱远低于远低于每比特 1 焦耳,比GPU低了近两个数量级。结合了巨大的带宽和极低的推迟,Swarm通讯结构使 Cerebras WSE比任何当时可用的处理方案学习得更快。
原文链接:
https://venturebeat.com/2019/08/19/cerebras-systems-unveils-a-record-1-2-trillion-transistor-chip-for-ai/amp/?from=timeline