新闻动态

比CPU、GPU快30倍?谷歌TPU内部架构藏有什么秘密

2021-04-17 19:14

本文摘要:在二零一六年五月的I/O开发人员交流会上,谷歌初次向外透露了其机器学习专用型处理芯片Tensor控制部件(TPU)。以后,谷歌除开公布他们是围绕企业本身进行提升的TensorFlow机器学习架构以外,就再未透露更强的关键点。 2020-03-30 ,这款机器学习自定处理芯片的谜样面具再一被揭秘了。

亚博足球比分

在二零一六年五月的I/O开发人员交流会上,谷歌初次向外透露了其机器学习专用型处理芯片Tensor控制部件(TPU)。以后,谷歌除开公布他们是围绕企业本身进行提升的TensorFlow机器学习架构以外,就再未透露更强的关键点。

2020-03-30 ,这款机器学习自定处理芯片的谜样面具再一被揭秘了。4月7日,谷歌杰出硬件工程师NormanJouppi引发热议答复,谷歌的专用型机器学习处理芯片TPU响应速度要比GPU和CPU慢15-30倍(和TPU比照的是intelHaswellCPU及其NvidiaTeslaK80GPU),而在能耗等级上,TPU称得上提升 了30到80倍。特别注意的是,这种数据是有关在生产制造中用以机器学习实体模型的,而不是初次开创实体模型。从此次发布的检测結果看来,TPU也许早就远远超过了业内的预估,可是藏在这一处理芯片身后的內部构架究竟有哪些密秘呢,大家从Jouppi先前发布的毕业论文之中,能够寻找答案。

据了解,先于在四年前,谷歌內部就刚开始用以耗费很多云计算服务器的深层通过自学实体模型,这对CPU、GPU人组来讲是一个巨大的挑戰,谷歌知道假如根据目前硬件配置,她们将迫不得已将大数据中心总数翻一番来抵制这种简易的推算出来每日任务。因此 谷歌刚开始产品研发一种新的构架,Jouppi称之为“下一个服务平台”。

亚博足球比分

Jouppi曾是MIPSCPU的顶尖系统架构师之一,他创新了运行内存系统软件中的新技术应用。三年前他重进谷歌的情况下,企业左右已经用CPU、GPU混和构架上去进行深层通过自学的训炼。

Jouppi答复,谷歌的硬件配置工程项目精英团队在调向自定ASIC以前,初期还曾用FPGA来解决困难便宜、高效率和高性能悬疑小说的难题。但他觉得,FPGA的性能和每瓦性能相比ASIC都是有非常大的差别。他表明讲到,“TPU能够像CPU或GPU一样可编程控制器,它能够在各有不同的互联网(卷积和神经元网络,LSTM实体模型和规模性基本上相接的实体模型)上执行CISC命令,而不是为某一专用型的神经元网络设计模型的。一言以蔽之,TPU兼具了CPU和ASIC的有点儿,它不但是可编程控制器的,并且比CPU、GPU和FPGA具有高些的高效率和更为较低的耗能。

TPU的內部构架该图说明了TPU上的内部构造,除开外挂软件的DDR3运行内存,左边是服务器页面。命令从服务器发送至序列中(没循环系统)。

这种基因表达操控逻辑性能够依据命令数次经营完全一致的命令。TPU并不是一款简易的硬件配置,它看起来看上去雷达探测运用于的信号分析模块,而不是规范的X86继承构架。Jouppi讲到,虽然它有诸多的矩阵乘法模块,可是它GPU更为擅于浮点模块的协应急处置。此外,务必注意的是,TPU没一切储存的程序流程,它能够必需从服务器发送至命令。

TPU上的DRAM做为一个模块按段经营,由于务必出示更强的权重值以馈送到矩阵乘法模块(计算下来,货运量超出了64,000)。Jouppi并没谈及是她们是怎样图型(systolic)数据流分析的,但他答复,用以服务器软件加速器都将沦落短板。

256×256列阵图型数据流分析模块,历经矩阵乘法积累后搭建离散系统键入从第二张照片能够显出,TPU有两个运行内存模块,及其一个作为实体模型中主要参数的外界DDR3DRAM。主要参数进来后,可从顶端载入到矩阵乘法模块中。另外,能够从左侧载入基因表达(或从“神经细胞”键入)。

亚博足球比分官方网站

这些以澎涨的方法转到引流矩阵模块以造成矩阵乘法,它能够在每一个周期时间中进行64,000次求和。不容置疑,谷歌有可能用以了一些新的方法和技术性来缓解TPU的性能和高效率。

比如,用以带宽测试运行内存或混和三维运行内存。殊不知,谷歌的难题取决于保持分布式系统硬件配置的一致性。


本文关键词:比,CPU,、,GPU,快,30倍,亚博足球比分,谷歌,TPU,内部,架构,藏有

本文来源:亚博足球比分-www.671136po.com