本篇文章3432字,读完约9分钟
6月23日,人工智能应该需要一个专用芯片,而不是旧的中央处理器和图形处理器。这个想法让更多的全球企业家看到挑战巨头的机会。
今年2月,ee times选出了十大人工智能芯片企业家,其中来自英国的graphcore凭借其为人工智能计算开发的ipu而入选。
英国半导体之父、arm联合创始人赫尔曼对graphcore评价很高。他曾经说过,计算机历史上只有三次革命,一次是20世纪70年代的cpu革命,第二次是90年代的gpu革命,而graphcore是第三次革命。
数据显示,graphcore是一家英国ai芯片硬件设计初创公司,成立于2016年,总部位于英国布里斯托尔。graphcore的主要业务是为人工智能应用设计处理器,并为云服务等应用提供产品支持。
Graphcore的核心技术和产品是智能处理器(ipu)硬件和相应的白杨软件,专门为人工智能应用和ipu系统解决方案所需的密集型计算而设计。目前,其ipu gc2处理器已经批量生产。
到目前为止,graphcore已获得超过4.5亿美元的融资,并且有许多战略投资者,如宝马、博世、戴尔、微软和三星。Graphcore的最新一轮融资已于今年2月完成,公司估值已达到19.5亿美元。
去年,人工智能芯片初创公司graphcore将其业务扩展到中国,我们得以近距离观察其产品和中国市场前景。
Ipu是为人工智能而生的。16纳米gc2处理器已经量产
今年5月27日,在英国举行的智能健康峰会上,微软机器学习科学家与ipu分享了培训cxr模型的优异表现:ipu在运行微软covid-19图像分析算法模型时可以在30分钟内完成培训,而在nvidia gpu上则需要5个小时。
graphcore高级副总裁兼中国区总经理陆涛
笔芯议会联盟在第一次世界大战中出名..
graphcore中国区高级副总裁兼总经理陆涛表示,ipu之所以能表现如此出色,是因为graphcore的ipu是专为机器智能而设计的,具有完全不同的处理器架构,与cpu、gpu等处理器架构有很大不同。
陆涛说,cpu是为应用程序和网络设计的标量处理器。Gpu是一款以矢量处理为核心的处理器,用于图形和高性能计算,而graphcore ipu是一款专为计算图形而设计的处理器。
具体来说,ipu应用了大规模并行mimd的处理器内核。此外,还实现了一个非常大的分布式片上sram,片上ipu可以实现300 mb的sram。与cpu的ddr2子系统或gpu的gddr和hbm相比,ipu可以将性能提高10到320倍。从时间延迟的角度来看,与访问外部存储器相比,ipu的时间延迟基本上是1%,可以忽略不计。陆涛透露。

以graphcore大规模生产的ipu gc2处理器为例,陆涛介绍:该产品采用台积电16纳米工艺,是一款236亿晶体管的芯片处理器。功耗为120瓦,可实现125个触发器的混合精度,内存带宽为45tb/s,片内切换为45tb/s,片间链接为2.5 TB/s。gc2上有1216个独立处理器内核(tile),其300msram可将完整型号放在芯片上。

据报道,graphcore采用bsp(批量同步并行)技术构建大规模数据中心集群,并已在谷歌、facebook和百度等大规模数据中心得到应用。
陆涛强调,ipu是世界上第一个bsp处理器,能够通过硬件支持bsp协议,并通过bsp协议将整个计算逻辑分为计算、同步和交换。这对于软件工程师或开发人员来说非常容易编程;用户不必担心是否有1216个或超过7000个线程,以及在哪个核心任务上执行,所以这是一个非常用户友好的创新。

Ipu由白杨软件补充,这是专门为人工智能应用程序所需的密集计算而设计的。陆涛透露,白杨已经提供了750个高性能计算元素的50多个优化功能,并支持标准的机器学习框架,如tensorflow、onnx和pytorch,并将很快支持百度飞板。在部署方面,白杨目前可以支持集装箱化部署,并且可以快速启动运行。就标准生态而言,白杨可以支持虚拟化技术和安全技术,如docker、kubernetes和Hyper-V。就操作系统而言,白杨sdk目前支持三种主要的linux发行版:ubuntu、redhat enterprise linux和centos。

Ipu服务ai优势凸显gpu效率大幅提升
目前,基于ipu的应用已经涵盖了许多机器学习应用,包括自然语言处理、图像/视频处理、时间序列分析、推荐/排名和概率模型。
笔芯中国销售总监朱江
在自然语言处理、计算机视觉应用和概率算法方面,ipu在现有和下一代模型上的性能优于gpu。graphcore中国区销售总监朱江表示,在自然语言处理方面,ipu的速度可以提高20%到50%;在图像分类中,ipu可以实现6倍的吞吐量和更低的延迟;就mcmc算法而言,ipu的性能提高了26倍;在相对较新的计算机视觉应用中,如resnext,Ipu可以实现6倍的吞吐量和1/22的时间延迟。

朱江以伯特模型为例进行了比较。在支持nvlink的平台上进行Bert培训大约需要50小时才能达到一定的准确性,而在基于ipu的戴尔dss-8440服务器上,只需36.3小时,相当于培训时间减少了25%。
如果你做一个包卷积核的微基准,将组的维数从1除以512进行比较。这里,群维数512是广泛使用的密集卷积网络,例如resnet。此时,ipu gc2的性能几乎是v100的两倍。
随着密度的降低和稀疏度的增加,当组维数为1或32时,ipu在效率网络和移动网络方面显示出优于gpu的优势,可以实现双倍的性能提升,大大减少时延。
据朱江介绍,graphcore ipu已经广泛应用于金融、医疗、电信、搜索引擎等多个垂直领域。并在这些领域显示出显著的优势。
除了上述ipu在运行微软covid-19图像分析算法模型方面的出色表现外,在金融领域,包括算法交易、投资管理、风险管理和欺诈识别,ipu可以将mcmc的采样速度提高26倍,将强化学习的训练时间缩短到1/13。
在电信领域,lstm模型的预测性能促进了网络规划。根据时间序列分析,ipu比gpu高260多倍。
朱江总结道:ipu是一种全新的架构设计和图形处理器,具有多指令、多数据的特点。除了密集数据之外,大规模稀疏数据代表了整个人工智能的发展方向,在ipu上的处理将具有明显的优势。
进入中国后,我们今年与百度阿里合作发布了新的7纳米ipu产品
现在,graphcore已携其ipu登陆中国,以期在中国市场取得巨大成就。
目前,如果用户想要访问ipu系统,他们可以通过购买戴尔服务器或微软云来访问ipu资源。在中国,graphcore和金山云正在合作为中国开发者和创新者推出云业务。
陆涛透露,今年5月12日,在ocp全球峰会上,阿里巴巴宣布graphcore支持odla接口标准。然后在5月20日,在2020年百度浪潮峰会上,百度宣布graphcore已经成为螺旋桨硬件生态系统的创始成员之一。Graphcore希望以这种方式积极融入中国的人工智能生态系统。

在谈到中美人工智能市场的差异时,陆涛告诉techweb:目前,美国在登陆和推进ipu方面比中国快,但现在中国进步更快。这是因为美国用户来自更活跃的研究群体,而中国用户非常关注产品登陆。国外人工智能应用更注重研究,而中国更注重产品化的训练和推理,以及人工智能如何解决应用问题。

为了适应这种市场差异,陆涛介绍说:从长远来看,graphcore将根据中国市场的需求定制产品。从服务角度来看,graphcore中国目前有两个技术团队,一个是以定制开发为主要任务的工程技术团队,另一个是以为用户提供技术服务为主要任务的现场应用团队。工程和技术团队承担两项任务。首先,根据中国本地人工智能应用的特点和需求,在ipu上实现了人工智能算法模型;第二,根据本地中国用户对ai稳定性学习框架平台软件的需求,我们将开发和加强其功能。现场应用团队帮助客户完成现场技术支持。

陆涛表示:我们对中国市场有很高的期望,预计中国市场将占graphcore全球市场的40%甚至50%。尽管graphcore在中国的全面推出比在北美晚了一年,但我们从目前的进展中发展得非常好。
据陆涛称,graphcore的下一代7纳米处理器将于今年下半年正式发布,相信新产品将有出色的性能。
来源:零点娱乐时刊
标题:Graphcore IPU进入中国 能否搅动AI芯片市场?
地址:http://www.02b8.com/yjdyw/5624.html







