2019年2月,两位图灵奖得主 John L. Hennessy 和 David A. Patterson发表长篇报告,展望未来十年将是计算机体系架构领域的“新的黄金十年”。这一年,架构创新、小芯片获得了更多的关注,从初创公司到巨头公司,从终端到云端,都有AI芯片相继推出。
AI芯片市场的竞争变得更加激烈,但大都面临落地难题。
回顾2019年的AI芯片发展,6个关键词贯穿其中。
展望2020年的AI芯片市场,4大趋势不容忽视。
六大关键词
关键词一:架构创新
两位图灵奖得主 John L. Hennessy 和 David A. Patterson在报告中说,“计算机体系结构领域将迎来又一个黄金十年,就像20世纪80年代我们做研究那时一样,新的架构设计将会带来更低的成本,更优的能耗、安全和性能。”
雷锋网2019年采访英特尔任高级副总裁、首席架构师,兼架构、图形与软件部门总经理Raja M. Koduri时询问他是否同意两位图灵奖得主的观点时。他表示:“我百分之百认同未来十年是计算架构的新黄金十年的观点。在未来10年,我们将看到比过去50年多得多的架构优化和提升。”他还表示:“通过软件和硬件的结合,我们可以让摩尔定律的提升变成十倍。”
对于AI芯片而言,架构创新的重要价值之一在于解决内存墙挑战。AI芯片公司没让我们等太久,2019年5月,耐能发布了架构具有创新性的物联网专用AI SoC,耐能称为可重组的架构能够让芯片像积木一样组合,既能满足语音,也能满足视觉的需求。
一个月之后,又有两款架构创新的AI语音芯片推出。一款来自探境科技,CEO鲁勇说其创新的SFA是以存储调度为核心的计算架构,数据在存储之间的搬移过程之中就完成了计算,计算对于数据来说只是一种演变。这个架构不仅可以实现更高能效比,还可以支持任意神经网络,也能适用于云端和终端芯片。
另一款来自清微智能,采用了具有软件硬件都可以编程、混合粒度、芯片的硬件功能随软件的变化而变化,应用改变软件、软件再改变硬件特性的可重构架构(CGRA)。清微智能创始人兼CEO王博表示,CGRA最大的优势体现在两方面,一是没有传统指令驱动的计算架构取指和译码操作的延时和能耗开销,二是在计算过程中以接近“专用电路”的方式执行。对比CPU和GPU有十倍到千倍不等的性能提升。
11月,英国AI芯片独角兽Graphcore联合创始人兼CEO Nigel Toon接受雷锋网采访时表示,Graphcore开创了全新的处理器类型IPU,IPU是专为机器智能设计的处理器,能够满足人们对高效易于使用的处理器的需求。IPU面有1216个核,我们称之为Tile,每个Tile里都有计算单元和内存。上千个处理器工作,单个IPU的存储带宽能达到45TB,比性能最快的HBM提升了50倍以上,在相同算力下,功耗降低一半。
同月,知存科技发布存内计算芯片,他们的芯片利用FLASH既可以存储又可以计算的特性,通过对存储阵列改造以及重新设计外围电路使电路能够容纳更多数据,满足AI算法的需求。同时,利用NOR-FLASH更加成熟和易于商用的特点,推出存算一体的AI语音芯片。
在AI芯片的架构创新中,可重构架构以及存算一体目前有更多的关注度。
关键词二:专用芯片
AI芯片架构创新目标在于保持芯片高能效比的同时还能适应AI算法的不断演进,但2019年新推出的AI芯片大部分还是专用加速器。Arm ML事业群商业与营销副总裁Dennis Laudick 2018年接受采访时认为,最终GPU和FPGA将会消失,留下最通用的CPU和最专用的NPU。2019年他坚持这一观点,认为未来市场需要的是通用加专用芯片,并且适用范围更广。
对于这个问题,雷锋网向不同的受访人寻求答案,站在各自的立场,他们看法有所差别,但大部分都认为随着AI的成熟,AI芯片会走向通用。
这样的判断也易于理解,对于工业界而言,推出一款芯片最重要的价值在于获取商业价值,在AI算法快速迭代的时候,只具备一定编程能力,只针对部分算法,与现有解决方案相比有十倍甚至更多提升的AI芯片,才更容易获得用户的采用。
这一逻辑用手机的NPU也能很好地解释,最先在手机SoC中加入NPU的公司是华为和苹果,这两家公司的手机使用自研SoC,率先加入NPU能够展现出其手机领先于其它手机的AI特性,并以此作为卖点。
于此不同,高通和MediaTek作为两大手机SoC提供商,在AI算法还不成熟、面向众多客户的时候,他们倾向于用一个更加通用的处理器,等到算法和应用相对明确的时候再集成NPU,但依旧需要保持AI性能更高,灵活性更好。
关键词三:Chiplet
Chiple可以翻译为小芯片,也可以翻译为芯粒,2019年Chiplet概念火热的推动力包括,DARPA的CHIPS项目、Intel的Foveros、AMD的全新一代霄龙(EPYC)处理器。简单来说,Chiplet技术就是像搭积木,把一些预先生产好的特定功能芯片裸片(Die)通过先进的集成技术(比如3D integration)封装在一起,形成一个系统芯片,基本的裸片就是Chiplet。
这意味着,Chiplet是一个新的IP重用模式。以前,芯片设计公司从IP供应商购买一些IP(软核(代码)或硬核(版图)),结合自研的模块集成一个SoC,然后使用某一个半导体制程完成芯片设计和生产的完整流程。
未来,以Chiplet模式,只需要购买别人设计好的硅片,通过先进的封装技术就可以集成的芯片会是一个“超级”异构系统,可以为AI计算带来更多的灵活性和新的机会。
从某种程度上来说,Chiplet是2018年讨论很多地异构计算的更进一步。SoC就是一个异构的系统,广泛讨论异构也是因为AI对芯片提出了更高地要求,通过通用加专用的异构系统能够更好地满足AI的需求。
Chiplet的提出,带来了工艺选择、架构设计和商业模式的灵活性,让AI芯片能够更容易地实现异构。挑战也显而易见,除了先进的封装技术,标准、质量都还不明确,编程的复杂性也大大增加。
关键词四:软硬融合
要降低异构系统的编程复杂性,软件平台的重要性就更加突显。这时候,可能就需要一个全新的软件平台甚至全新的编程语言,英特尔要用oneAPI解决编程复杂性的挑战,还采用了一种基于标准的跨架构语言Data Parallel C++++ (DPC++)。
oneAPI的意义在于提供统一的编程模型,简化跨不同计算架构的应用开发工作,这些计算架构经常被缩写为 SVMS,包括标量处理器(CPU),矢量处理器(GPU),矩阵处理器(AI加速器)和空间处理器(FPGA)。
DPC++则是以C++为基础,融合了Kronos Group的SYCL编程语言,支持数据并行性和异构编程,并包含在一个开放社区流程中开发的语言扩展。面向特定加速器的自定义调试的跨行业开放式解决方案,也是代替单一架构的专用语言。
英特尔的方案是一种更加上层的方式。Arm以及许多IP提供商是采用更加底层的方式,不需要全新的编程语言,通过其软件平台直接与CPU、GPU或NPU沟通,根据任务做最佳地匹配,解决异构带来的编程挑战。
但无论哪种方式,要做到最佳地匹配都面临非常大的挑战。
这在异构更加重要的AI时代,软硬更好融合无法避免,业界也更多地意识到软硬一体化对于AI的价值。在中国计算机学会(CCF)主办,雷锋网、香港中文大学(深圳)承办,深圳市人工智能与机器人研究院协办的2019第四届全球人工智能与机器人峰会(CCF-GAIR 2019)上,AI芯片专场的大咖们纷纷提到软硬融合。
英特尔首席工程师数据中心技术销售部人工智能首席技术架构师夏磊提出AI计算一定需要硬件+软件的结合。深聪智能 CTO 朱澄宇说软硬融合使边缘计算成为可能。触景无限科技联合创始人兼CEO肖洪波表示解决智慧城市的挑战需要易于使用、软硬融合的感知芯片。天数智芯创始人、董事长、CEO 李云鹏认为海量数据时代软硬件充分结合尤为重要。
中科院计算所研究员、先进计算机系统研究中心主任,中国开放指令生态联盟秘书长包云岗称软件、硬件之间有巨大的性能差异,同样一个算法或者一个程序,一个普通的程序员来写和一个懂体系架构的人来写,性能可以差63000倍。如果按照摩尔定律折算,相当于可以把摩尔定律再延长二十多年,实际上就是摩尔定律赋予了很大的能力,但是并没有挖掘出来。
关键词五:有效算力
软硬一体化也意味着AI芯片更高的有效算力。之所以有效算力开始成为关注的焦点,很重要的原因是随着AI芯片的落地,用户发现AI芯片即便有非常高的峰值速率,有效算力也可能非常低,这就不能带来预期的性能提升。
天数智芯CEO李云鹏很早就意识到这一点,所以他们的做法是通过软件加硬件的方式不仅提升算力的均值,同时也提升算力的峰值。云天励飞CEO陈宁在去年11月上的发布会上也强调,我们更加关注的是面向场景的有效算力,因为人工智能今天还处于非常早期的阶段,还没有进入通用人工智能时代,更不存在通用的AI芯片。有效算力=算力 X 效率 X AI性能,对应的就是芯片、工具链以及算法应用。
地平线同样提出:单位成本下的峰值算力 X 编译器、架构和Runtime的优化 X 适应场景的算法优化和演进=AI芯片真实性能的全面优化。地平线副总裁兼智能物联网芯片方案产品线总经理张永谦在雷锋网主办的全球 AIoT产业 智能制造峰会的演讲中表示, 传统的芯片基本都讲PPA(Power功耗,Performance性能,Area芯片面积(成本)),到了AI边缘侧计算的时候,这个评估变得很复杂,光有算力不够,还要看算力的有效利用率。针对场景处理输出结果的有效性指标,是衡量整个AI芯片(包括算法)的一个最重要指标。
除了终端,专注云端AI芯片初创公司燧原科技也强调有效算力,燧原科技CEO赵立东表示:“在垄断市场,所有客户都希望有新的选择,这样他们才能稍有议价能力,因此市场有这样的痛点。除此之外,他们还希望有更高的性价比和能效比,特别是在落地的场景可以实现的有效性能。”
关键词六:开源
2019年还有一个关键词就是开源,这背后最大的推动力就是RISC-V。RISC-V只是一个开源指令集,基于这个指令集的IP、芯片以及产品在2020年会陆续推向市场。当然,RISC-V AI芯也不少,这不仅为AI芯片市场带来了新的竞争力量,更可能打破现有x86、Arm统治芯片市场的格局。
OURS、GreenWaves都已经推出了基于RISC-V的边缘端AI芯片,华米的首款自研AI芯片黄山1号也基于RSCI-V指令集,已经应用在其智能手表中。
在RISC-V迅猛发展的2019年,Arm布推出一项全新的功能 Arm Custom instructions,允许客户在特定的 CPU 内核中加入自定义指令功能,从而来加速特定的用例、嵌入式和物联网应用程序。
开源以及AI也让与Arm相隔几年诞生的MIPS也宣布开源,Wave Computing首席执行官Art Swift认为,在新的AI以及IoT的时代,MIPS迎来了一个新的机会,在这个新的机会面前,大家起跑线都一样。并且,MIPS的技术优势非常适合于AI结合。
可惜的是,2019年11月拥有MIPS的Wave Computing表示,自2019年11月14号起,Wave 将不再提供包括MIPS开房组件的免费下载,包括架构、核心、工具、IDE、模拟器和FPGA包/或任何与之相关的软件代码或计算机硬件。
开源领域还有一个新势力,平头哥宣布开源MCU芯片设计平台,目标群体包括芯片开发者、IP供应商、高校及科研院所等,开发者可以基于该平台设计面向细分领域的定制化芯片,IP供应商能够研发原生于该平台的核心IP,高校和科研院所则可开展芯片相关的教学及科研活动。
四大趋势
趋势一:AI语音芯片的竞争加剧
AI应用的两大方向是视觉和语音,相比视觉,语音不仅技术挑战更小,而且已经有出货量非常大的智能音箱产品。在更加激烈的AI竞争中,为了延续优势,强于算法的公司纷纷推出自研AI芯片,比如思必驰。
除了算法公司,拥有创新架构AI芯片的探境科技、知存科技、清微智能都在2019年发布了语音芯片,其中探境科技已经拥有了30个合作伙伴,AI语音方案出货达到了百万级,清微智能的AI语音芯片也已经量产,并且产生了营收,知存科技也有多位意向客户。
再加上为AI智能音箱提供芯片的传统芯片公司,AI语音芯片的竞争将变得更加激烈。当然,这种竞争伴随的是市场需求的增加,未来几年,智能家居市场对于AI语音芯片的需求也有望快速增加。
趋势二:云端芯片市场迎来竞争
英伟达和英特尔最先享受到了AI云端芯片市场的红利,其中英伟达在云端AI训练市场的地位更是无人能敌。不过,随着英特尔推出Nervana NNP-T 和 Nervana NNP-I 以及20亿美元收购Habana Labs,还有即将在今年年中推出的独立GPU Xe,英伟达和英特尔在云端AI芯片市场的竞争会更加激烈。
同时,国内的寒武纪、比特大陆、燧原科技等在2019年都推出了云端AI芯片,从细分市场进入云端AI芯片市场,目标是获得一定的市场份额。
2020年,巨头和初创公司产品的落地,将让云端AI芯片市场的竞争逐步激烈,并可能在一定程度上削弱英伟达的话语权。
趋势三:端云一体的生态战正式开启
无论是传统芯片还是AI芯片,芯片成功的本质都是生态的成功。因此,无论是巨头芯片公司还是初创公司,都有端云一体的战略,他们希望通过端云一体的战略构建强大的生态,产生很宽的护城河同时保持公司业绩的持续增长,差别在于实现的难度不同。
2019年,在云端AI芯片市场非常成功的英伟达和谷歌都相继推出了面向边缘端的AI芯片,或增强边缘端AI芯片的实力。英特尔更是构建了全面的AI芯片类型,迎战AI。
由此看来,随着有实力的公司们端云一体AI芯片战略的开启和落地,2020年的边缘AI芯片初创公司们,将面临更大的生存压力。
趋势四:易用性更为重要
从语音到图像,从边缘到云端,要在越来越激烈的竞争中占有一席之地,落地的速度成为关键。实际上,2019年已经有不少商用的AI芯片,但无论是大公司还是初创公司,不少都面临芯片却难以落地的难题,原因多种多样,比如芯片本身带来的性能提升不够有吸引力,芯片不适配应用的需求,易用性不高,选择的行业难以突破等等。
因此,芯片的易用性在2020年将变得更加重要,这将从技术上降低客户尝试的成本,加快产品推向市场的时间,也能够弥补硬件迭代速度慢不能很好满足应用需求的痛点。