期刊VIP學(xué)術(shù)指導(dǎo) 符合學(xué)術(shù)規(guī)范和道德
保障品質(zhì) 保證專業(yè),沒(méi)有后顧之憂
來(lái)源:期刊VIP網(wǎng)所屬分類:計(jì)算機(jī)信息管理時(shí)間:瀏覽:次
【摘 要】人工智能技術(shù)已經(jīng)成為國(guó)家發(fā)展倡議。目前人工智能技術(shù)對(duì)算力需求與集成電路所能提供支持的差距日益加大,人工智能信息處理平臺(tái)需要在處理速度、復(fù)雜度和功耗等方面有數(shù)量級(jí)的改善,才能滿足人工智能技術(shù)在軍民領(lǐng)域的應(yīng)用,因而需要尋求新穎的技術(shù)路線解決人工智能的算力問(wèn)題。介紹了一種顛覆性的技術(shù)——概率計(jì)算方法,該技術(shù)采用了一種類腦的非精確的模糊計(jì)算模式。相關(guān)研究工作表明,在現(xiàn)有工藝條件下該技術(shù)能夠滿足人工智能系統(tǒng)對(duì)處理速度、復(fù)雜度和功耗的要求,可以支持未來(lái)人工智能系統(tǒng)應(yīng)用的要求。
【關(guān)鍵詞】人工智能;計(jì)算能力;概率計(jì)算

《智能制造》面向國(guó)內(nèi)外公開發(fā)行.雜志以提高企業(yè)應(yīng)用水平,追蹤技術(shù)研發(fā)熱點(diǎn)。
1 引言
人類世界的信息業(yè)務(wù)量正在呈爆發(fā)式的增長(zhǎng),傳統(tǒng)的數(shù)字信號(hào)處理和統(tǒng)計(jì)方式已經(jīng)難以滿足未來(lái)的數(shù)據(jù)和信息處理的需求[1]。在此背景下,出現(xiàn)了一批以機(jī)器學(xué)習(xí)算法為代表的處理算法和系統(tǒng),來(lái)協(xié)助人類處理“大數(shù)據(jù)”時(shí)代下的海量信息與數(shù)據(jù)[2]。同時(shí),隨著機(jī)器算法的不斷發(fā)展優(yōu)化,計(jì)算機(jī)處理能力的突飛猛進(jìn),機(jī)器學(xué)習(xí)算法的能力越來(lái)越強(qiáng),完成的功能越來(lái)越強(qiáng)大。
最近有關(guān)機(jī)器學(xué)習(xí)最出名的案例就是Google的AlphaGo與人類進(jìn)行的圍棋人機(jī)大戰(zhàn),AlphaGo完勝了人類頂尖棋手,展現(xiàn)出了機(jī)器學(xué)習(xí)算法和系統(tǒng)的強(qiáng)大分析和處理能力[3-4]。因此,將機(jī)器學(xué)習(xí)算法應(yīng)用到目前的數(shù)字信號(hào)處理系統(tǒng)中,這將是未來(lái)重要的一個(gè)發(fā)展和研究方向[5-6],有很高的實(shí)用價(jià)值和倡議價(jià)值。
而基于機(jī)器學(xué)習(xí)的大數(shù)據(jù)處理算法和系統(tǒng)需要極高的計(jì)算復(fù)雜度,因此對(duì)后摩爾時(shí)代的計(jì)算處理器和芯片提出了巨大的挑戰(zhàn)。當(dāng)前,隨著集成電路工藝的發(fā)展,芯片的特征尺寸已經(jīng)接近1 nm的界限[7]。這個(gè)界限在工業(yè)界看來(lái)是基于硅工藝的芯片發(fā)展的極限,如若不能突破這個(gè)極限,未來(lái)的芯片生產(chǎn)和制造將舉步維艱。同時(shí)一些新興的技術(shù),如量子計(jì)算、碳納米管等,真正進(jìn)入實(shí)用還有很長(zhǎng)的路需要探索[8]。
推動(dòng)AI技術(shù)發(fā)展和應(yīng)用的三大助力是:大數(shù)據(jù)、算法和算力。很多企業(yè)和高校的研究重點(diǎn)都集中在大數(shù)據(jù)和算法上面,只有Intel、Nvidia等芯片供應(yīng)商和HP、浪潮等服務(wù)器供應(yīng)商在對(duì)算力問(wèn)題進(jìn)行研究。本文將簡(jiǎn)單分析一下對(duì)AI算力研究的思考。
2 算力問(wèn)題目前的技術(shù)路線
近年來(lái)深度學(xué)習(xí)的處理芯片蓬勃發(fā)展。大致來(lái)看可以分為以下幾種:
(1)GPU:英偉達(dá)以其大規(guī)模的[23]并行GPU和專用GPU編程框架CUDA主導(dǎo)著當(dāng)前的深度學(xué)習(xí)市場(chǎng)[24]。GPU在處理圖形的時(shí)候,從最初的設(shè)計(jì)就能夠執(zhí)行并行指令,從一個(gè)GPU核心收到一組多邊形數(shù)據(jù),到完成所有處理并輸出圖像可以做到完全獨(dú)立[25]。由于最初GPU就采用了大量的執(zhí)行單元,這些執(zhí)行單元可以輕松地加載并行處理,而不像CPU那樣的單線程處理。另外,現(xiàn)代的GPU也可以在每個(gè)指令周期執(zhí)行更多的單一指令。所以GPU比CPU更適合深度學(xué)習(xí)的大量矩陣、卷積運(yùn)算的需求[26]。
(2)NPU:中科院研制的人工智能芯片——寒武紀(jì)1號(hào)(DianNao,面向神經(jīng)網(wǎng)絡(luò)的原型處理器結(jié)構(gòu))、寒武紀(jì)2號(hào)(DaDianNao,面向大規(guī)模神經(jīng)網(wǎng)絡(luò))、寒武紀(jì)3號(hào)(PuDianNao,面向多種機(jī)器學(xué)習(xí)算法)[27]。CPU、GPU與NPU相比,會(huì)有百倍以上的性能或能耗比差距,以寒武紀(jì)團(tuán)隊(duì)和Inria聯(lián)合發(fā)表的DianNao論文為例,DianNao為單核處理器,主頻為0.98 GHz,峰值性能達(dá)每秒4 520億次神經(jīng)網(wǎng)絡(luò)基本運(yùn)算,65 nm工藝下功耗為0.485 W,面積3.02 mm2。
在若干代表性神經(jīng)網(wǎng)絡(luò)上的實(shí)驗(yàn)結(jié)果表明[28]:DianNao的平均性能超過(guò)主流CPU核的100倍,但是面積和功耗僅為1/10,效能提升可達(dá)三個(gè)數(shù)量級(jí);DianNao的平均性能與主流GPU相當(dāng),但面積和功耗僅為主流GPU百分之一量級(jí)。另有IBM主導(dǎo)的SyNAPSE巨型神經(jīng)網(wǎng)絡(luò)芯片(類人腦芯片)TrueNorth,在70 mW的功率上提供100萬(wàn)個(gè)神經(jīng)元內(nèi)核、2.56億個(gè)突觸內(nèi)核以及4 096個(gè)神經(jīng)突觸內(nèi)核,神經(jīng)網(wǎng)絡(luò)和機(jī)器學(xué)習(xí)負(fù)載超越了馮·諾依曼架構(gòu)[29]。
(3)TPU:張量處理單元(Tensor Processing Unit, TPU)。這是一款由Google開發(fā)的,為了機(jī)器學(xué)習(xí)而定制的ASIC,并且經(jīng)過(guò)了TensorFlow的調(diào)教。TPU已經(jīng)在Google數(shù)據(jù)中心運(yùn)行了一年多,實(shí)踐表明它可以為機(jī)器學(xué)習(xí)帶來(lái)相當(dāng)出色的每瓦特性能表現(xiàn)。TPU是專為機(jī)器學(xué)習(xí)應(yīng)用而定制的,它的寬容度更高,可以降低計(jì)算的精度(所需的晶體管操作也更少)[30]。
(4)FPGA:在2017現(xiàn)場(chǎng)可編程門陣列國(guó)際大會(huì)(ISFPGA)上,來(lái)自英特爾加速器架構(gòu)實(shí)驗(yàn)室(AAL)的Eriko Nurvitadhi博士展示了有關(guān)“在加速新一代深度神經(jīng)網(wǎng)絡(luò)方面,F(xiàn)PGA可否擊敗GPU”的研究。該項(xiàng)研究使用最新的DNN算法在兩代英特爾FPGA(Arria 10與Stratix 10)與目前最高性能的英偉達(dá)Titan X Pascal GPU之間做了對(duì)比評(píng)估。和高端GPU相比,F(xiàn)PGA的能量效率(性能/功率)會(huì)更好,而且它們還可以提供頂級(jí)的浮點(diǎn)運(yùn)算性能(Floating-Point Performance)。FPGA技術(shù)正在快速發(fā)展。即將上市的Intel Stratix 10 FPGA能提供超過(guò)5 000個(gè)硬浮點(diǎn)單元(DSP),超過(guò)28 MB的片上內(nèi)存(M20K),同時(shí)整合了高帶寬內(nèi)存(最高可達(dá)4×2
50 GB/s/stack或1 TB/s),以及由新的HyperFlex技術(shù)改善了的頻率。英特爾FPGA能提供全面的軟件生態(tài)系統(tǒng)——從低級(jí)硬件描述語(yǔ)言到OpenCL、C和C++的高級(jí)軟件開發(fā)環(huán)境。使用MKL-DNN庫(kù),英特爾將進(jìn)一步將FPGA與英特爾機(jī)器學(xué)習(xí)生態(tài)系統(tǒng)和諸如Caffe這樣的傳統(tǒng)架構(gòu)結(jié)合起來(lái)。Intel Stratix 10基于英特爾的14 nm技術(shù)開發(fā),擁有FP32吞吐量上9.2 TFLOP/s的峰值速度。相比之下,最新的Titan X Pascal GPU提供FP32吞吐量11 TLOP/s的速度[31]。
綜上所述,目前工業(yè)界解決AI算力有三個(gè)方法,通用平臺(tái)、半定制平臺(tái)和定制平臺(tái)。這三種平臺(tái)的特性對(duì)比如表1所示。
從表1可以看出,通用平臺(tái)在開發(fā)軟件環(huán)境支撐和大規(guī)模部署方面有得天獨(dú)厚的優(yōu)勢(shì),成為AI應(yīng)用落地和云端部署的主力。因此,當(dāng)今絕大多數(shù)的AI示范工程和云端部署都采用GPU和CPU服務(wù)器或服務(wù)器陣列完成。然而通用平臺(tái)在計(jì)算效率和功率效率與半定制平臺(tái)、定制平臺(tái)有數(shù)量級(jí)的差距。面向嵌入式應(yīng)用、移動(dòng)設(shè)備應(yīng)用,通用平臺(tái)則難以支撐。對(duì)于云端應(yīng)用,當(dāng)越來(lái)越多的AI應(yīng)用被部署到云端,功率保障可能會(huì)成為其瓶頸。如正在研發(fā)的“天河3”超算平臺(tái)(該平臺(tái)依然采用CPU+GPU架構(gòu)),其功率可能達(dá)到百萬(wàn)千瓦量級(jí)。CMOS工藝已經(jīng)接近理論極限,而以量子計(jì)算為代表的新型計(jì)算平臺(tái)距實(shí)際應(yīng)用還有很長(zhǎng)的道路。因此,通過(guò)工藝和計(jì)算介質(zhì)進(jìn)步解決目前通用平臺(tái)功率效率問(wèn)題不是十分現(xiàn)實(shí),未來(lái)可能會(huì)出現(xiàn)發(fā)電量不足以支持全社會(huì)大規(guī)模AI應(yīng)用的困境。
半定制和定制平臺(tái)對(duì)于嵌入式應(yīng)用和移動(dòng)設(shè)備應(yīng)用非常友好,可以成為未來(lái)在嵌入式或移動(dòng)設(shè)備實(shí)現(xiàn)本地AI應(yīng)用的主力。由于這些平臺(tái)在功率效率和計(jì)算效率方面的優(yōu)勢(shì),在大規(guī)模云端部署也有一定的空間。如阿里云和亞馬遜都采用了以FPGA陣列為核心的計(jì)算平臺(tái)。面向半定制和定制平臺(tái)的大規(guī)模部署需要解決軟件開發(fā)環(huán)境支持的問(wèn)題?,F(xiàn)在的AI應(yīng)用開發(fā)已經(jīng)形成以開源的開發(fā)環(huán)境為主流的情況,而且這些開發(fā)環(huán)境支持GPU、CPU平臺(tái)以及陣列平臺(tái)。因此,需要解決通用開發(fā)環(huán)境面向FPGA陣列部署的軟件中間件問(wèn)題,即利用Python設(shè)計(jì)的AI應(yīng)用可以一鍵部署到FPGA陣列平臺(tái)上,而不需要AI設(shè)計(jì)者面對(duì)硬件描述語(yǔ)言的開發(fā)問(wèn)題。這樣才能夠很好地解決AI應(yīng)用在以FPGA陣列為代表的半定制平臺(tái)上大規(guī)模部署的問(wèn)題。
3 基于概率計(jì)算方法的解決方法
計(jì)算效率和功率效率是AI算力面臨的永恒的挑戰(zhàn),AI應(yīng)用對(duì)算力的需求每3.5個(gè)月增加一倍,而基礎(chǔ)電路工藝已經(jīng)進(jìn)入后摩爾時(shí)代,AI系統(tǒng)應(yīng)用在算力上的“鴻溝”將越來(lái)越大。隨著集成電路工藝的發(fā)展,芯片的特征尺寸已經(jīng)接近1 nm的界限,如若突破這個(gè)極限,未來(lái)的芯片生產(chǎn)和制造將舉步維艱。同時(shí)一些新興的技術(shù),如量子計(jì)算、碳納米管等,真正進(jìn)入實(shí)用還有很長(zhǎng)的路需要探索。因此,目前迫切需求一種新穎數(shù)值系統(tǒng),即數(shù)的表征和計(jì)算模式來(lái)打破傳統(tǒng)密集計(jì)算的不足,同時(shí)該方法可以在現(xiàn)有的集成電路工藝條件下實(shí)現(xiàn)且兼容未來(lái)的集成電路工藝。
在此背景下,基于概率計(jì)算的新型計(jì)算方式應(yīng)運(yùn)而生。2010年,當(dāng)基于概率計(jì)算的圖像處理芯片橫空出世后,概率計(jì)算的發(fā)展就開始突飛猛進(jìn)了,并且于當(dāng)年被《美國(guó)科技評(píng)述》評(píng)為未來(lái)十大最有前景的技術(shù)。
此后,MIT的研究團(tuán)隊(duì)更是提出了概率計(jì)算是繼云計(jì)算之后最有潛力的一項(xiàng)技術(shù)。概率計(jì)算中最基本的運(yùn)算單元采取一種非精確的近似計(jì)算的模式打破了傳統(tǒng)電路的實(shí)現(xiàn)方式,可以對(duì)傳統(tǒng)的算法進(jìn)行向概率域的重新映射,使其符合滿足概率計(jì)算的模式。概率計(jì)算再通過(guò)誤差分析和建模,設(shè)計(jì)各種系統(tǒng)參數(shù),使其滿足系統(tǒng)的需求,最后根據(jù)設(shè)計(jì)的算法映射到實(shí)際的電路架構(gòu)中,完成算法的最終實(shí)現(xiàn)。其基本的原理就是利用大量的非精確計(jì)算模擬出復(fù)雜的系統(tǒng)功能,這其實(shí)和人類強(qiáng)大的大腦工作原理不謀而合。人類大腦就是基于大量的直觀和非精確的計(jì)算方式來(lái)處理當(dāng)今信息社會(huì)的海量數(shù)據(jù)。而AI的算法也是模擬人類的大腦,在此環(huán)境下概率計(jì)算應(yīng)運(yùn)而生,因此概率計(jì)算能夠非常好地乘載復(fù)雜的AI算法。
據(jù)悉,Google AlphaGo所使用的處理器就是基于一種非精確的概率計(jì)算模式。相信基于概率計(jì)算和AI的結(jié)合能夠使得未來(lái)的數(shù)據(jù)處理和信息分析達(dá)到一個(gè)新的高度。如今人工智能的一個(gè)關(guān)鍵障礙是——給計(jì)算機(jī)提供的自然數(shù)據(jù)大多是非結(jié)構(gòu)化和“嘈雜”的數(shù)據(jù)。Intel公司認(rèn)為,概率計(jì)算可以使計(jì)算機(jī)在處理大規(guī)模的概率時(shí)更有效率,這是將當(dāng)前系統(tǒng)和應(yīng)用程序從先進(jìn)的計(jì)算輔助工具轉(zhuǎn)變?yōu)槔斫夂蜎Q策的智能合作伙伴的關(guān)鍵。