從云到端，谷歌的AI芯片2.0

發(fā)布時間：2020-08-09 08:59:28 來源：ITPUB博客閱讀：153 作者：naojiti 欄目：互聯(lián)網(wǎng)科技

得芯片者得天下。我們可以把這句話再延伸一下說，得AI芯片者得未來的天下。

對于智能終端廠商來說，能夠自研SoC芯片似乎才是頂級實力的象征。眾所周知，盤踞全球智能手機前三甲的三星、華為、蘋果，無一例外都擁有自研的SoC芯片。

從云到端，谷歌的AI芯片2.0

(2020智能手機芯片跑分數(shù)據(jù)TOP10)

現(xiàn)在，經(jīng)歷了多年的輔助AI芯片的經(jīng)驗積累之后，谷歌終于要入場智能終端的核心硬件——SoC處理器芯片了。

據(jù)外媒Axois報告，谷歌在自研處理器方面取得了顯著進步，最近其自主研發(fā)的 SoC 芯片已經(jīng)成功流片。

據(jù)悉，該芯片是谷歌與三星聯(lián)合開發(fā)，采用5nm工藝制造，“2+2+4”三架構設計的8核CPU集群，以及搭載全新ARM公版架構的GPU，同時在ISP和NPU上集成了谷歌Visual Core AI視覺處理器。這讓谷歌的終端芯片能夠更好地支持AI技術，比如大幅提升谷歌助手的交互體驗。

在上市計劃上，谷歌的這一SoC處理器芯片預計將于率先部署在下一代Pixel手機以及谷歌筆記本Chromebook中。

谷歌的這一舉動被視為對蘋果自研處理器模式的靠攏，從“原生系統(tǒng)+最主流旗艦芯片”變?yōu)椤霸到y(tǒng)+自研芯片”，谷歌的用意肯定不僅是想擺脫高通芯片的鉗制，更重要的是想通過自研芯片實現(xiàn)更好的軟硬件結合，使得安卓系統(tǒng)在自家硬件上發(fā)揮更大的性能優(yōu)勢。

我們其實知道，自研芯片并不能在硬件利潤上帶給谷歌更多的價值，其中最有價值的地方在于將谷歌AI上面的優(yōu)勢通過軟硬件的結合，在智能終端上得到更好的應用。

我們也都知道，谷歌在AI芯片上入局最早，實力強勁。然而AI芯片的技術有多強，AI技術和芯片研發(fā)有哪些相互促進的關系?相信很多人還是不明就里的，而這正是我們接下來要去深入探究的。

從云端到終邊端，谷歌AI芯片的進階之路

在谷歌的TPU(Tensor Processing Unit，張量處理單元)處理器推出之前，大部分的機器學習以及圖像處理算法一直都是跑在GPU與FPGA這兩種通用芯片上面的。而提出了深度學習開源框架TensorFlow的谷歌則專門做出這樣一款為TensorFlow算法設計的專用芯片。

TPU就這樣誕生了，然而讓TPU的聲名遠播卻是在AlphaGo大戰(zhàn)李世石的人機圍棋賽。據(jù)說，當時谷歌為TPU其實下了另一盤大棋的。因為在挑戰(zhàn)李世石之前，AlphaGo是跑在1202個CPU和176個GPU上面與棋手樊麾比賽的。這讓看過對弈過程的李世石很有信心。然而在比賽前幾個月，AlphaGo的硬件平臺換上了TPU，這讓AlphaGo的實力很快得到成長，后面的對戰(zhàn)局勢讓李世石就吃盡了苦頭。

從云到端，谷歌的AI芯片2.0

(谷歌TPU芯片)

TPU是一種專用集成電路(ASIC)，作為專門在谷歌云使用的AI芯片，其使命就在于加速谷歌人工智能落地的速度。在2017年谷歌公布的第二代TPU上，其浮點運算能力高達每秒180萬億次，既可以用于推理，也可以用做訓練。而到了2018年的TPU3.0版本，其計算性能相比TPU 2.0提升八倍，可達每秒 1000 萬億次浮點計算。

此后，谷歌的AI布局逐漸走向邊緣側。在2017年的谷歌云服務年會上，正式發(fā)布其邊緣技術，并推出了Google Edge TPU。

Edge TPU是谷歌專為在邊緣運行TensorFlow Lite ML模型而設計的ASIC芯片。Edge TPU 可用于越來越多的工業(yè)使用場景，如預測性維護、異常檢測、機器視覺、機器人學、語音識別，也可以應用于本地部署、醫(yī)療保健、零售、智能空間、交通運輸?shù)雀鱾€領域。

Edge TPU體型小、能耗低，因此只負責AI加速判別、加速推算，僅為加速器、輔助處理器的角色,可以在邊緣部署高精度AI，是對CPU、GPU、FPGA 以及其他在邊緣運行AI的ASIC解決方案的補充。

谷歌還在去年推出了基于Edge TPU芯片的等一系列開發(fā)硬件，以及本地化AI平臺Coral，為邊緣側提供優(yōu)質、易部署的AI解決方案。

盡管TPU和Edge TPU主要是對深度學習起到運算推理加速的輔助服務器，但我們?nèi)匀荒軌蚩吹焦雀柙贏I芯片上的布局野心。從云端，到邊緣端和手機智能終端，正是理解谷歌AI芯片的內(nèi)在邏輯。

從云到端，谷歌的AI芯片2.0

(Pixel Visual Core)

從2017年開始，谷歌就在智能手機上陸續(xù)推出了定制的攝像頭芯片“Pixel Visual Core”和“Pixel Neuro Core”，并用在了 Pixel 2、Pixel 3 和 Pixel 4上。

Pixel Visual Core，是一種圖像處理單元(IPU)，也是谷歌自研的第一款移動芯片，專門用于加速相機的HDR+計算，其使用了機器學習和計算攝影，可以智能地修補照片不完美的部分，也使圖像處理更加流暢和快速。這也是很多人說的谷歌手機的照片不是拍出來的，而是算出來的原因。

而到了去年，谷歌在Pixel 4上使用了Pixel Neural Core專用處理器來代替Pixel VIsual Core。神經(jīng)網(wǎng)絡算法可以使谷歌手機的相機鏡頭識別所拍攝的物體，然后既可以將數(shù)據(jù)交給圖像處理算法去優(yōu)化，也可以將數(shù)據(jù)輸出給谷歌助手進行識別。同時，Pixel Neural Core也可以讓谷歌助手進行更復雜的人機對話，還有進行離線的語音文本翻譯。

如果谷歌不是有著TensorFlow、Halide以及編譯器等AI算法和開發(fā)軟件，谷歌的AI芯片的很多設計顯然是無法發(fā)揮太大作用的。軟硬件結合，才讓谷歌的芯片設計走得更為徹底和硬氣。

軟硬兼融，谷歌AI芯片快速迭代的硬氣底色

在互聯(lián)網(wǎng)公司的造芯賽道上，谷歌無疑是跑在最前面的一家。

據(jù)報道，早在2006年，谷歌就考慮在其數(shù)據(jù)中心部署 GPU或者 FPGA，或專用集成電路。而由于當時沒有多少要在專門硬件上運行的應用，因此使用谷歌大型數(shù)據(jù)中心的富余計算能力就能滿足算力要求。

而一直到2013年，谷歌已經(jīng)開始推出基于DNN的語音識別的語音搜索技術，用戶的需求使得谷歌數(shù)據(jù)中心的計算需求增加了一倍，這讓基于CPU的計算變得特別昂貴。因此，谷歌計劃使用現(xiàn)成的GPU用于模型訓練，而快速開發(fā)一款專用的集成電路芯片用于推理。

從云到端，谷歌的AI芯片2.0

后來我們知道這一專用定制芯片就是TPU，而這一快速開發(fā)的周期僅僅是15個月?；谲浖煨?，谷歌并非獨一家，但相比亞馬遜、Facebook來說，谷歌則一直有持續(xù)的芯片產(chǎn)品推出。谷歌能夠如此快速且高頻地進行“硬件”輸出，那自然是有其“硬氣”的原因的。

首先一定是戰(zhàn)略上的重視。此前谷歌CEO皮猜就曾強調，谷歌從來不是為硬件而硬件，背后的邏輯一定是AI、軟件和硬件一體，真正解決問題要靠這三位一體。

其次就是人才的重視。以當前谷歌這一消費端的SoC芯片為例。此前這一項目對外界來說早已是公開的“秘密”。從2017年底，谷歌就開始從蘋果、高通、英偉達等公司高薪挖“角”，其中包括蘋果A系列處理器著名的研發(fā)工程師John Bruno。但直到去年2月，谷歌才正式宣布在印度班加羅爾的組建了一支“gChips”芯片設計團隊，致力于谷歌智能手機和數(shù)據(jù)中心芯片業(yè)務，未來還會在該地辦新的半導體工廠。消費級芯片似乎只差臨門一腳了。

當然，最重要的因素還在于谷歌在AI芯片上的創(chuàng)新優(yōu)勢。我們知道，AI芯片的研發(fā)，本身是一個周期長且耗費巨大資金的項目。芯片設計到成品的周期可能趕不上AI算法的發(fā)展進程。如何實現(xiàn)AI芯片的硬件設計與算法、軟件的平衡，成為谷歌設計芯片的關鍵優(yōu)勢。

而谷歌提出的解決方案則更值得稱道，那就是用AI算法設計AI芯片。

具體來說，AI芯片設計存在著以下難題。首先是，3D芯片的放置，在受限區(qū)域中跨層級配置數(shù)百到上千的組件，工程師們需要手動設計來進行配置，并通過自動化軟件進行模擬和性能驗證，這通常需要花費大量時間。其次是，芯片的設計架構趕不上機器學習算法或神經(jīng)網(wǎng)絡架構的發(fā)展速度，導致這些算法架構在現(xiàn)有的AI加速器上效果不佳。另外，盡管芯片的布局規(guī)劃的設計進程在加快，但在包括芯片功耗、計算性能和面積等多個目標的優(yōu)化能力上仍然存在限制。

為應對這些挑戰(zhàn)，谷歌的高級研究科學家Mirhoseini和團隊研究人員Anna Goldie提出了一種神經(jīng)網(wǎng)絡，即將芯片布局建模轉化為強化學習問題。

與典型的深度學習不同，強化學習系統(tǒng)不會使用大量標記的數(shù)據(jù)進行訓練。相反，神經(jīng)網(wǎng)絡會邊做邊學，并在成功時根據(jù)有效信號調整網(wǎng)絡中的參數(shù)。在這種情況下，有效信號成為降低功率、改善性能和減少面積組合的替代指標。結果就是，系統(tǒng)執(zhí)行的設計越多，其效果就會越好。

在對芯片設計進行了足夠長時間的學習之后，它可以在不到24小時的時間內(nèi)為谷歌Tensor處理單元完成設計，而且在功耗、性能、面積都超過了人類專家數(shù)周的設計成果。研究人員說，這一系統(tǒng)還向人類同行教授了一些新技巧。

最終，谷歌團隊希望像這一AI系統(tǒng)能達到“在同一時間段內(nèi)設計更多的芯片，以及運行速度更快，功耗更低，制造成本更低，外形體積更小的芯片”這一目標。

意在未來，谷歌SoC芯片集成的AI野心

這一次谷歌自研的終端處理器SoC芯片，其本質上還是谷歌AI芯片的延伸。

細心的人們應該已經(jīng)發(fā)現(xiàn)，這次的SoC芯片并不是完全出自谷歌研發(fā)團隊，而是選擇了與三星展開了合作。從媒體的曝光看，谷歌這次的手機主控會采用5nm制程、Cortex-A78大核、核心數(shù)多達20個的新GPU，而這些恰好就是三星Exynos 1000的特征。所以，這款三星堆料的芯片，最主要的“谷歌元素”就是在ISP和NPU上應用了谷歌自家設計的AI芯片。

從云到端，谷歌的AI芯片2.0

(谷歌Pixel5諜照)

這一選擇自然有著谷歌充分的考慮和一些明顯的優(yōu)勢，但也存在著一些不利的影響。

最直觀的好處就是加快了谷歌的手機端SoC芯片的研制速度，降低對高通處理器的依賴，并可以迅速應用到下一代谷歌pixel手機上。

另外一個好處是，谷歌主導的芯片設計將使得谷歌像蘋果一樣建成自己的封閉系統(tǒng)。谷歌最硬核之處就在于擁有龐大的數(shù)據(jù)和AI算法。伴隨著應用層面不斷豐富的數(shù)據(jù)體驗和AI體驗，比如在飛行模式下實現(xiàn)語音實時轉錄文字的功能，手機的硬件性能以及系統(tǒng)的兼容支撐就可能成為智能手機的性能天花板。如何在安卓系統(tǒng)中將處理器性能發(fā)揮到最大，可能沒有誰比谷歌更清楚了。

畢竟前面幾款谷歌Pixel手機的市場表現(xiàn)都不溫不火，盡管其在拍攝算法和AI助手等應用上面極具優(yōu)勢，但在終端的外觀設計、屏幕、攝像頭、電池等硬件配置上一直存在“短板”，難以和全球幾家主流終端玩家的旗艦機型媲美。想必應用了最新一代的SoC芯片的新款Pixel機型的定價也將非常“高端”，但在硬件上的“偏科”，可能仍然會影響其整體的市場表現(xiàn)。

此外，由于這是一款全新的“非主流”芯片，也會對游戲、軟件開發(fā)者而言，不再成為“軟件開發(fā)樣板機”的首選測試機型。

無論如何，這一集成了深度學習性能的SoC芯片，將為谷歌爭奪未來的AI市場做好準備，幫助谷歌、在移動終端上將語音識別、圖像處理等AI應用的性能發(fā)揮到極致，提早一步占領真正的智能終端的領導者位置。

從云到端，谷歌的AI芯片2.0

無論怎樣，谷歌的造“芯”舉動，一定會對上游芯片廠商以及智能終端廠商帶來正面沖擊。如果通過“Whitechapel”證明了谷歌的“造芯”戰(zhàn)略的成功，那么谷歌距離蘋果的差距還有多少呢?

自研芯片、安卓系統(tǒng)疊加最新AI計算能力，如果再補足硬件配置的短板，那么谷歌極有可能打造一個安卓生態(tài)圈的軟硬件完美適配的閉環(huán)系統(tǒng)。

最后，我們發(fā)現(xiàn)一個比較令人疑惑的細節(jié)。此次芯片的代號為“Whitechapel”，名為“白教堂”。如果熟悉英美劇的讀者們，可能會看過一部名為《白教堂血案》的英劇。如果不是非要過度解讀的話，我們可以理解為某位重要研發(fā)者喜歡這部驚悚懸疑劇，所以以此來命名。如果非要“過度”解讀一下的話，谷歌可能是想用一個百年未解的“謎團”來預示著智能終端的AI應用的紛爭的開場。

當然，這個答案也許還得等谷歌的新的Pixel手機上市才能揭曉。

向AI問一下細節(jié)

從云到端，谷歌的AI芯片2.0

猜你喜歡

最新資訊

相關推薦

相關標簽

從云到端，谷歌的AI芯片2.0