【獵云網北京】12月16日報道
12月10~11日,2019年度CEO峰會暨獵云網創投頒獎盛典在北京望京凱悅酒店隆重舉行,近百位知名資本大咖,獨角獸創始人、創業風云人物及近千位投資人與創業者共聚“新勢力·2019年度CEO峰會暨獵云網創投頒獎盛典”。
在《人工智能芯片技術發展與應用》的主題演講中,寒武紀副總裁劉道福概括介紹了人工智能的發展路徑,并分享了寒武紀現階段在云、邊、端的業務進展。
劉道福提到,人工智能和深度學習的發展經歷了“三起三落”。
在人工智能萌芽階段的50年代,就出現了神經網絡技術,當時被稱為“多層感知機”技術。由于當時沒有有效的訓練方法以及多層感知機計算量過大,70年代神經網絡的相關研究陷入了低谷,被人稱作第一次人工智能的冬天(AI Winter)。
80年代,Hinton等人提出的反向傳播(Backpropagation,BP)算法解決了神經網絡的訓練難題,但當時整個計算機系統的計算能力還是比較弱,加上隱藏層需要調參比較耗時,因此,神經網絡這類需要消耗大量算力的算法并沒有得到如期發展。
90年代神經網絡相關研究再次陷入低潮。而其他一些機器學習算法,如支持向量機(Support Vector Machines,SVM),則因為無需調參和高效等特點迅速打敗神經網絡成為機器學習的主流算法。
進入2000年后,由于互聯網企業的崛起,互聯網巨頭能夠擁有大量的算力和數據,用于神經網絡這類算力密集型和數據密集型的算法研究,神經網絡重新煥發了第三春,并且誕生了比傳統淺層神經網絡(兩三層)層數多很多的深度神經網絡,層數高達上千層。
這些深度神經網絡的表述能力比傳統淺層神經網絡好很多,可以解決更加復雜的問題。因此,深度神經網絡很快在2012年后逐步成為機器學習主流算法,并且迅猛發展,很快在包括計算機視覺、語音識別、自然語言等領域成為了主流。
伴隨著人工智能的發展和應用,2000年后,人工智能芯片也開始得到學術界和產業界的關注。其中,無論是在人工智能芯片的學術研究還是產業落地,寒武紀或寒武紀團隊都是很早就進入,是相關領域的先行者。
劉道福分享認為,數據、算法和算力是人工智能發展的三個重要因素。其中,數據是“生產資料”,算法是“靈魂”,算力是“第一推動力”。
2018年,寒武紀推出的MLU100機器學習處理器芯片,運行主流智能算法時性能功耗比全面超越CPU和GPU。
2019年,寒武紀陸續推出了云端AI芯片中文品牌“思元”、第二代云端AI芯片思元270及板卡產品,發布邊緣AI系列產品思元220(MLU220)芯片及模組。
其中,思元220是一款專門用于深度學習的邊緣加速芯片,采用TSMC 16nm工藝,它具有小尺寸、高算力、低功耗和豐富的I/O接口等特點。
劉道福在接受獵云網采訪時表示,寒武紀思元系列主要有以下幾大亮點:
首先,完善的軟件開發環境。寒武紀為思元系列提供了一整套成熟的開發環境Cambricon NeuWare,具體包括應用開發、功能調試、性能調優等在內的一系列工具。
其次,高能效。相比GPU處理器,采用了針對深度學習和人工智能應用特點優化的指令集和處理器架構,具有更優的能效比。
此外,通用性好。能夠支持各類深度學習技術,支持多模態智能處理(視覺、語音和自然語言處理),應用領域廣泛。
在劉道福看來,創業公司布局AI芯片需要從三個方面著手,做到“需求驅動,技術支撐,產品落地”。
目前,寒武紀人工智能相關芯片在互聯網、金融、教育、制造、交通等領域均有成功落地和應用。
為了幫助創業者和投資人重新蓄力,2019年,獵云網攜全新品牌“新勢力(New Force Summit)”亮相。本次峰會由獵云網主辦,銳視角、獵云資本、獵云財經、企業管家協辦。
此次盛典上,獵云網將通過六個版塊分享創業者和投資人在智能制造、文娛、零售、醫療、教育、汽車等領域的啟發性的觀點和行業前瞻,圍繞多個維度,分享科技和產業前沿觀點,探討創新潮流趨勢、把握未來新方向。
尊敬的各位嘉賓,大家下午好!
感謝獵云網的邀請,很榮幸在這里向大家分享一下我在人工智能芯片的一些看法和想法。
首先簡單介紹一下寒武紀,寒武紀本來是距今約5~6億年的地質年代。在這個地質年代,物種多樣性、復雜性得到大大提升,被稱為寒武紀物種大爆炸。
如今,計算機產業、信息技術也有處于這樣的階段,人工智能出現也讓相關產業得到很大的提升,乃至躍遷,先進的人工智能技術已呈大爆發之勢。寒武紀公司英文名Cambricon是寒武紀與半導體兩個單詞的合成(Cambrian+Silicon),我們希望在人工智能的寒武紀時代,做一個偉大的芯片公司,支撐上層的人工智能應用。
這是整個深度學習的發展歷程,人工智能、深度學習有三起三落。
50年代達特茅斯會議標志者人工智能的誕生。在人工智能誕生之初,深度學習的雛形,最早的神經網絡,多層感知機就被提出。
但由于當時沒有有效的訓練方法以及對當時來說,多層感知機計算量過大,70年代神經網絡的相關研究陷入了低谷,被人稱作第一次人工智能的冬天(AI Winter)。
80年代發明反向傳播的算法,解決了訓練的難題,所以大家覺得神經網絡會有一波浪潮,但是后面發現并沒有實現,是因為80年代整個計算機計算能力特別弱,訓練深度學習或者神經網絡需要計算能力非常高,80年代一臺超級計算機的能力也僅萬億次規模,現在一臺手機遠遠超過這個計算能力。
加上神經網絡容易陷入局部最優,以及隱層神經元數這些超參很難調好,神經網絡發展碰到了障礙。
所以,80年代像神經網絡需要消耗大量算力的算法沒有得到發展,90年代神經網絡相關研究陷入了低潮。
而其他一些機器學習算法,如支持向量機(Support Vector Machines,SVM),則因為無需調參和高效等特點迅速打敗神經網絡成為機器學習的主流算法。
進入2000年后,由于互聯網企業的崛起,互聯網巨頭能夠擁有大量的算力和數據,用于神經網絡這類算力密集型和數據密集型的算法研究,神經網絡重新煥發了第三春,并且誕生了比傳統淺層神經網絡(兩三層)層數多很多的深度神經網絡,層數高達上千層。
這些深度神經網絡的表述能力比傳統淺層神經網絡好很多,可以解決更加復雜的問題。
因此,深度神經網絡很快在2012年后逐步成為機器學習主流算法,并且迅猛發展,很快在包括計算機視覺、語音識別、自然語言等領域成為了主流。
人工智能有三個很重要的因素:數據、算法、算力。
數據是人工智能的生產資料,沒有好的數據,無論算法多好,也很難加工出來好的模型。
算法是人工智能的靈魂,好的算法,能把好的數據進行加工(訓練),得到一個好的模型,對于新的數據進行更好的預測。
算力是人工智能的生產力,由于數據量越來越大,算法越來越復雜,需要非常非常高的算力支撐。就像人類社會進步需要生產力推動一樣,算力是推動人工智能發展的第一推動力。
人工智能為什么需要一些專門的處理器呢?從歷史發展來講也可以看到一些端倪,傳統在80年代、90年代所有的運算都是控制為主的運算或者文本處理,CPU就夠了。
到90年代,圖形界面的出現、游戲的出現,出現了圖形渲染等這些新的的計算需求,原來的CPU處理這些計算太低效,成本太高,速度太慢,出現了針對圖形界面和圖像渲染的圖形處理器(Graphics Processing Unit, GPU)。
人工智能計算特點相對圖形渲染的計算,有一些新的特點,圖像渲染以向量為主,但是人工智能計算往往是三維矩陣或者更高維運算為主,所以需要不一樣架構的處理器來支撐人工智能這一類的計算。
伴隨著人工智能的發展和應用,2000年后,人工智能芯片也開始得到學術界和產業界的關注。寒武紀在這個領域做的很早,我們在2008年在相關領域進行學術研究,2016年成立公司進行真正的產業落地。
作為一家芯片公司,我們關注整個人工智能的角度與大家可能稍微不一樣,我們關注的是不同應用場景對算力的需求。
比如說對于物聯網領域,算力需求不會那么大,但是對功耗要求很高,希望做到極低功耗,這個場景對算力的要求往往小于1Tops。對移動消費電子,比如手機或者VR、AR設備,算力要求和具體場景有關系,1-20Tops的算力要求都有。
而對于一些關鍵實時應用,比如自動駕駛領域,取決于自動駕駛水平(Level)不一樣,算力范圍變化是很大的,可能從20-2000TOPS。
有觀點認為,自動駕駛每往上升一個Level,所需要的算力會增加5~10倍。Level 2的自動駕駛典型算力要求為20~30TOPS。
另外一個關鍵場景就是互聯網、數據中心的應用,這個場景,取決于業務規模的大小,可能從POPS到EOPS不等。
人工智能發展當中,數據促進了IT技術變革以及人工智能落地。因為數據越多,所需要處理的類型越來越豐富,從而推動了很多新需求、很多新應用誕的生。
另外,人工智能發展的另一個趨勢,就是終端與云端的聯系越來越緊密。在終端,由于越來越多傳感器被部署,越來越多的數據需要被處理,需要進行推理。
而這些推理,又往往依賴于云端,一方面,推理所需要的模型,往往需要終端數據匯集到云端,進行標注和訓練得到。另一方面,終端由于受限于計算力和存儲容量,對于一些復雜推理應用,需要云端的算力進行支撐。
人工智能芯片要做到“好用”與“通用”,要解決一系列問題和挑戰。寒武紀在這方面,做了很多嘗試和工作。
首先在處理器指令和架構設計方面,我們從應用需求出發,分析和抽取應用負載特征,基于這些特征設計靈活指令集,提供靈活的運算器方案,以及可擴展性強、高效架構。
在具體產品落地上,寒武紀通過靈活和豐富的軟件棧支持主流編程框架,并在大規模商用中得到反饋和修正,降低了成功智能芯片的開發成本,加速了人工智能芯片的落地。
在實際的人工智能處理器設計過程中,采用傳統ASIC芯片設計思路,也即直接將算法硬件化,存在三大矛盾和挑戰需要克服。
第一個有限規模的硬件和任意規模的算法的矛盾,硬件受限于物理限制,所能同時處理的算法規模是受限的。
第二個是結構固定的硬件和千變萬化的算法的矛盾,芯片和硬件的迭代速度較慢,周期較長,而算法迭代速度極快,同時同一時期的算法本身也是有各種各樣的算法,如何通過一個結構的芯片或硬件支持各種時期,各種變化的算法,是個重大的挑戰。
第三個是能耗受限的硬件和計算量大的算法,由于處理數據的人工智能算法越來越復雜,以及所需要處理的數據量越來越大,所需要的算力也越來越大,對計算的成本提出了很大的挑戰,計算所需要的電力成本升高及其后面的基礎設施建造都會是一個重要的負擔,因此,在實際落地中,企業往往對于人工智能硬件功耗提出了各種限制,各種要求。
寒武紀在設計人工智能芯片過程中,采用了一系列技術來克服上述挑戰,包括集成大量片內SRAM,神經元虛擬化,通用靈活的人工智能指令集,以及對稀疏神經網絡的專門支持等技術。
在產品戰略上,寒武紀堅持云邊端一體發展、協同發展,堅持推理和訓練,云端、邊緣和終端形成一系列產品矩陣,實現AI應用的全場景覆蓋。我們在終端、云端、邊緣都有不同層次的產品。
在終端,由于產品形態非常千變萬化,我們采用的IP授權的方式,把我們的AI能力賦能于各類終端SOC廠商,包括手機、攝像頭SOC芯片廠商。
在云端,我們直接提供芯片、板卡和軟件棧,直接服務于互聯網和行業巨頭、數據中心。在邊緣,我們定義的邊緣計算是邊緣網關側的計算,我們也提供了專門的芯片和小尺寸加速卡,賦能于邊緣計算的各行各業。
今年6月,我們發布了第二代云端推理芯片,思元270,在稠密的神經網絡處理上,相比前一代有4倍的性能提升。最近,我們也推出了面向邊緣計算領域的思元220芯片和M.2加速卡。
思元220是一款專門用于深度學習的邊緣加速芯片,采用TSMC 16nm工藝,它具有小尺寸、高算力、低功耗和豐富的I/O接口等特點。
在生態戰略上,寒武紀將堅持端云一體,在終端和云端采用統一的指令集、處理器架構以及軟件棧。終端和云端的生態實現互通,互相促進。
在云端,我們會提供豐富、完備的各類軟件開發平臺和工具,包括開發工具,調試工具,和性能調優工具。
我們的終端客戶,可以直接在云端進行開發,開發好后,直接用寒武紀提供的一鍵部署工具進行一鍵部署,解決常見終端或嵌入式開發的開發難,開發調試工具不方面的難題。
另外,我們還會提供編程語言給客戶和開發者,這樣客戶一些獨特的算子,客戶可以通過編程語言,在保證編程和運行效率的前提下自己實現,從而保護客戶的模型安全和知識產權。
近期我們就會向社區公開這個編程語言,這個編程語言叫Bang,兩重意思,一層是希望這個語言能夠很棒,大家用的很順手,另外一層意思,就是希望這個編程語言能助力人工智能算法和應用大爆炸(Big Bang),支撐用戶發明各種千變萬化的神經網絡結構和算子。
后面幾頁slides是人工智能芯片具體的應用領域,剛才特斯聯謝總已經提到了很多,時間關系,我就簡單介紹一下。寒武紀無論是在互聯網的搜索推薦、語音,還是金融領域的OCR、票據分析,還是教育等領域,都有落地。
在邊緣計算領域,我們也在加速落地,在思元220發布會上,我們就展示了一個零售的應用。
當前,我們在商店買東西時,都需要將商品逐一掃描,然后計算總額,然后刷卡或刷二維卡。整個過程非常耗時。尤其在高峰期,即使增加收銀人員,也很難避免排隊現象。
在未來,通過在收銀臺架設攝像頭,在邊緣應用人工智能芯片對攝像頭數據進行分析,做到只要將結算商品放到收銀臺,就可以自動識別出所有商品,進行計價,再結合刷臉支付,可以實現無掃描收銀,無感支付。
大大提高收銀效率,減少店家所需要的收銀人員數量,原來需要4~5個收銀員,可以減少到1個,減少消費者的排隊時間,增加消費者的復購率。
由于時間關系,我的分享就到這兒,歡迎大家臺下繼續交流。謝謝大家!
2022-04-08 獵云網發布了 《俞敏洪流露退隱之意?稱自以為是的努力,已成為新東方發展的障礙》的文章
2022-04-08 獵云網發布了 《闊別五年重返網約車!周航掌舵曹操出行》的文章
2022-04-08 獵云網發布了 《加速布局芯片!小米入股芯片公司尊湃通訊》的文章