2016年,AlphaGo擊敗職業圍棋冠軍李世石,勾起了所有人對人工智能的熱望。
時隔6年,OpenAI發布通用型對話機器人ChatGPT,以超出預期的表現,開啟了新一輪AI熱潮。
距ChatGPT發布不到3個月,國內外廠商紛紛發聲,有的宣稱已掌握ChatGPT相關的大語言模型技術,有的宣布將推出類ChatGPT產品。誰將打造出中國的大語言模型,成為一個極其熱鬧的話題。?

實事求是地說,AI行業自2016年以來,從極盡繁榮到資本退潮,再到歷經數年低谷,已經歷一輪“過山車”式的發展。在這一過程中,清晰而見的是,AI行業的比拼,比的不是誰的“調門高”,也不是誰更會“炒熱點”,而是誰有“真本事”。
毫無疑問,百度在人工智能領域是跑在最前列的那個。日前,百度對外宣布,其打造的文心一言將在2023年3月正式上線。然而在中國,騰訊、阿里、京東、科大訊飛等無數廠商都在進軍AI領域,為什么百度能夠做出與ChatGPT同屬于大語言模型技術范疇的文心一言?
大語言模型的艱難進階
如果用一個詞形容大語言模型的誕生與迭代,那就是“艱難”。
2016年前,人工智能理解人類語言的主流技術是采用小模型處理某個具體任務,如下圍棋、機器翻譯等。這一階段,人工智能既無法勝任多種任務,也需要面對海量的數據標注難題。?
為了改變發展瓶頸,人工智能領域亟需優質模型替代傳統模式。幾乎同一時期,國內外AI科技企業紛紛加入了AI大模型的探索,在國內,百度站在AI行業的最前端,率先推出知識增強語義理解模型文心ERNIE,而在國外,OpenAI則基于Transform模型,推出了生成式預訓練語言模型GPT-1。?
全新的AI大模型不再需要進行繁重的人工數據標注,經過參數的微調,也可執行生成文章、代碼、機器翻譯、問答等各種通用任務。
但此時,新的難題又出現了。一方面是模型參數量劇增,比如GPT-1參數量飆升到1.17億,2019年推出的GPT-2參數量為15億,而到2020年的GPT-3參數量已高達1750億;而百度文心ERNIE最初的參數量約1億,迭代到文心ERNIE 3.0 Titan時也已飆升至2600億。
另一方面,AI大模型的深度學習與持續學習則是另一道難關,要讓機器理解人類的不同指令,生成高質量答案,處理更多通用任務,甚至在與人類的互動中,可持續回答用戶的問題,也可以質疑和拒絕不適當的問題,這就需要模型上的不斷優化。
2022年,OpenAI將GPT-3升級至GPT-3.5,除了增大參數量之外,又引入了人工數據標注,以及采用人類反饋強化學習(RLHF),不斷地與ChatGPT聊天,生成答案與反饋答案質量進行模型優化。
而百度文心ERNIE則沿用了海量無監督文本與大規模知識圖譜的平行預訓練算法及兼顧語言理解與語言生成的統一預訓練框架,在此基礎上,加入了可控學習和可信學習算法。同時,百度還首創了大模型在線蒸餾技術,使其可在若干個學生模型中同時訓練,既壓縮了參數規模,也進一步提升AI大模型執行任務的準確性。
透過ChatGPT與百度文心ERNIE的進階不難發現,要做出大語言模型,“入場券”的價格其實巨高無比。
一來,大模型飆升的參數量,意味著入局者必須具備堅實的算法、算力、數據支撐能力和充裕的資金投入。以ChatGPT來說,其每日需消耗的總算力約3640P,預訓練數據量45TB,一次性的訓練費用便高達8.4億美元。
二來,技術門檻同樣不可小覷。要做出大語言模型,僅僅具備單種AI能力遠遠不夠,自然語言處理(NLP)、模型優化技術、搜索技術等等,同樣不可或缺。對絕大多數AI科技公司而言,無論是算法、算力和數據支撐能力,還是資金實力,亦或者是技術能力,都是難以承受之重。
百度憑何做出文心一言?
既然大模型的研發與迭代如此之難,為什么百度可以做出“文心一言”?這得益于百度在AI領域長期的戰略定力,由此造就其綜合性的AI實力。
早在2013年,百度CEO李彥宏便對AI的想象空間充滿信心。彼時,百度深度學習研究院落地,正式開啟了漫長的AI征程。
在過去十年中,百度在AI領域一直保持著持續的壓強式、馬拉松式的投入,累計投入資金超過1000億。長期的投入,帶來量變到質變的飛躍,百度從芯片層到框架層,從模型到應用層,進行AI全棧技術布局,沉淀技術的綜合優勢。
?
從模型層來說,百度早在2019年就已經推出知識增強語義理解模型文心ERNIE,并登頂刷新了全球權威數據集GLUE榜單。2019年以來,ERNIE模型歷經多次迭代,已進化至文心ERNIE 3.0 Zeus,其參數量高達2600億,比GPT-3的1750億還高,成為全球最大的中文單體模型。?
更大的參數量,通常意味著AI大模型的功能更齊全,匹配結果更精準。正因如此,文心ERNIE 3.0 Zeus支持多種自然語言理解與生成式AI,且學習、理解、生成任務效果也處在業界前列。

在自然語言處理領域,百度作為中國最拔尖的企業,幾乎沒有任何一家公司可以看見它的尾燈。隨著文心ERNIE的不斷迭代,自然語言處理技術與AI大模型搭配,可以充分提升人工智能與自然語言的交互能力,讓機器變得更聰明,這也正是百度能夠做出文心一言的關鍵原因之一。
當然,文心ERNIE模型的運轉,需要算力、算法和數據等基礎能力加持。在中金互聯網行業首席分析師白洋看來,百度在AI三要素——算法、算力和數據方面都擁有領先優勢。?
在算力和算法上,百度目前擁有陽泉、徐水、定興三個云計算中心。以陽泉智能云數據中心來說,其一期項目承載的服務器就達到了16萬臺,項目完全建成后,可承載24萬臺服務器,由此為文心ERNIE提供大模型運行的底座能力。
在數據上,百度作為扎根中文語境下的搜索巨頭,歷來是“更懂中文”的企業,而對中文與中國文化更透徹的理解,使文心NRNIE模型的預訓練,更能結合中文搜索的真實數據與用戶需求理解進行,從而造就其更適合中文與中國市場的特色。
也就是說,百度不僅能夠做出類ChatGPT產品,其打造的文心一言更有望對前者實現局部超越。如在搜索上,百度基于真實數據與用戶需求理解的優勢,能夠讓文心一言的檢索增強提升時效性和準確性;文心ERNIE模型知識增強大模型的屬性,也可以使其基于知識增強,提升多輪推理對話;而本土化AI大模型的特點,則注定了文心ERNIE模型擁有適配國人需求的先發優勢。
技術能力與基礎設施之外,百度在AI領域的長期探索,底氣在于其業務的健康與充裕的研發資金儲備。根據百度2022年財報顯示,其營收達1236.75億元,歸母凈利潤同比增長10%達到206.8億元,Q4營收330.77億元,歸母凈利潤更是同比大漲32%,達到53.71億元,增長態勢極其明確?;诖?,百度2022年投入214.16億元進行核心技術研發,占到了百度核心收入的22.4%。
AI大模型的探索,可以說是一場漫漫長征。在這場征途中,科技企業需要保持堅定的戰略定力,也需要保持多維度綜合實力。
中文互聯網開啟“二次增長”
近年來,互聯網流量見頂已是明顯趨勢。國家統計局數據顯示,2022年3月移動互聯網用戶已達到11.83億,基本接近飽和狀態。AI大模型的大規模應用,為互聯網的“二次增長”注入了一劑“強心針”。
對傳統搜索引擎而言,大語言模型的出現,是一次顛覆式的創新。它改變的既是搜索方式與呈現形式,還有AI生成的內容模式,用戶只需用自然語言交互即可獲得精準答案,或者產出AI原創內容,這都將帶來全新的搜索體驗與效率提升。
除此之外,大語言模型在辦公、云計算、智能駕駛等多種場景中應用,也有望助推這些行業的轉型升級,激發其增長潛力。比如微軟在Office、Teams等方面,正在整合引入OpenAI的技術,目標指向的便是辦公場景的升級。
面對OpenAI與微軟的來勢洶洶,谷歌不得不緊急迎戰,因為兩者在搜索業務、AI領域等多個層面是直接競爭對手。而谷歌推出基于其人工智能技術的聊天機器人Bard,也被視為是在拉響“紅色警報”。
然而,在太平洋的另一端,百度與谷歌的處境其實截然不同,它更像是受益者角色,而非被挑戰者。一方面,百度一直是國內AI領域的龍頭,經過十余年的AI全棧布局,如今其在AI各個領域都打造出關鍵自研技術,如最底層的芯片“昆侖”,深度學習框架“飛槳”,預訓練大模型文心ERNIE模型等。?

另一方面,作為國內搜索巨頭,百度天然具備AI大模型最好的商業應用場景——搜索。未來,百度的文心一言將率先接入百度搜索中,為用戶提供更準確、更高時效性的搜索服務與智能生成服務。
對此,李彥宏信心十足稱,“技術已經到了臨界點,類似ChatGPT這樣的技術如何運用在搜索場景上,未來一年,在這方面我們非常有機會”。
而在更多AI應用場景中,百度也提出要基于“AI大底座”,賦能千行萬業的發展。在云服務方面,百度的文心一言與百度智能云結合,假設某個行業需要AI知識圖譜,便可以通過AI與云技術的耦合實現快速調用。
在智能駕駛上,百度將文心一言與產業結合,也將帶來極為可觀的體驗與效率提升。比如當文心一言應用于汽車的智能語音助手,就有望實現更自然的語音對話體驗,應用到智能駕駛系統,則有望提升語音指令識別,提升駕駛的安全性與樂趣性。
此外,百度還將把文心一言作為平臺對外對外開放,供第三方開發應用。目前來看,包括吉利汽車、紅網、每日經濟新聞等超過400家互聯網、媒體、金融、保險、汽車、企業軟件等行業的頭部企業已接入文心一言,多元化的AI生態體系已初見雛形。
事實上,在人工智能領域,百度的增長一直頗為穩健。從其財報數據來看,2022年Q3,百度非廣告收入已經達到65億元,同比增長25%,而這恰是得益于百度智能云與AI業務的驅動。
如今,AI產業方面,百度智能云已連續四年占據AI公有云市場第一;AI出行上,百度旗下的蘿卜快跑穩居全球最大自動駕駛出行服務提供商,后者累計訂單量超過200萬單,Q4累計訂單量56.1萬單,更是猛增162%;而在AI生活上,百度App12月月活用戶再創新高,達到了6.48億。種種跡象都表明,百度在人工智能領域正在結出商業化碩果。
而隨著文心一言的即將亮相,百度的增長潛力更是被諸多券商一致看漲。美銀證券指出,百度文心ERNIE與ChatGPT特質相似,是自然語言處理、計算機視覺、機器學習、知識圖譜等多種AI能力的結合與融合。?
麥格理認為,百度可見的上行驚喜是將推出類ChatGPT的文心一言,并預計其2023年經調整經營利潤率將提高2.4個百分點至18.3%。?
業績上的增長預期之外,當我們抽身看向更高的層面會發現,百度文心一言的出現,還有其更為深遠的時代意義。經歷十余年的產業競速,人工智能行業其實已經來到了“拐點”時刻。而作為中國人工智能領域的代表,百度打造出的文心一言,不僅將重新定義搜索入口,“引領搜索體驗的代際變革”,也將為更多人帶來模式創新的契機,以AI助力互聯網打開全新的想象空間,成為助推千行萬業向上增長的“助燃劑”。
(完)
2021-12-16 電科技發布了 《羅永浩劃定重返科技界目標:AR/VR/MR,下一站元宇宙?》的文章
2021-11-17 電科技發布了 《愛奇藝2021Q3財報發布:總收入76億元 會員營收43億元》的文章
2021-11-05 電科技發布了 《將3A大作帶入大屏場景,樂播攜手天翼推出云游戲主機》的文章
2020-03-23 電科技獲得了沐晨的關注