
文 | 小善
本文由善緣街0號編輯
轉載請注明來源善緣街0號(ID:zhumengtrip)
人工智能對于百度來說意味著什么呢?李彥宏用簡單的四個字來描述,就是「百度大腦」。 三年前,李彥宏就已經說過,百度大腦已經具備了大概兩三歲孩子的智力水平。 百度大腦基本上由三個大的部分組成:第一個組成部分是人工智能的算法,第二個組成部分是計算能力,第三部分是數據。 「比如,我們已經收集了全網上萬億的互聯網網頁內容,這其中包括了很多視頻、音頻、圖像,這些數據也是數以百億級的。」李彥宏強調百度的數據資源之豐富。 那么,百度大腦具體又是如何發揮應用的呢? 9月1日,百度世界大會在京召開。百度公司創始人兼CEO李彥宏發表主題演講。 歡迎來到2016百度世界!今天我的主題演講將圍繞著人工智能展開。 今年6月份,我在百度聯盟峰會上講了一個概念,叫做互聯網的下一幕。下一幕是什么意思呢?就是說,互聯網的發展在此之前已經經過了兩個非常重要的階段,第一個階段大概持續了十幾年的時間,就是我們講的PC互聯網階段。第二個階段是在最近四五年,我們把它叫做移動互聯網的階段。對于中國市場來說,隨著上網人數越來越多,上網人口的滲透率越來越高,現在已經達到了七億多,就是說已經超過了50%的滲透率,同時,每一個上網的人現在也基本都用上了智能手機。 這意味著什么呢?這意味著,未來互聯網的增長不能再靠人口紅利來驅動了,也就是說,移動互聯網的時代其實正在離開我們。這可能是很多人難以接受的。我們國家現在進入了所謂的新常態,經濟的增長需要靠「互聯網+」行動計劃來推動,所謂「互聯網+」就是希望用互聯網的思維方式、互聯網的效率來推動各個行業、產業的繼續發展。但是,我們互聯網的從業者其實又深深地感受到了這其中的危機,這個危機就是因為過去的粗放增長階段已經結束了。 移動互聯網之后的下一幕是什么?其實現在已經很清楚了,就是我們所說的人工智能。人工智能對于百度來說是核心中的核心,我們也很幸運,在過去的五六年當中,百度花了很大的精力投入到人工智能的研發當中。 人工智能對于百度來說意味著什么呢?我可以用簡單的四個字來描述,就是百度大腦。百度大腦的概念我們其實在大約三年前就對外講過。那個時候我們講,百度大腦已經具備了大概兩三歲孩子的智力水平了。自此以后,不斷的有人來問我,尤其是今年人工智能突然火起來了之后,很多人來問我,你們這個百度大腦現在相當于多少歲人的智力水平了。 要回答這個問題其實還蠻難的,我也不知道它現在是多少歲了,因為畢竟人腦和電腦它還是有很大的區別,百度大腦雖然是一個人工智能的大腦,但是它和人正常的發育過程還是很不一樣的。 百度大腦到底由什么構成的呢?它基本上是由三個大的部分組成的。 第一個組成部分,就是人工智能的算法。我們有超大規模的神經網絡,這是模擬人的神經元組成的網絡,但其實我們也不知道真正人腦工作的原理是什么,只是想象當中應該是這個樣子。我們還使用了萬億級的參數,人腦的神經元大概是千億級的,我們也有千億的樣本和千億的特征進行訓練。整個這些東西組成了百度大腦當中算法的部分。 百度大腦的第二個組成部分是計算能力。現在我們已經使用了數十萬臺的服務器來進行計算,而這當中很多的服務器不是基于傳統CPU的服務器,而是基于GPU。早年的時候,GPU主要在游戲等領域使用得比較廣泛,在人工智能、尤其是深度學習起來以后,我們發現,其實GPU特別適合人工智能的計算,尤其是深度學習的計算,一塊GPU可以頂100個CPU的計算能力。 百度大腦的第三部分是數據。數據也非常非常重要,而且這個數據量也是非常大的。比如說,我們已經收集了全網上萬億的互聯網網頁內容,這其中包括了很多視頻、音頻、圖像,這些數據也是數以百億級的。我們還有每天數十億次網民的搜索請求,而且還有每天數百億次的網民定位請求。 百度大腦到底有什么樣的功能?讓我們來看一看。 今天重點介紹四個功能:一個是語音的能力,一個是圖像的能力,一個是自然語言理解的能力,還有一個就是用戶畫像的能力。 這幾個能力雖然都是屬于人工智能中比較典型的應用,但是它的發展階段也是很不一樣的。 比如說語音,現在就已經進入了相對比較成熟的階段,在很多很多領域中都開始進入實用階段,識別的準確率也已經很高了。圖像最近幾年也有了長足的進展。這兩者都屬于人工智能當中認知的部分,所以深度學習的算法非常適合處理這些形式。 相對來說,自然語言的理解或處理能力就更加難一些,并處在一個更加早期的階段,因為它除了認知方面的能力之外,還要求有推理、規劃等能力,才能夠真正地理解自然語言。用戶畫像的能力,其實從傳統意義上來講,并不是人工智能的領域,但是由于近年來大數據的發展,尤其是大型互聯網公司有能力搜集很多用戶的數據之后,再用人工智能的方法、用機器學習的方法,就可以把一個人的特征描繪得非常非常清楚。所以今天,用戶畫像也變成了人工智能或者說變成了百度大腦的一個重要功能。 下面我就分別來講一下百度大腦的幾個功能。 我們先看一下語音,語音分成兩個方向,一個是語音的識別,一個是語音的合成。 我們先看看語音識別。今年MIT Technology Review(《MIT科技評論》)雜志,把百度的Deep Speech 2評為「2016改變世界十大突破技術」,這就是百度的語音識別引擎,它已經到了第二代,主要就是使用了深度學習的能力。這樣的一個技術已經可以把語音識別的準確度做到多少呢?大概可以做到97%的準確率,這樣的準確率已經達到,甚至有時已經超過了人對語音的識別能力。當然,我們講這些能力不是為了簡單地去炫耀這個數字有多好,我更感興趣的是,當你有了這些能力時,它可以在什么領域應用,又可以在哪些方面幫助到我們,這其實才是最讓我們覺得興奮的地方。 先給大家舉一個電話銷售的例子,是一個To B的應用。很多的公司其實都有電話銷售這樣的一個部門,其實有經驗、最優秀的銷售和一般、較差的銷售相比,在效率上有非常大的差別。我們怎么才能夠讓新手具備最優秀的銷售能力?過去的做法是,把優秀的銷售經驗總結成冊子讓大家去學習,讓這些銷售去背,但是怎么活學活用還是需要一個過程的。而有了這么高精度的語音識別能力之后,我們就可以徹底改變這樣一個狀況了,甚至可以讓一個剛剛上崗一個月的銷售就具備最優秀的銷售能力。我們可以通過實時的語音識別甄別出用戶或客戶在問什么問題,然后我們再實時地在屏幕上告訴新的銷售,最優秀的銷售是怎么回答這個問題的。過去沒有實時的語音識別的時候,你需要線下學,學完了之后上去用,很容易就忘了,但是有了這個系統之后,我們就可以解決這樣的問題。 語音合成是什么意思呢?就是機器可以把文字轉換成語音,把它念出來、讀出來。今天的語音合成也有了和過去非常不一樣的體驗,最主要的就是,它可以用比較自然的人的聲音讀出來,而不是像過去機器一樣,每一個字之間的停頓都是一樣長,是勻速的、沒有表情的。這樣的體驗,當然對于用戶的黏性來說也是有很大的作用。 那么這種讀出來的和我們平時聽到的廣播有什么本質上的區別?廣播是每一個人聽到的東西是一模一樣的,而今天的語音合成,它可以做到每一個人聽到的東西都是不一樣的,完全根據你個人的需求進行定制,這就是為什么它的用戶黏性會很高。不僅如此,其實我們可以想象一下,它如果能夠模擬一個自然人的表達方式或發聲能力,它就可以模擬任何一個你喜歡的人的說話方式。 對于百度來說,百度大腦的語音合成能力可以讓每個人都有自己的聲音模型。你只要按照我們的要求說50句話,我就學會了你說話的方式。當你擁有自己的合成聲音之后,比如說家里的老人想經常聽你說一說,你把這個聲音合成出來讓他聽就好了。或者你平時要加班,小孩睡覺之前想聽個故事,你合成自己的聲音給孩子講一遍這個故事,聽起來也會很親切。所以大家可以看到,這些語音的能力會帶來各種各樣新的可能性。 下面我給大家講一下圖像。用一個比較專業的術語來講,叫做計算機視覺。這也是現在廣義的人工智能中非常重要的領域。 說到圖像的識別,我想大家自然而然會想到一個人臉識別的應用。今天人臉識別的準確率已經達到了99.7%,已經非常非常準確了。那么,人臉識別這個技術是怎么實現的?我們要對人臉的特征提取它的關鍵點,把這些點打出來之后要做一些處理,把它連成一個面部表情,據此來識別一個人。 除了面部識別之外,圖像識別在很多領域也有應用。比如我們到一個陌生的地方之前,想看看那個地方的全景圖。當然,這個圖不是一個簡單的圖像采集,我們采集了圖像之后要對圖像中各種各樣的目標進行識別,這個大樓是什么大樓,那個路牌上面寫的什么字,對寫的這個字識別的話,跟人臉識別還不太一樣,這里面有一個特殊的圖像識別技術就是OCR,這個是二十多年前我們的一個專利,到今天它的準確率已經非常高了。 無人駕駛汽車也是一個非常需要圖像識別的重要領域。無人駕駛汽車涉及到很多很多的技術,比如需要計算機視覺的技術,需要高精度地圖,需要對環境的感知,需要定位,甚至需要語音的通話。但應該說,計算機視覺或者圖像識別的技術是「最后一公里」,無人駕駛汽車真的要變成沒有人,真的要能夠解決99.999%,甚至100%的情況,要識別各種各樣的極端情況,最終還是要依靠計算機視覺的能力。 我們再給大家展示一個領域,就是增強現實AR,AR其實也非常依賴圖像識別。拿著手機拍一下現實情況,我們要能夠識別出來這是哪,這里面有什么,然后才能跟用戶進行互動,才能產生真實世界和一些虛擬世界的完美結合。 下面我們再看自然語言處理。自然語言處理其實我剛才也講了,它的成熟程度應該不如語音,甚至不如圖像識別,但是即使在目前的狀態下,它也能夠給大家帶來很多很多不一樣的體驗。 最直接的例子應該是我們去年在百度世界大會上講的一個例子,就是度秘。度秘是一個個人智能的助理。度秘跟用戶進行交互,現在已經有超過一半的交互是通過語音和圖像來完成。 度秘除了能夠識別語音和圖像之外,其實它更關鍵、更核心的技術,是能夠用人的語言來與人進行交流,并且能夠理解人的很多意思和意圖,盡管不是每一次都能理解。我們也利用度秘的自然語言能力,做過一個比較有意思的應用,就是解說奧運籃球。 下面我們講百度大腦的第四個能力,就是用戶畫像的能力。用戶畫像也是基于百度的大數據以及機器學習的方式所獲得的一個能力。現在我們已經有接近10億的用戶畫像,其中對于他們的識別我們已經用到了千萬級的細分標簽。這些標簽主要在兩個維度上體現,一個是通用的維度,他的人口學特征、短期的意圖、位置屬性;也有一些垂直行業的特征,他在金融領域是什么樣的情況,他在保險、醫療、旅游、健康等領域都有什么樣的愛好、習慣,這些東西共同構成了我們的用戶畫像。 用戶畫像有什么用途? 首先給大家舉一個百度內部的例子。最近幾個月大家可能注意到了手機百度,除了上面的搜索框之外,下面增加了各種各樣的文章。這些文章有時候是新聞,有時候不見得是新聞,但是確實是你感興趣的東西。之所以它能夠把你感興趣的東西推薦出來,就是因為我們利用了百度的用戶畫像。我知道你是一個什么人,你喜歡看什么樣的東西。有了這樣的個性化推薦,過去兩個月手機百度推薦的文章閱讀量增長了10倍,這種能力就是靠百度給用戶打了60多萬個標簽,而每個用戶都是這其中某些標簽組合后描畫出來的,所以它可以做到千人千面,準確地講,不是千人千面,而是萬人萬面,億人億面,每個人對于百度來說都是不一樣的個體。所以,每個人看到的信息和文章都是不一樣的。 再給大家展示一個外部的例子。6月份上映的電影《魔獸》,就是利用了百度大腦的用戶畫像功能來提升它的票房。那么它是怎么做到的呢?這個做法很聰明,它把人群分成三類,一類人是不管怎么樣都要看的,另外一類是不管怎么樣都不會看的,這兩種人他們都不太關心。它關心的是它可以影響的人群,通過用戶畫像把這些人從搖擺的轉換成真正去電影院看的。最終,百度用戶畫像能力為《魔獸》帶來了200%的票房提升。 講到這里,我基本上把百度大腦幾個主要的大功能都已經呈現出來了。 「本文僅代表作者個人觀點,不代表善緣街0號立場」
您也可以關注我們的官方微信公眾號(ID:ctoutiao),給您更多好看的內容。