前不久的人機圍棋大戰,最終人類頂尖棋手李世石以 1:4 不敵 Google 出品的人工智能 AlphaGo。
其核心原理采用了多層神經網絡對圖像信息進行分析,同時運用深度學習技術總結規律,最終得出戰勝人類高手的棋著。
實際上這套原理還能夠應用在別的領域,就比如上個星期登陸 MindTalk 線場的圖普科技,每天利用人工智能對圖片和視頻進行超過 3 億次的鑒別,利用計算機的能力來發掘圖像信息中的價值。
超過 500 家企業都是他們服務的用戶,其中更是包括了七牛云存儲、秒拍、小咖秀、戰旗 TV、唱吧等一系列非常知名的產品。
互聯網的開放不僅帶來了自由,同樣也成為垃圾信息的溫床。最為人熟知的一個職位叫做“鑒黃師”,代表人物自然是“唐馬儒”,但實際上“唐馬儒”再多也滿足不了現在對于圖像鑒別和挖掘的需求。
最好的例子就是前不久爆出的“直播造人”,視頻和直播類內容的興起使得對內容的鑒定需求呈幾何倍數增長。
圖普科技 CEO 李明強
垃圾信息的問題在互聯網的文字時代也同樣存在,但相對比較好解決:不斷在后臺更新關鍵字就可以完成屏蔽。但圖片和圖像相對復雜的多,正如圖普科技 CEO 李明強所說:
直播這樣的信息對于鑒別的實時性要求太高,同時在線的直播數量大,一不小心違規的東西就上線了。
這個過程傳統的解決方案是通過人力完成,所需要的人數會與主播成一個比例。通常都是好幾百人坐在屏幕前面持續對閃過的畫面進行篩選,如果發現不符合規定就進行人工處理。
相比之下,圖普科技給出的解決方案則更為簡單:上傳圖片(視頻直接截圖),我給你分析,然后把結果交給你。
篩選的維度豐富:色情識別、暴恐識別、是否旋轉、顏值、人物類別、廣告識別、是否戴眼鏡、頭發長度、車身顏色、車標品牌、服裝風格、服裝美觀度等等。如果你還有別的需求,圖普可以為你量身定做。
使用流程也非常簡單,將圖片或者影像的截圖發送到圖普的云處理端,然后就能夠接收到來自云端的處理結果,并且在返回的信息內還包含了更多關于圖片的信息,比如“圖普有多(百分比)確定這張圖片是色情圖片、圖片里的人顏值有多高(百分比)”。
這些復雜的維度即便是人也要花上個幾秒鐘來確定,而圖普所能達到的成績是 99.5% 的圖片都能夠在 1 秒內獲得鑒別的數據反饋。
一般不是說計算機看不懂圖片的么?圖普究竟用了什么黑科技?

同樣的一張魔方圖片圖片,人眼看到的是一個魔方,而計算機看到只是每個代表每個像素點的數據。 雖說人對于圖像的識別能力也是日積月累形成的,但如何教會計算機看“懂”圖片一直是個難點。
“懂”這個字非常關鍵,日常我們會遇到的驗證碼就是個很好的例子。對于最簡單的文字驗證碼,計算機能夠通過分析圖片中的像素點的顏色數值,然后形成一定的筆畫結果,最終轉化為文字。
所以人們就開始對驗證碼進行不斷的升級,從更換、抽象字體到給驗證碼加上其他干擾元素等等,12306 的圖片勾選就屬于驗證碼中比較強力的一種。
8 張小小的圖片,里面展現了不同的物體,然后根據提示勾選其中一個或幾個才能通過驗證。剛推出的時候瞬間所有搶票軟件都啞火了,后來他們想出一個辦法:通過數據請求獲得所有的圖片驗證碼,然后仍然是通過人工進行歸類,最終刷票需要驗證的時候通過圖片原始數據就知道應該勾選哪幾個了。
這種方式并沒有真正看“懂”圖片,只是利用人工完成了必須的鑒別環節,如果這個驗證碼的數據庫足夠大并且一直保持更新,破解就將變得非常困難。
只分析圖片原始數據這種方法在應對復雜顏色圖片的時候非常無力,比如之前通過鑒定圖片中肉色的比例(根據像素點信息來判斷)來排除黃色圖片的某軟件。結果是各種黃牛的圖片也變成了色情圖片,還有將兩根火腿腸看成大腿的結果。
人工在鑒別的準確度上肯定有優勢,但人不同于機器,總是會疲勞的,而且錯誤幾乎不可避免,還需要付出大量的成本和時間進行管理。
既然沒有辦法直接將人腦識別圖像的流程代碼化,那么只好從頭跟人類學習了:通過識別大量的圖片來形成電腦的自我認知。在上周的分享中?CEO 李明強是這樣概括的:
最核心的原理與生物訓練的比較類似——應激反應,一種是獎勵一種是懲罰。做對了就強化他然后獎勵,讓他不斷強化重復自己對的行為;做錯的就去懲罰它,然后削弱他。
將上面一段換成技術名詞就是:有監督的深度學習技術。
當然首先需要給計算機裝備一個能夠不斷學習、自我成長的平臺:多重神經網絡。這個技術詳細解釋起來相當復雜,概括起來就是計算機會將原來單個、零散的分辨率數據結合起來,從不同的維度進行分析,比如顏色、相似度、局部特征等,同時與之前積累的數據進行對比,最終捕獲其中的規律,將圖像中的信息提取出來。

這是一個不斷成長的過程,與我們嬰兒時期父母親自教我們辨認圖像如出一轍。當然計算機的效率要高的多,同時還能夠獲得很多已經預先經過篩選的數據,讓“學習”過程具備了先天優勢。

所以在圖普科技提出的解決方案中存在這樣一個流程:如果計算機對于自己的判斷自信度達不到 99.5%,圖像數據就會返回給用戶本身,由人工進行二次判斷,不僅最大程度的保證了效果,同時還能從人給出的判斷結果對規則進行修正。李明強還給出了自己的看法:
人工復審這個方式是我們的首創。因為人工智能存在一個陷阱:你可以用人工智能很快的完成事情的 50%。比如很多 Demo 都能夠獲得很好的效果,但實用的時候又很不靠譜。
所以我們需要告訴用戶我們負責的 50% 確定能做好,我們不確定的 50%,你自己人工看一下。這樣問題就可以完美解決,當然未來完全不用人工也是我們的努力方向,這個準確率會像曲線一樣無限逼近,只要能夠越來越節省人力,我覺得我們的目的就達到了。
在問及視頻內容的興起,以及對圖普未來發展的影響時,李明強回答到:
人工智能只是手段、工具,視頻的爆發是必然的。
內容肯定是從簡單到復雜、從靜態到動態、從不可互動到互動性、從分時到實時這樣一個趨勢去發展的,所以移動視頻這個爆發不是一個暫時的現象。
以后互聯網里的內容很可能大部分都會以視頻語音這種人類最本質的溝通方法進行傳播,像文字這種類型的數據反而需要學習和理解。這就使得圖像識別成為新的信息鏈接關鍵點了。

傳統互聯網中的信息主要存在于文字當中,他們的鏈接方式主要是超鏈接,通過無數個超鏈接,這些內容形成了一個龐大的庫。但是落在圖像身上之后,超鏈接的錨點就丟失了,因為你沒有辦法直接知道兩個內容是否關聯、那些內容是關聯的。用李明強自己的話來說就是:“圖像識別技術在現在這個圖像和視頻時代,將會成為一項基礎服務。”

所有內容都需要各種各樣圖像識別的接口,從各種維度去分析圖像和視頻,這樣子才能夠構建以圖像和視頻內容為主體的互聯網 2.0 時代。
李明強還拿了他們一類非常典型的客戶——視頻網站/直播網站來舉例:利用圖普的技術對用戶的上傳的內容進行分析,然后將獲得的反饋與用戶連接起來。甚至于更夠成為精準廣告投放的根據。而圖普科技的價值就在于:
在即將到來的圖片和視頻內容時代,為企業提供各種連接能力和增值服務,構建圖片視頻時代的新互聯網業務模式。
當人類輸掉世紀圍棋人機大戰之后,中國涌現出了好幾個人工智能項目(包括同樣著眼于圍棋的人工智能項目“異構神機”),韓國還專門從政府中撥款扶持人工智能的產業發展。
對于為何人工智能最近呈現出一種全面爆發的態勢,李明強這樣回答道:
人工智能有三個關鍵,一個是數據、一個是計算能力、還有一個是算法,這 3 方面正好最近都成熟了。因為所有要素都到齊了,所以呈現出了一個大爆發的現象。
人工智能的最終目的是讓機器正開眼睛,去理解真實世界。

不過對于火熱的“新風口”——人工智能創業,李明強還是表示除了一種謹慎。他認為類似圖普的人工智能平臺已經比較成熟了,但仍然存在很多機會。
如果想利用人工智能這個角度切入創業,還是需要先從人或者行業的角度去出發。究竟有哪些東西可以通過人工智能的方式去優化,提高效率,降低成本。這樣才是符合商業路徑的。
?
2021-11-29 圖普科技發布了 《中國人工智能商業落地百強發布 AI視覺公司圖普科技入選》的文章
2021-11-29 圖普科技發布了 《圖普科技CEO李明強入選《財富》2018年中國40位40歲以下商界精英榜單》的文章