?
直播火了,網紅火了,但是伴隨而來的還有各種違規內容被暴漏在網絡上,近期部分直播平臺被網信辦高度關注,是什么原因導致直播平臺的不良信息“被泄漏”?目前視頻直播的審核方式有哪些?應該怎么看待直播的發展?雷鋒網旗下品牌活動“硬創公開課”邀請圖普科技CEO李明強做客線上專訪活動,和大家一起聊聊直播內容的監管以及機器學習應用的那些事。以下為訪談內容的干貨整理。
?
問題一|直播審核的現狀
1、直播平臺對直播內容(圖像)的監管存在什么困難?

第一、網絡直播規模龐大,人工審核成本高
2015年直播平臺接近200家,用戶數量已經達到2億,大型直播平臺每日高峰時間會有數萬個直播“房間”同時在線,用戶數可達千萬人次,如果全部用人工對1萬路視頻同時進行審核,為了保證“無漏網之魚”,至少需要數百人同時工作,并且每位工作人員需要配備1-2臺監控設備。
比如映客現在在審核上投入的人力就是800多人,占據了7000平方米的審核基地,24h都需要人力在審核。其實直播視頻內容的違規比例占比不高,僅0.04%,甚至更低,但為了做到“無漏網之魚”,企業需要投入大量的人力、物力和財力進行監管,運營成本壓力增加。
第二:直播流量聚焦夜晚,人工審核效率低
網絡直播白天跟晚上的“房間數”不同,目前,白天直播流量峰值是數百路視頻,晚上可以飆升到數千路。但“三班倒”的審核人員,夜晚疲勞,人眼識別精確度降低,出現誤判漏判的概率上漲,審核效率降低,難以達到網絡直播的內容監管需求。
第三:主播實名及直播實時驗證難
直播平臺注冊簡單,主播規模擴充迅速,如果實名驗證完全依靠人力審核,人力成本增加,難以做到真實有效的審核;再加上一些稍微大一些的直播平臺高峰期時期會有上萬人,如果每次主播直播時,都驗證是否屬于本人在直播,這又增加一部分人力成本,對于一些中小型直播創業企業而言,運營難度上升。
?
2、國家對于監管出臺的政策,對直播平臺有什么影響?
(1)從直播平臺本身來說,能夠促進直播平臺加強自律:例如部分直播平臺規定主播需實名驗證、滿18周歲;直播內容存儲時間不少于15天;所有直播房間內添加水印;對于情節嚴重的主播將列入黑名單、對直播內容進行24小時實時監管、要有專人負責等。
(2)從直播平臺的發展來說,對于大型企業的發展是比較有優勢的,相當于對直播平臺增加了一定的門檻,大型直播平臺對監管成本上升的承受能力比較高,中小型視頻直播平臺將在監控審查成本的提升環境下挑戰和壓力增大。
(3)從直播平臺的內容來說,依靠色情、暴力等擦邊球的“激進”內容來吸引用戶的道路越來越不可行,未來受歡迎有潛質的主播也許會更加偏向專業化,內容也會更加健康。
?
問題二|審核直播,機器能做什么?
1、審核直播的方式有哪些?
傳統的圖像審核方式主要有兩種:1、純人工審核:企業員工“三班倒”工作;傳統智能審核:人眼鑒別該圖片或視頻是否違規;2、傳統的智能審核:如識別色情圖像,基本是通過圖片RGB 值識別膚色比例;通過建模識別異常動作、敏感部位等。
但是這兩種審核方式都存在較大的漏洞,“三班倒”的人工容易導致審核效率低、誤判漏判多等主觀性問題;傳統智能識別色情圖片準確率低、經常誤報等。而且這三種審核方式對近兩年熱門的視頻直播審核需求更難以滿足。
現在主要是利用機器識別結合人工審核的模式進行審核,機器識別是依賴于人工智能領域最新的算法:深度學習算法,通過模擬人腦神經網絡,構建具有高層次表現力的模型,能夠對高復雜度數據形成良好的解讀。通過大數據持續訓練、頻繁的迭代,不斷提高鑒黃精確度,有效節省人工復審的工作。
?
2、審核直播內容,機器都做了什么?
(1)機器審核直播內容是否涉黃、違法
機器主要是用來專門判斷哪些圖片是色情的或者需要被過濾掉的違法信息,它在這方面的智能程度是可以替代人力的,經過機器審核后的數據,會分為“確定”和“不確定”的兩個部分,確定部分的可以達到99.5%的準確率,不確定的會誠實地告訴客戶,由客戶做出決斷。不確定的部分可能只占到審核總量的1~2%,原先需要100個人審核,經過機器識別服務,就可以只用1~2個人來完成了。
(2)機器識別的工作原理
目前機器學習的核心技術是深度學習,簡單來說,可以把深度學習理解為一個空白的人腦,這些大量的數據就是灌輸進來的經驗。深度學習是屬于機器學習的一個范疇,是最新的機器學習技術,其最主要體現在“深度”這兩個字。
深度學習可以理解為“深度機器學習“,普通或者傳統的機器學習在神經網絡的復雜度和層數沒有像現在的這么高,而深度學習層數和復雜度都加深了許多,因此才會叫做深度學習。
譬如說你想訓練一只狗,狗做對了你就給它激勵,做錯了你就懲罰它,那久而久之它就知道哪些是正向、負向的激勵,然后就明白自己哪些事情是自己應該去做的,對于錯誤的事情的想法也會逐漸被抵消。
當我們把大量的色情、性感、正常的樣本的屬性告訴深度學習的引擎, 然后讓引擎不斷學習,對他們正確的行為進行獎勵,錯誤的行為進行懲罰,當然這些獎勵和懲罰都是數學上的,最后空白的腦袋就會學成了一種連接的模型,這種模型就是為了鑒別色情與非色情而生的。
?
3、那么為什么之前機器學習沒有爆發,只是在這一兩年開始爆發?
因為機器學習需要同時滿足三個條件:
1、海量的數據(大家都知道互聯網發展那么多年,已經積累了大量的數據,并且數據量還在持續得上漲);
2、高性能計算的能力 (顯卡和GPU因為摩爾定律的發展,也已經有了一定的基礎);
3、深度學習的算法(在2012年被一次ImageNet的比賽,被業界廣泛注意到,隆重的登上了歷史的舞臺)
?
4、直播(圖片/幀)數量那么多,你們(圖普)能為他們做什么?
?
1)目前做圖像識別的有哪些公司,你們的競爭差異在哪里?
1、智能審核垂直領域的競爭對手主要是一些比較大的企業,譬如說騰訊優圖、阿里綠網,他們主要為自身平臺客戶提供審核服務,不屬于第三方,在產品和技術方面,差異主要如下:
第一:服務細致程度更高,準確度更高。圖普是國內最早利用人工智能算法做審核服務的,也是在在工程經驗、 服務專業度方面具有先發優勢,我們會根據不同的客戶、不同的細分領域,做單獨的模型調整以及算法細節的優化,專人服務對專門的客戶做專業的運營。圖普也是國內利用人工智能做智能審核的首倡者,很多定價的方法、歸類的方法、接口返回的定義都為后來的同行做出了一定標準和規范。
第二:識別接口更全面。除了提供審核之外,還有包括人臉、場景、物體、車、表情、人的年齡以及服裝風格等幾十種識別接口。客戶一次接入后,可以自行增減各種服務接口,只要一次接入,就可以滿足各種需求。
第三、使用更方便。客戶無需為了使用圖片識別服務而綁定任何云計算平臺,也可以通過 圖普入駐的七牛、UCloud、AWS、融云等知名平臺直接調用。
2、另外,也有一些圖像識別技術領域的同行:依圖、圖森、曠視科技、格靈深瞳、商湯科技等,大多數都是同為創業企業,但是產品線有所差異,他們主要是面向安防監控、金融、廣告。
?
2)你們都服務哪些直播平臺,舉些例子詳細解讀下
主要的直播平臺都是在使用我們的服務:映客、花椒、在直播、繁星網、秀色娛樂、風云直播、易直播、kk直播、17直播、悟空TV、么么直播等

3)具體做的服務都有哪些,如何幫忙做推薦、鑒別小黃圖、如何幫助企業規避政策限定?
目前直播服務主要分為兩種類別;
標準審核服務:包括鑒黃、暴恐識別、廣告識別、敏感人臉過濾等;
個性化定制服務:根據客戶的實際需求,定制專屬的圖像識別整體解決方案,譬如針對特定場景(抽煙、喝酒、打架、自殘等)的審核,人臉識別(主播顏值、風格、表情、年齡、性別、其他外在特征等)、場景識別(主播直播時所在環境)、物體識別(直播平臺中出現的物體)等各種圖像的識別。
?
比如在場景的精準推送上,可以基于人臉、場景、商品識別與分析技術,抓取視頻內的價值信息,實現最精準的內容匹配;在主播風格推薦上,可以自動分類不同風格的男神女神,根據用戶平臺資料和興趣,智能推送偏好類型;還可以建立顏值推薦系統,基于人臉識別,機器自動將高顏值主播推薦給用戶等。
?
問題三|直播很火,機器學習同樣很火
?
1、除了審核直播,機器學習還能做什么?(或者你們還在做什么)
除了幫助直播平臺規避內容風險,機器識別還可以通過以下幾個形式優化視頻直播平臺:
第一、通過圖像識別對主播進行分類,可以得出直播平臺的內容是否健康,或者給主播打上標簽,平臺是否需要培養和扶持一些比較稀缺、受歡迎的主播。
第二、深挖直播平臺的圖像識別云服務,例如主播正在做什么,唱歌、跳舞、抽煙、化妝、睡覺或其他。在將來全民生活直播,可以挖掘的信息量就更大,包括萬事萬物的識別,視頻內出現的車、手機、玩具或其他的,這都是反映了一個人的生活習慣、行為習慣,機器可以根據用戶偏好,智能推送相應直播視頻,幫助直播企業更好地進行用戶互動運營。
第三、直播的視頻內發出的所有圖像信息,包括人物、地點、活動、事物、背景等,在以人工智能技術作為基本支撐下,可以幫助用戶智能搜索所需信息,像KTV、餐廳、教室等,這些都是可以提高產品和用戶體驗,或者企業想將這些信息流量變現,均可按企業需求定制。
第四、基于人的智能搜索,幫助直播平臺把用戶和內容串連起來,把相似的主播串連起來,讓用戶找出自己想要的人物形象。例如用戶可以描述自己夢中情人的形象然后進行智能搜索,或上傳自己的照片即找出與自己最有夫妻相的主播等,這都是目前同質化直播平臺沒有做到的事情。
?
問題四|您對機器學習的未來趨勢怎么看?
大家從圖像讀出來的信息,同樣的,圖像識別機器都可以將其中的信息提取出來。機器學習在圖像和視頻上,就是做了替代了人工回答或者描述一張圖片或視頻的所有信息的這些事情。
另外,圖像搜索也是一種圖像識別的應用,比如在視頻網站上、在直播上找到跟自己相似、有夫妻相的人等做一些好玩的應用;“正經兒”的應用也有,比如說浙江輕紡城的電商城中對于布匹的搜索。
互聯網的本質就是兩個字“連接” ,而連接就是需要對內容的識別后才可以進行的,如果不對內容進行理解,連接的是關于什么內容是不知道的,或者說發了同樣內容的兩個人,他們的興趣愛好本應是連接起來的也沒有被連接。所以在互聯網進到視頻和直播的時代之后,對于內容的連接應該變得更加重要。

并且在線下領域,比如說機器人、智能家居、智能工業制造等各個領域,都會需要圖像識別和理解,它們就像機器人的眼睛一樣收集外界的信息。比如:
1、生活上,智能電視,如果電視識別到是你在電視前面觀看,就會自動跳轉到球賽;如果是你媽媽在觀看,就會自動調到家庭電視劇;智能服務機器人,看到你向他招手,他就會越過障礙向你走過來,會說“先生好,有什么可以幫到你?”你指著菜單跟他說你要某一個之后他就會自動給你下單,然后把菜給你端上來等;
2、商業應用上,一個電影院想統計看電影的人的性別、年齡、穿著打扮做用戶畫像或者通過看電影時的表情觀察用戶對電影的評價等都可以通過圖像識別來獲得分析;
安防和監控領域,除了抓獲犯人和違規車輛外,還有企業內部的大客戶管理方面的需求等;
3、智能工業制造上,在生產線上,是有1/3的工人是在質檢相關的事情,而不是制造相關的事情,這部分質量檢測就像是互聯網的鑒黃一樣,都是對生產內容的把關和檢測,也是可以被替代的等。
所以一旦展開,其實大家可以想象到有很多人工智能、圖像識別或者視頻識別的應用,就像“互聯網+”一樣,人工智能也會滲透各個領域中,形成“人工智能+”的發展模式。
人工智能不是小部分人壟斷在一個平臺、一個引擎,每個人都可以在自己的行業和領域發散思維,自己做的哪些事情可以通過人工智能來提高效率、建立先前沒有的交互體驗、降低成本等。
如果讓大家坐時光機跳到五年之后,也許大家會突然感到每一件東西都有一點臨近一樣,五到十年之后,大家可能會處在一個被人工智能包圍的世界里,比如說可能會有人工智能為你開車、為你打掃衛生,打開手機會有人工智能為你推薦新聞,會有人工智能為你管理健康、日程、衣食住行等各個方面。
雖然短時間內,人工智能還無法人類的情感之類的復雜、深刻或微妙的東西,但是五到十年之后,一定會出現大量的在垂直領域相對成熟的人工智能企業,會讓大家用上很多相對成熟的人工智能應用,會有很多的行業發生巨大的改變,讓我們一起迎接人工智能的時代。
?
?
您也可以關注我們的官方微信公眾號(ID:ctoutiao),給您更多好看的內容。
2021-11-29 圖普科技發布了 《中國人工智能商業落地百強發布 AI視覺公司圖普科技入選》的文章
2021-11-29 圖普科技發布了 《圖普科技CEO李明強入選《財富》2018年中國40位40歲以下商界精英榜單》的文章