2015年直播平臺接近200家,用戶數量已經達到2億,大型直播平臺每日高峰時間會有數萬個直播“房間”同時在線,用戶數可達千萬人次,如果全部用人工對1萬路視頻同時進行審核,為了保證“無漏網之魚”,至少需要數百人同時工作,并且每位工作人員需要配備1-2臺監控設備。
比如映客現在在審核上投入的人力就是800多人,占據了7000平方米的審核基地,24h都需要人力在審核。其實直播視頻內容的違規比例占比不高,僅0.04%,甚至更低,但為了做到“無漏網之魚”,企業需要投入大量的人力、物力和財力進行監管,運營成本壓力增加。
第二:直播流量聚焦夜晚,人工審核效率低
網絡直播白天跟晚上的“房間數”不同,目前,白天直播流量峰值是數百路視頻,晚上可以飆升到數千路。但“三班倒”的審核人員,夜晚疲勞,人眼識別精確度降低,出現誤判漏判的概率上漲,審核效率降低,難以達到網絡直播的內容監管需求。
第三:主播實名及直播實時驗證難
直播平臺注冊簡單,主播規模擴充迅速,如果實名驗證完全依靠人力審核,人力成本增加,難以做到真實有效的審核;再加上一些稍微大一些的直播平臺高峰期時期會有上萬人,如果每次主播直播時,都驗證是否屬于本人在直播,這又增加一部分人力成本,對于一些中小型直播創業企業而言,運營難度上升。
2、國家對于監管出臺的政策,對直播平臺有什么影響?
(1)從直播平臺本身來說,能夠促進直播平臺加強自律:例如部分直播平臺規定主播需實名驗證、滿18周歲;直播內容存儲時間不少于15天;所有直播房間內添加水印;對于情節嚴重的主播將列入黑名單、對直播內容進行24小時實時監管等。
(2)從直播平臺的發展來說,對于大型企業的發展是比較有優勢的,大型直播平臺對監管成本上升的承受能力比較高,中小型視頻直播平臺將在監控審查成本的提升環境下挑戰增大。
(3)從直播平臺的內容發展來說,依靠色情、暴力等擦邊球的“激進”內容來吸引用戶的道路越來越不可行,未來受歡迎有潛質的主播也許會更加偏向專業化。
1、審核直播的方式都有哪些?
傳統的圖像審核方式主要有兩種:
純人工審核:企業員工“三班倒”工作;
傳統智能審核:人眼鑒別該圖片或視頻是否違規;傳統的智能審核:如識別色情圖像,基本是通過圖片?RGB 值識別膚色比例;通過建模識別異常動作、敏感部位等。
但是這兩種審核方式都存在較大的漏洞,“三班倒”的人工容易導致審核效率低、誤判漏判多等主觀性問題;傳統智能識別色情圖片準確率低、經常誤報等。而且這三種審核方式對近兩年熱門的視頻直播審核需求更難以滿足。
現在主要是利用機器識別結合人工審核的模式進行審核,機器識別是依賴于人工智能領域最新的算法:深度學習算法,通過模擬人腦神經網絡,構建具有高層次表現力的模型,能夠對高復雜度數據形成良好的解讀。通過大數據持續訓練、頻繁的迭代,不斷提高鑒黃精確度,有效節省人工復審的工作。
2、審核直播內容,機器都做了什么?
(1)機器審核直播內容是否涉黃、違法
機器主要是用來專門判斷哪些圖片是色情的或者需要被過濾掉的違法信息,它在這方面的智能程度是可以替代人力的,經過機器審核后的數據,會分為“確定”和“不確定”的兩個部分,確定部分的可以達到99.5%的準確率,不確定的會誠實地告訴客戶,由客戶做出決斷。不確定的部分可能只占到審核總量的1~2%,原先需要100個人審核,經過機器識別服務,就可以只用1~2個人來完成了。
(2)機器識別的工作原理
簡單來說,可以把深度學習理解為一個空白的人腦,這些大量的數據就是灌輸進來的經驗。深度學習是屬于機器學習的一個范疇,是最新的機器學習的技術,主要體現在“深度”這兩字上。
深度學習可以理解為“深度機器學習”的意思,因為普通或者傳統的機器學習,在神經網絡的復雜度和層數沒有像現在這么高,深度學習就是一層一層的層數變多了,層數和復雜度都加深了許多,所以現在才會叫做深度學習。
譬如說你想訓練一只狗,狗做對了你就給它激勵,為它或者做錯了你就懲罰它,那久而久之它就知道哪些是正向、或負向的激勵,然后就明白自己哪些事情是自己應該去做的,對于錯誤的事情的想法也會逐漸被抵消。
當我們把大量的色情、性感、正常的樣本的屬性告訴深度學習的引擎,?然后讓引擎不斷學習,然后把他們做對的進行獎勵,做錯的就懲罰,當然這些獎勵和懲罰都是數學上的,最后空白的腦袋就會學成了一種連接的模型,這種模型就是為了鑒別色情與非色情而生的。
機器識別原理的圖像識別技術是如何像人腦一樣認識、學習圖像特征的呢?
其核心是深度學習理論(Deep Learning)。深度學習就是人工神經網絡(Artificial Neural Network,以下簡稱 ANN)。要了解 ANN,讓我們先來看看人類的大腦是如何工作的。
(人腦的視覺處理系統 via:Simon Thorpe)
上圖所表達的,就是人理解外界視覺信息的過程。
從視網膜(Retina)出發,經過低級的 V1 區提取邊 緣特征,到V2 區的基本形狀或目標的局部,再到高層的整個目標(如判定為一張人臉),以及到更高層的 PFC(前額葉皮層)進行分類判斷等。也就是說高層的特征是低層特征的組合,從低層到高層的特征表達越來越抽象和概念化,也即越來越能表現語義或者意圖。
深度學習,恰恰就是通過組合低層特征形成更加抽象的高層特征(或屬性類別)。然后在這些低層次表達的基礎上,通過線性或者非線性組合,來獲得一個高層次的表達。此外,不僅圖像存在這個規律,聲音也是類似的。
下面來看看深度學習的簡易模型:
傳統的神經網絡與深度神經網絡
深度學習的一個主要優勢在于可以利用海量訓練數據(即大數據),在學習的過程中不斷提高識別精度,但是仍然對計算量有很高的要求。而近年來,得益于計算機速度的提升、大規模集群技術的興起、GPU 的應用以及眾多優化算法的出現,耗時數月的訓練過程可縮短為數天甚至數小時,深度學習才逐漸可以用于工業化。
對于開發團隊來說,做該領域產品的困難在于如何獲取大規模已標注數據、集成有 GPU 的計算集群以及針對自己的項目調參數,團隊需要不斷地輸入新數據,持續迭代以提高機器識別準確率。
那么為什么之前機器學習沒有爆發,只是在這一兩年開始爆發?
因為機器學習需要同時滿足三個條件:
1、海量的數據(大家都知道互聯網發展那么多年,已經積累了大量的數據了);
2、高性能計算的能力 (顯卡和GPU因為摩爾定律的發展,也已經積累了很多年);
3、深度學習的算法(是在2012年被一次imagenet的比賽,被業界廣泛注意到,隆重地登上了歷史的舞臺)
?1)做圖像識別的公司有哪些,競爭差異在哪里?
在智能審核垂直領域的有騰訊優圖、阿里綠網,他們主要為自身的平臺客戶提供審核服務,不屬于第三方。
2)目前服務的直播客戶包括花椒、在直播、映客、17直播、悟空TV等等。
這里主要分為兩種服務類別:
標準審核服務:包括鑒黃、暴恐識別、廣告識別、敏感人臉過濾等;
個性化定制服務:根據客戶的實際需求,定制專屬的圖像識別整體解決方案,譬如針對特定場景(抽煙、喝酒、打架、自殘等)的審核,人臉識別(主播顏值、風格、表情、年齡、性別、其他外在特征等)、場景識別(主播直播時所在環境)、物體識別(直播平臺中出現的物體)等各種圖像的識別。
比如在場景的精準推送上,可以基于人臉、場景、商品識別與分析技術,抓取視頻內的價值信息,實現最精準的內容匹配;
在主播風格推薦上,可以自動分類不同風格的男神女神,根據用戶平臺資料和興趣,智能推送偏好類型;
還可以建立顏值推薦系統,基于人臉識別,機器自動將高顏值主播推薦給用戶等。
1、除了審核直播,機器學習還能做什么?
?除了幫助直播平臺規避內容風險,機器識別還可以通過以下幾個形式優化視頻直播平臺:
第一、通過圖像識別對主播進行分類,可以得出直播平臺的內容是否健康,或者給主播打上標簽,平臺是否需要培養和扶持一些比較稀缺、受歡迎的主播。
?第二、深挖直播平臺的圖像識別云服務,例如主播正在做什么,唱歌、跳舞、抽煙、化妝、睡覺或其他。在將來全民生活直播,可以挖掘的信息量就更大,包括萬事萬物的識別,視頻內出現的車、手機、玩具或其他的,這都是反映了一個人的生活習慣、行為習慣,機器可以根據用戶偏好,智能推送相應直播視頻,幫助直播企業更好地進行用戶互動運營。
第三、直播的視頻內發出的所有圖像信息,包括人物、地點、活動、事物、背景等,在以人工智能技術作為基本支撐下,可以幫助用戶智能搜索所需信息,像KTV、餐廳、教室等,這些都是可以提高產品和用戶體驗,或者企業想將這些信息流量變現,均可按企業需求定制。
第四、基于人的智能搜索,幫助直播平臺把用戶和內容串連起來,把相似的主播串連起來,讓用戶找出自己想要的人物形象。例如用戶可以描述自己夢中情人的形象然后進行智能搜索,或上傳自己的照片即找出與自己最有夫妻相的主播等,這都是目前同質化直播平臺沒有做到的事情。
1、凱文凱利說過:“很快人工智能就講變成一種日用品。智力會像電力一樣通過網絡傳輸。”?這意味著,人們將生活在被人工智能所包圍的世界里。
應用上,建立更加實用的學習系統,特別是開展多種學習方法協同工作的集成化系統的研究,機器學習將會深度融合到各個行業,人工智能+的時代正在開啟。
雖然短時間內人工智能無法理解人類的情感,在未來的五年內,人工智能技術領域的創業企業將會倍增,開發出一些功能性的應用,人工智能將在這些專業功能上輔助人類或直接取代人類。例如人工智能可以為你推薦新聞,幫你掃地,幫你駕駛汽車,甚至幫你管理健康狀況等。五年后,將會出現一批相對成熟的垂直領域的人工智能企業,人工智能與傳統企業的結合更加緊密。
2、技術上,發展和完善現有的學習方法,同時開展新的學習方法的研究,針對某個或者某類應用的特定的學習方法將會不斷涌現,數據管理得到更多的關注,數據的價值將繼續擴大,對于機器學習結果的解釋會逐漸受到重視。
編者注:以下是雷鋒網精選公開課上的幾個精彩問答分享——
1、利用機器識別是如何對直播中的非法視頻進行處理的呢?
通過間隔截圖,關鍵幀截圖之類的對視頻進行處理,因為監控是旁路的,而且可以做到峰值每秒5k并發,1s-2s返回,所以不會影響實時性。在檢測到了相符信息后,機器會實時反饋結果給客戶。至于是屏蔽、刪除或者禁播等方面的處理,主要是看業務方,可以選擇由機器自動處理或者人工介入。
2、圖像識別應用在智能醫療領域是怎么的?
圖像識別不僅在互聯網行業有應用,在其他行業的應用也是非常廣泛的。
比如在在智能醫療領域就有專門的小領域來專門做醫療影像處理,就像是可以通過患者的如肝臟的影像,去判斷有沒有癌變;如眼睛的影像,判斷有沒有白內障等; 更細的還有,到血管的圖像,去判斷有沒有阻塞等。另外在一些傳統領域上的應用,例如基于圖像搜索,可以幫助商標局建立商標庫,新注冊的企業就可以自動搜索是否相同的商標被注冊了;基于物體識別,可以協助鐵路交通部門自動檢測線路的電閘是否損壞、掉漆來判斷是否需要更換;還可以幫助電視臺做廣告監播,監測某個品牌露出的時間、某個時間上某個商標展示的時間長度等。
本文首發雷鋒網
2021-11-29 圖普科技發布了 《中國人工智能商業落地百強發布 AI視覺公司圖普科技入選》的文章
2021-11-29 圖普科技發布了 《圖普科技CEO李明強入選《財富》2018年中國40位40歲以下商界精英榜單》的文章