原標題:【熱點】大數據驚魂14天:爬蟲“五宗罪”或為導火索
隨著數據市場逐漸規范化,數據確權提上日程,“去爬蟲化”將會成為趨勢。
文/ 松子同學
來源/ 新流財經
從9月6日到今天,整整兩周,應該沒有什么比互金行業大數據公司經歷的一切更驚險刺激的了。
業務一家接一家地暫停,相關人員一家接一家被帶走調查。中秋前夕,幾家頭部數據平臺被警方調查的消息一傳開,行業氛圍徹底炸開,關于頭部機構同盾科技和百融云創的流言甚囂塵上。
“最近我們確實觀察到,有一些爬蟲類產品的公司受到沖擊了,我們最早也有類似的產品,但在2019年上半年已徹底停止,同盾目前還有數量多達近百個的其他產品。”9月18日,新流財經聯系到同盾科技CEO蔣韜,針對最近的一系列流言,蔣韜給出了上述回應。
“我們定位不叫數據公司,叫數據應用分析公司。”蔣韜強調。
百融方面回應新流財經時,除了否認百融深圳分公司員工被帶走的傳聞外,拒絕評價此次數據行業大整頓,“我們不是做大數據、第三方數據的,”百融方面稱,“我們主要是做風控建模的,這跟我們的業務離得有點遠。”
雖然,去年9月,百融還將其官方微信和微博更名為“百融大數據”,強調其一直堅持的“人工智能+大數據技術深度賦能金融的行業使命”,截至目前,百融的官網上,也有著諸如信用評分,特殊名單,驗證服務等相關服務。
可見,不管自稱是提供數據源的服務平臺,還是提供數據應用分析結果的服務平臺,都在試圖脫離這場持續的風波。
顯然,跟去年那次大數據行業整頓不一樣,這次“雷聲大雨點小”的錯覺真的幻滅了。
爬蟲犯下“五宗罪”或為導火索
“為什么?”
這是這兩周數據行業整頓風波發生以來,大數據從業者問得最多的一個問題。對此,就連蔣韜也坦言,對根本原因“不清楚”。
很多人都想知道,紅線究竟在哪里,導火索是什么,自己有沒有碰到。
這場風暴,在魔蝎科技和新顏征信的高管同時被警方帶走當天,正式進入高潮。爬蟲數據的合規性問題,在經歷多年的灰色游離階段后,終于被提到了陽光下接受拷問。
爬蟲是問題嗎?問題當然不止爬蟲。
多位匿名的從業者猜測紛紛,從這些出問題的數據公司背后,總結出來“五宗罪”。
第一,給不合規的地下超利貸平臺提供過爬蟲服務。
第二,數據平臺爬取的通訊錄信息,最終協助了貸款平臺的暴力催收。
第三,數據平臺爬蟲數據的來源合規性,無法解釋。
第四,爬蟲技術取得的數據做了他用,通過信息買賣等方式不當獲利。
第五,爬取了一些敏感的、涉嫌侵犯個人隱私的數據,并超過合理范圍使用了。
這樣一看,大數據行業變故的前因后果,又不那么意外了。
這一年,一切跟互金行業撥亂反正的大基調相違背的行為,都可能是一家大數據公司覆滅的起因。侵犯個人隱私、違規買賣個人信息、暴力催收、“套路貸”,無一不是肅清行業的大鍘刀。
刀口舔血的日子過慣了,也有人會忘了這把刀有多鋒利。
誰為最默契的“分手”買單
從9月4號有盾喊停人臉識別服務開始,一連串服務金融機構的第三方數據公司,爭先恐后地停掉了跟爬蟲相關的一切業務,唱起了合規自查的高歌。
在這個階段,大部分數據服務機構都情愿少做或者不做生意,先保存度過這場風波的實力。
而第三方數據公司并不是唯一一方想“分手”的,這次甲方金融機構反應同樣迅速而強硬,堪稱默契。
9月17日,中秋節剛過,一位傳統銀行互金部總經理就提出,應果斷停止,或審慎開展與爬蟲類技術服務公司的合作項目,清查行業涉及外部資產數據源合作的所有資料,防止惡性事件傳染。
這個季節,到處都草木皆兵。
“爬蟲服務其實只有魔蝎、聚信立等幾家做得比較大,其他數據公司涉及得不見得很深入,受直接影響不大,但爬蟲被查這件事本身讓一切變得更敏感。”某數據公司的風控人士認為。
據了解,一般數據服務平臺的主業不管是提供數據源還是提供數據分析,數據源作為一切業務基礎,有三條主要渠道,被分別稱為一方、二方和三方數據。
第一,合作金融機構貢獻的申請數據,或者部分機構愿意提供的貸后數據;
第二,數據公司自己用爬蟲技術在公開網絡渠道獲得的各種數據;
第三,采購的合規渠道驗證類數據,或從支付公司、短信公司輸出的標簽類數據。
這些數據渠道在一家數據公司的權重比例,可能直接決定了其生存狀況和收入受此次爬蟲整頓風波的影響有多大。
數據公司的轉型難就難在,既沒有足夠的資本實力采購到合規渠道數據,也沒有足夠的技術實力突然從一個數據量玩家變成技術型玩家。
而很多金融機構難在,原來沒舍得投入大量成本組建自己的技術團隊,現在沒有實力去采購穩定的合規數據源,或隨便更改對舊數據源重度依賴的貸款產品。
最后,總有一些因為沒有數據源做不了業務的甲方,還有一些以爬蟲服務為核心盈利點的數據公司,撐不住單向的資金流出,為這場“分手”買單。
或將出現“去爬蟲化”趨勢
“坦率說,這個行業會越來越合規、健康,但不會消失。”蔣韜的看法仍然很積極,他的看法更長遠,盡管當下行業正常受到嚴監管的沖擊,但他認為,大數據和人工智能的應用,不僅對于金融,而是中國所有細分行業未來的發展方向。
按照蔣韜的看法,大數據應用應該是“基于越來愈多的海量數據的,合理合規的善意的應用”。
其實,爬蟲一類的數據服務作為技術,本身沒有好壞可言。
“行業早期,爬蟲技術解決了下沉客戶獲取數據的難度,滲透到了傳統金融機構服務不到或不愿服務的,央行征信和早期民間征信也覆蓋不到的人群,在當時,爬蟲算是有效解決問題的關鍵,而且避免了數據流通的污染,并且通過采集將數據運用在了貸中、貸后的場景中。”一位數據行業人士表示。
追溯互金行業的爬蟲服務,最初也是一種有善意的出現。
上述人士認為,問題在于,爬蟲后來影響了用戶體驗,也不可避免地導致了數據在一些灰色地帶流通。
但這一切的形成帶著市場初期的苦衷。
“因為各個‘大數據公司’的數據來源不同,基于自有場景里面獲取到數據的只有一部分,剩余的公司數據來源大都只能依賴于爬蟲技術,所以會成為很多數據公司早期,甚至是現在的核心。”
他認為,和當年的快播一樣,爬蟲的“工具無罪論”也是站不住腳的。實際上,使用工具的手段、目的、結果,都將被賦予責任。
而未來,隨著數據市場逐漸規范化,數據確權提上日程,“去爬蟲化”會是一個大的趨勢。
最近,被數據行業經常提起的“聯邦學習”方式,可能在不觸碰紅線的情況下解決信息孤島問題,能在數據不共享的情況下完成共同建模。
同樣不觸碰紅線的情況下,一些數據分析技術、個人信用評分類的服務,可能是未來互金行業的數據服務機構更可行的出路和方向。
END
免責聲明:轉載內容僅供讀者參考。如您認為本公眾號的內容對您的知識產權造成了侵權,請立即告知,我們將在第一時間核實并處理。返回搜狐,查看更多
責任編輯: