搜索引擎爬蟲可以檢索你的一切信息,并提供給其他用戶訪問。只不過因為robots協議的存在,搜索引擎爬蟲對自己的檢索范圍做了限制,所以它是善意的爬蟲。
隨著電子商務行業的崛起,比價的需求使得爬蟲有了更大的市場,不過大家爬別人的同時,并不喜歡自己被爬。畢竟被抓數據會使得自己在競爭中處于不利的位置,并且增加自身的服務器負擔,這無異于增大了運維成本。所以大家都覺得:寧叫我爬天下人,休叫天下人爬我。于是又誕生了反爬蟲。
后來“大數據”來了,無數互聯網從業者從中嗅到了商機。但是這些人手上并沒有大數據,于是他們開始用爬蟲拼命地抓取互聯網上的數據,然后做幾個PPT,用他們手中的數據去融資。
龐大數據的需求進一步激勵了爬蟲程序“野蠻成長”,這給整個互聯網帶來沉重的負擔。于是造成了“反爬蟲技術越強,就需要更多的爬蟲工程師”的循環……
某蟲(化名)是一家公司的爬蟲工程師,他這樣描述爬蟲工程師們的工作:“用蜜蜂來形容我們并不恰當,因為這種‘勤勞’并不被人喜歡。一般公司也不會說自己有爬蟲團隊。”
“雖然那些抓取的數據都是對外開放的,不存在侵犯隱私、網絡安全的問題,但那些服務器資源本來是為客戶服務,爬蟲作為不請自來、又吵又鬧的客人總是不受歡迎的,比起蜜蜂更像是蒼蠅,被到處驅趕。”
?
?
爬蟲工程師的工作
爬蟲最終目的是提供數據,爬蟲工程師要做的就是編寫一個程序,這個程序會自動抓取并保存下獲得的信息。但與數據分析不一樣,爬蟲工程師一般來說是按照別人的需要去抓取數據,至于數據價值的挖掘就和他們沒什么關系了。
但這工作并不像看起來這么輕松,不光要設法繞過別人的反爬措施,還要對抓下來的數據通過技術手段辨別真偽。并且別人的網站一旦改版更新,原有的爬蟲程序很可能就不管用了,必須得隨著別人的技術迭代不停地升級爬蟲程序,更不要說還有各個公司之間的爬蟲工程師們隔空“斗法”。
某蟲:“在論壇上聽到同行分享過這樣的故事:說的是他們與競爭對手斗得難解難分,有一天對方在反爬蟲的代碼里寫下注釋:‘天天加班,老板給你加工資嗎?’工作組的成員才幡然醒悟。隨后經過一系列的交流,雙方達成和解,當然這一切都是瞞著老板的。大家坐一塊談攏之后,工作就變得容易了很多,都給對方留了后門,方便對方爬自己,反爬蟲的工作就變成了一個形式。最多就是在交流群里抱怨:‘你們訪問頻率怎么這么高?’‘你怎么把接口給關了?’‘你們給的數據是不是有問題?’……”
現實中如果真能達成這樣的默契,那肯定是‘雙贏’的局面。雖然這個故事更多是逗趣的段子,但在爬蟲與反爬蟲的斗爭中,資源被無意義的浪費卻是不爭的事實。
當然,某蟲也從未擔心過自己會在未來某一天失去工作,對于公司來說,爬蟲工程師的意義卻依然十分重要,只是降低服務器負載這一點就足夠了。
爬蟲工程師眼中的數據
某蟲:“回想最初的自己,也是因為對唯數據論深信不疑才投身到爬蟲工程師的行伍中的。跟現在流行大數據一樣,只不過這股風吹到了社會大眾中去。在我看來,大數據的關鍵在于‘誰來用’,這比‘怎么用’更重要。”
爬蟲的最終目的是獲取數據,數據的用途按現在比較流行的說法大致有網絡輿情監測、客戶全景畫像、競爭對手分析、行業垂直搜索等,某蟲看來這還是沒跳脫傳統統計分析的范圍。
當然這些和一個基層爬蟲工程師沒什么關系,搶票、刷榜、找資源之類的項目才是大多數初學者最容易也最喜歡上手的方向,而且這些小項目確實會帶來不小的成就感,但是熱情衰退之后就發現數據這東西遠沒有自己想像的那么美好。
某蟲:“頭一次抓下來一些數據的時候,覺得自己太厲害了,像是自己洞悉了這個世界的所有秘密一樣。但隨著時間推移手里那些諸如招聘信息、某市租房信息、項目外包信息之類的數據漸漸塞滿了硬盤,到底也沒產生點經濟價值,刪除吧也舍不得,畢竟費了功夫的。”
“有次一個(女性)朋友發來消息說:我參加一個比賽,幫我投一下票。稍稍一分析那網站,好弱的反爬蟲意識,我樂了。惡趣味被激了起來,花了一會兒功夫用Python寫好代碼,多線程模擬投票刷起來。不多時,我朋友已經攀升至第一名。”
“很早以前在論壇上看到‘互聯網上50%的流量都是爬蟲創造的’時我還不相信,覺得夸張了。爬蟲是有用,但也不能有這么多需求啊。
隨著網絡媒體的發展,各種明星、網站流量造假的情況被媒體披露出來,背后的產業鏈逐漸浮出水面。聯系自己的工作內容想一想,現在反而覺得‘互聯網上50%的流量都是爬蟲創造的’確實夸張了,怎么可能這么少,說90%都是輕的。”
?
?
回頭看大數據
對于一般大眾來說,大數據紅利、數據價值化、信息化社會賦能這樣的詞匯顯得虛無縹緲,都是聽得多見得少。而從事數據采集的某蟲卻這樣描述:“技術到底只是技術,最后改變社會的,還是社會的行為主體自身。”
蟲:“早些時候,‘樂看免費小說’APP就是利用爬蟲非法抓取正規網站的資源然后免費提供給觀眾,再賺取廣告費。一個月賺了20多萬,這向大家展示了爬蟲技術蘊含的能量和反爬的重要性,當然他們很快被抓了并且賠更多的錢。”①
“而現在AI技術的發展讓爬蟲的攻防戰有種山雨欲來風滿樓的感覺,但談不上什么質變,就目前來說其核心還是商業行為。
比如:抓取汽車之家論壇發言,對各種車型的車主做畫像;抓取天貓、京東、淘寶用戶評價,了解產品在消費者心目中的形象;抓取58同城房產買賣信息,預估房價走勢;抓取大眾點評、美團網的用戶消費信息了解周邊變化的口味。
這些歸結起來都是在描述一個群體的特征,針對性的做出決策,也就是客戶全景畫像。雖然在網絡爬蟲系統的支持下,很多非數據持有主體也可以對客戶相關信息進行實時采集、監測,從而發掘潛在商機和預估風險。但這并不足以像‘工業革命’一樣改變社會。”
“2008年谷歌推出谷歌流感趨勢(Google Flu Trends)時,業內許多人都將其視為大數據淘汰傳統分析方式的一個標志。然而隨后的豬流感出現完全沒有被它預告,反映的事實就是技術的進步并沒有達到能改變社會的程度。很多人將現在的困境描述成數據非機構化、數據孤島或是大‘薄’數據,我也十分認同。
要解決這個問題,之前被經常用來勸告‘技術宅’的那句‘多出去走走’興許就是藥方。
舉個例子:前段時間看到新聞,大數據+尋親幫助了很多失散的家庭找回了親人,成效顯著。但進一步試想一下,如果政府部門的人口數據和醫院的數據都能相互‘多走動’,那被拐賣的兒童有沒有可能在第一次進醫院時就被找到呢?
也就是說,目前的大數據+尋親只是多了一種技術手段,而不是徹底顛覆了反拐賣模式。當然技術的積累肯定是發展道路上必要過程,但是也可以看出,所謂數據厚度、結構化的問題,還是只能交由社會來解決,技術始終只是為了促成了各個社會主體‘走到一起’。
所以我說,目前的大數據是‘誰來用’比‘怎么用’更關鍵。”








