如果你有關注《長安十二時辰》,那你一定會知道“大案牘術”。不過,你知道“大案牘術”和我們常提到的大數據有什么區別嗎?
?
?
現在《長安十二時辰》正在優酷熱播,發現這個連續劇跟大數據還有點關系,好多文章就以大數據為題進行了詮釋,比如《<長安十二時辰>中的IT技術》、《<長安十二時辰>,穿越版的大數據泄露事件》、《劉雨欣:唐代查案用“大數據”,<長安十二時辰>里的大案牘術可行嗎?》等等,而且不止一次提到了一個概念——大案牘術。
?
?
那么“大案牘術”是什么呢?
答案很簡單,就是我們天天掛在嘴邊的“大數據”,劇中靖安司徐賓的“大案牘術”其實就是以超強記憶力對長安各部門辦事文書進行記憶、歸納、整理,形成“大唐數據庫”,進而形成預判和解決方案。無論是破案調查找人,甚至預言未來。
案牘是中國古時候官府的公文案卷,大案牘更是凸顯重要的國家紀要,術則是代表方法能力。堪比當今的大數據分析應用能力。
?
?
開篇劇中易洋千璽扮演的李必犧牲了一名暗樁崔六郎,又從大牢中提出死囚張小敬,為解決此次長安大劫,答應如果能破獲此案,便免去他的死罪,兩人都是“大案牘術”選出的最佳人選。
?
?
怎么選的?
在龐大的數據庫中,添加目標的行為與特征等標簽,分析出其喜好與習慣。“熟知當地黑白道規矩”,三教九流皆有交集”,多種語言能力,“且有好勝心、有牽掛”、不想死”。這不就是大數據標簽體系嗎?
現代意義上的大數據,跟連續劇里的大數據有密切的聯系,比如都需要基于收集的數據進行客戶的洞察和未來的預測,但無論是從采集的數據規模、實現分析的方法、使用的算法及使用的工具上都具有天壤之別,這些往往決定了現代大數據的本質。
筆者就用類比的方式,講講這部劇里的唐代原始大數據與現代大數據的區別,畢竟有比較就有鑒別,看看熱文牽強附會大數據一把無可非議,但如果能借此機會學習下什么才是現代意義上的大數據,可能更有意義。
一、什么是大數據
1. 現代大數據
指無法在一定時間范圍內用常規軟件工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。
2. 唐代大數據
以檔案登記為基礎,無論是百姓家添丁新喪、婚配嫁娶之事,還是各個衙門機構間的人員往來和調動,甚至連錢糧貨物流水,都會由錄入吏進行登記。
兩者的區別就在于現代意義上的大數據,更多依靠的是海量的機器和傳感器無時不刻的自動記錄數據,而唐代大數據僅靠官吏進行手工錄入,其不僅受限于人員數量,而且受限于有限的時間,這決定了其數據量的上限。
二、大數據的特點
1. 現代大數據
一般講有4個特點。
一是數據體量巨大。
比如百度資料表明,其新首頁導航每天需要提供的數據超過1.5PB(1PB=1024TB),這些數據如果打印出來將超過5千億張A4紙。
二是數據類型多樣。
現在的數據類型不僅是文本形式,更多的是圖片、視頻、音頻、地理位置信息等多類型的數據,個性化數據占絕對多數。
三是處理速度快。
數據處理遵循“1秒定律”,可從各種類型的數據中快速獲得高價值的信息。比如在用戶瀏覽購物的時候進行商品的個性化實時推薦。
四是價值密度低。
以視頻為例,一小時的視頻,在不間斷的監控過程中,可能有用的數據僅僅只有一兩秒。
2. 唐代大數據
完全走向了反面。
一是數據體量極其有限。
有資料證實,到目前為止,人類生產的所有印刷材料的數據量僅為200PB,唐代作為全世界一個國家中的一個朝代一個時期能記錄的數據量更是微乎其微。
二是數據類型非常單一。
大案牘術僅僅以檔案登記為基礎,也就類似于現代的戶口登記數據。
三是處理速度很慢。
你看靖安司那么多人忙這忙那,因為卷宗到處都是,需要某個數據得靠人工一個個去找,要推理某個事情,還要靠人員超級的記憶力和邏輯推斷力,脫口而出的數字雖然代表敬業,但顯然跟現代的機器處理速度不可同日而語。
?
?
四是價值密度相對高。
由于處理能力有限,靖安司只能記錄最重要的數據,戶口登記數據即使在現代也是重要的數據類型之一,因此唐代大數據的價值密度肯定是很高的,否則就沒有斷案的可能了。
三、大數據的分析
大數據已經不簡簡單單是數據大的事實了,而最重要的現實是對大數據進行分析,只有通過分析才能獲取很多智能的,深入的,有價值的信息。
1. 現代大數據
大數據的屬性,包括數量,速度,多樣性等等都是呈現了大數據不斷增長的復雜性,因此不大可能靠人去直接面對大數據進行分析,大數據的分析方法在大數據領域就顯得尤為重要,可以說是決定最終信息是否有價值的決定性因素。
先說說可視化分析。
大數據分析的使用者有大數據分析專家,同時還有普通用戶,但是他們二者對于大數據分析最基本的一個要求就是可視化分析,因為可視化分析能夠直觀的呈現大數據特點,非常容易被讀者所接受,就如同看圖說話一樣簡單明了,就是你平時接觸的PPT軟件,也可看成一種可視化分析軟件,更別提專業的商業智能(BI)軟件了。
?
?
再說說算法。
大數據分析極度依賴數據挖掘算法,各種數據挖掘的算法基于不同的數據類型和格式能更加科學的呈現出數據本身具備的特點,也正是因為這些被全世界統計學家所公認的各種統計方法才能深入數據內部,挖掘出公認的價值,包括貝葉斯,SVM,回歸,決策樹,神經網絡,深度學習等等。
比如阿爾法狗基于深度學習算法來實現價值網絡(value network),可以預測棋盤上不同的分布會帶來什么不同的結果,因此,現在機器在圍棋上戰勝人類已經不是事了。
?
?
2. 唐代大數據
《長安十二時辰》大案牘術這么描述辦案分析方法:
“等到辦案時,靖安司只需調閱相關卷宗進行預判和推測,便可以從數據與信息間發現諸多關聯,進而找到破案的線索“,這里提到的預判、推測、關聯都是靠人,徐賓似乎成了分析之神。
但徐賓在分析上其實是個光桿司令,沒啥輔助工具。
唐代既沒有電腦,更不可能有可視化軟件,徐賓的分析推測首先要讓李必理解聽懂,但人對于聽的接受能力遠沒有看強,而同樣是看,人對于圖像的理解力比文字好太多了。
徐賓缺乏很好的洞察數據的手段和解釋數據的方法,因此如果要用圖形示意,估計就只能這么靠手工畫吧,效率之低可想而知。
?
?
徐賓不可能用到現代的算法,做預測或判斷靠的只能是自己的邏輯推理能力,但里面的可疑人物之所以能被推理出來是因為徐賓面臨的只是小數據,涉及的要素不夠多,關系不夠復雜而已。
人對于二三維變量的關系還是能做些判斷,但一旦數據維度非常多,比如要你基于十維的數據找相互之間的關系,人的腦子估計就不夠用了,這個時候就要靠機器算法。
?
?
比如Palantir是美國著名的獨角獸反恐公司,Palantir的主要牛逼之處是在于可以多維度將不同來源的數據進行關聯,特別是對非結構化數據的關聯分析。
比如郵件、社交網絡信息、網絡日志信息,從而挖掘和展現出未知的相關關系,為決策提供依據,其在本拉登的抓捕,麥道夫 “龐氏騙局”的發現中起到至關重要的作用。
?
?
唐代第一圍棋國手王積薪在那個時候可是所向披靡,但如果穿越到現代跟柯潔下,不知道要被讓多少個子,而柯杰對阿爾法狗的勝率可是0,具有強大算法能力的阿爾法狗在圍棋界是神一樣的存在。
當然,現代大數據和人工智能算法目前的“通識”能力還是有限的,其對于環境的復雜性非常敏感,只能專一的做某件事,能夠把某件事做到極致,比如純粹的下棋,人臉識別,商品推薦等等。
假如涉及到復雜的決策環境,比如在無邊界,數據完整性不夠的情況下的斷案,那福爾摩斯、徐賓依靠人類進化而來的的邏輯大腦可以做出更為明智的判斷。
但一旦判斷方向準確,算法就可以起到強大的輔助作用,比如DNA檢測等等,遺憾的是,徐賓在那個時候只能孤身作戰,如果徐賓穿越到現代,一定可以依靠算法的協助讓其決策水平更上一層樓,兩者是相輔相成的。
四、大數據的技術
從數據采集看,現代大數據的數據采集依托專業的ETL工具,將分布在各處的異構數據抽取到臨時中間層后進行清洗、轉換、集成,最后加載到數據倉庫或數據集市中,成為數據挖掘的基礎,而且實時性越來越高。
而唐代大數據的采集是這么記錄的:“各縣配備錄入吏,該縣百姓的添丁新喪、婚配嫁娶、買賣奴婢,衙門之間的人員往來、人事變動、車馬糧草、征收賦稅等一切事務,將被錄入吏一一查證,悉數記錄到案牘中。”
最大特征就是靠人工紙質記錄,效率之低可想而知,比如每個人記錄的標準可能不統一,因此無法保證數據質量,比如在錄入的時候無法快速的判斷重復,無法方便的實現紙質的案牘修改功能,又比如寫錯了怎么辦等等。
從數據處理看,現代大數據用分布式架構來解決海量數據的計算瓶頸,也就是能夠自動把一個針對海量數據的計算任務拆成多個子數據任務,然后多個子任務并行計算,最后再自動匯總,這樣就可以實現處理速度的飛躍。
而唐代大數據的數據處理估計還是以人工集中式的為主,比如徐賓要統計某天進入長安城的人數,肯定得安排一個下屬找到對應的冊子去一個個數吧,而這個數的過程是無法交給不同人處理的,如果要分布式處理,則也是非常麻煩。
?
?
首先,要有人負責把本子平均拆成多份,其次,根據份數安排對應的人分別去統計,最后,還要有人匯總記錄各人統計的結果,如果某個人能力差點統計的慢一點,所有人都要等那個人的結果,總體耗費的時間可能更長,這個管理成本是非常高的,而現在大數據分布式處理能基于算法自動高效的完成這種資源分配及協調問題。
從數據存儲看,現代大數據不僅能基于關系型數據庫存儲類似名字,籍貫等結構化數據,也能用NOSQL等數據庫存儲圖像,視頻等非結構化數據,這些數據存儲于數據庫中非常方便檢索,而唐代大數據則只能存儲于紙質書中,存儲的數量還受限于紙張印刷量。
大家也看到了,因為大案牘術記錄卷宗需要大量的紙張,但唐朝的藤紙相當匱乏,所以徐賓將每月的俸銀都用來買書做造紙坊了,可見唐代要存儲數據是多么不容易的事情啊。
?
?
五、大數據的應用
唐代大數據展示給我們最大的應用就是“大案牘術”,也就是在司法、安全、民生領域基于大數據做決策判斷,為社會穩定做出貢獻,但現代大數據的應用領域可遠遠超越了這個范疇,而且重點集中在互聯網、金融等新興領域,下面舉一些例子:
在互聯網領域,我們每天接受到的廣告就是最大的一類大數據應用。
?
?
?
?
在金融領域,風控大數據始終是應用的焦點,比如大家接觸到的芝麻信用分算是其中很小的一個應用。
?
?
當然還有醫療行業的電腦醫生、交通行業的自動駕駛、工業上的個性制造、體育行業的運動員大數據分析、能源行業的用電預測、通信行業的客戶挽留等等,大數據已經滲透進每個人的生活。
以上筆者以《長安十二時辰》為例子,簡單的對比了下現代大數據與唐代大數據的區別,涵蓋了大數據概念、分析、技術、應用等各個方面,但現代大數據與唐代大數據其實是沒有可比性的,因為基礎完全不一樣。
現代大數據是建構在近現代科技基礎上,特別是信息時代的新數學和新方法論、電子計算機、互聯網、通信網等等,筆者所以這么比較,只是為了更方便的說清楚大數據的一些概念。
當然如果換個角度,脫離“術”的范疇,那《長安十二時辰》中有兩點大數據的做法是發人深省的,也是當前大數據發展中的難點:
第一,唐代建立了靖安司這個集中化的數據管理組織。
靖安司為唐玄宗設定的統攝整個西都賊事策防的機構,凌駕于諸署之上,負責收集來自全國各地的信息收集和傳遞。靖安司內有個龐大的庫房,堆積著從三省六部、一臺九寺五監的機密要件 。這不就是一個全國性的數據倉庫嗎?
?
?
孤立的一個數據的價值是極其有限的,大數據必須打破孤島,集中起來才能辦大事,所謂1+1>2,比如徐賓做推測是要綜合多個要素相互驗證才能使得做出的結論合情合理,因此,打破數據邊界是現代數據管理者的一個使命!
第二,人員檔案、用戶行為數據搜集的完整性令人瞠目。
靖安司建設了相關應用,例如人員檔案。徐賓在被懷疑后,就被用大案牘術推演了個人戶籍、軌跡、行為信息。他的出身、房產變動、妻子的勞動關系、異常行為等等都記錄詳盡,被李必查了個底兒掉。
其中記錄的信息之詳盡,包括你去哪個酒吧喝的什么酒、與誰喝酒、誰付的錢這些,恐怕放在今日,都難有人能做到這么詳實的記錄,堪稱人口管理工作模板。
?
?
顯然上述描述過于夸張了,但這似乎是現代大數據所希望能達到的境界,我們也許遲早會處于一個現代天網之下,這到底是好事還是壞事呢,就看管理者的智慧了吧!
《長安十二時辰》在提供給大家賞心悅目的劇情和華麗的畫面之余,如果能普及點大數據知識,也算是很有意義的事情,歡迎大家閱讀評論!
作者:傅一平,來源:與數據同行








