
張世明 博士?
貝格邁思科技創始人/執行董事
九三學社中央科技委員會委員
香港大學圣約翰學院榮譽教授?
“萬物皆數,唯數學洞察一切,計算使能萬物。”這是第五代國產分布式智能數據庫AiSQL開拓者、貝格邁思創始人張世明博士對于當下和未來數字社會的認知與思考。張世明博士認為,未來所有需要解決的現實問題,最終都會回歸到相應的數學問題。?
而數學問題自然要用數學思維去解決,這也是張世明博士成立貝格邁思的初衷。?
通過探索新硬件技術革新和軟件技術進步,利用數學優化算法模型,研發國內首款內存驅動架構的自適應異構智能計算引擎,全力打造第五代分布式智能數據庫AiSQL,真正踐行分布式數據庫核心卡脖子技術的國產化替代。?
張世明博士畢業于香港大學計算機科學系,先后在德國慕尼黑大學LMU從事研究工作,曾任職于華為研究院諾亞方舟實驗室和百度研究院大數據實驗室,一直深耕大數據領域核心技術,在分布式系統和大規模機器學習系統等領域具有豐富的研發和應用經驗。?
“作為癡迷的技術極客,做一些有突破性的創新工作,是我們對技術的情懷,也是我們的使命感所驅”,張世明博士感慨地說。?
根植于“Bigmath”的貝格邁思,是一家為應對即將到來的快數據不斷增長的實時分析決策需求所面臨的諸多難題,特別是如何真正實現大規模數據的快速、實時優化分析處理,提出了自己的破解之法、解決之道——自適應異構智能計算引擎,打造新一代自適應數據智能平臺BigInsights的創新型公司,定義未來智能數據時代分布式智能數據庫AiSQL的產品格局。?
?
數據井噴,追趕“快數據”?
我們正在快速邁進數據智能時代的新紀元,未來幾年全球數據規模將繼續不斷增長,將讓現有的數據規模相形見絀,這些數據將帶來獨特的用戶體驗和眾多全新的商業機會。?
張世明博士深信,“快數據”將是繼“大數據”之后,下一個十年顯著的時代特征,快數據的力量必將給我們的生活帶來幾乎無限的變化。?
?
首先,數據規模會得到爆炸性增長。隨著5G、物聯網、大數據、人工智能、云計算等技術產業的快速發展,世界萬物互聯、智能感知,緊密相關的數據高速產生,全球數據量正迎來了爆發式增長。“大數據”躍然成為了“快數據”,全球數據正以難以置信的速度和體量產生。?
?
IDC在《Data Age 2025》的報告中預測,從2018年到2025年,全球數據總量將從33ZB(1ZB=10億TB=1萬億GB)急速增長到175ZB,比2016年產生的數據量增加了十倍。其中,只有不足五分之一的數據會真正得到實際應用,屬于數據分析的全球數據總量將會毅然增長至原來的50倍,而觸及數據庫管理分析的全球數據總量將會猛增至原來的100倍。?
2020年,全球數據量已達到44ZB。其中,單在中國產生的數據量就達8ZB,約占據全球總數據量的五分之一。?
與此同時,數據增長的速率正在不斷加快,數據中心承載的壓力也越來越大。其中,快速增長的實時數據的比例會大幅提升,到2025年,全球近30%的數據將是實時的。?
其次,數據復雜度在不斷提升。據IDC估計,到2025年,非結構化數據占企業數據的80%以上,并且還將以每年55%的速度持續增長,人工智能和深度學習催生對海量非結構數據分析需求。這些非結構化數據在賦能應用之前,必須經過結構化處理后通過數據庫進行調用、處理和分析,才能讓數據資產化并賦能智能化應用,助力企業發展。?
最后,從數據到決策需要快速響應。無論是商業應用還是社會治理,數據實時價值日益凸顯,如何快速從海量實時數據中做出即時優化決策的需求不斷增加。實時數據分析具有實現優化決策的能力,促進對關鍵事件更快速的響應,并且通常實時挖掘和捕獲數據價值,從而大大提高業務洞察力。?
面對高速產生的數據,越來越多的用戶需要更加實時、更快速地進行數據分析、優化決策處理,以捕捉即時數據洞察,如量化投資、金融欺詐、線上交易驗證、ICU監測、網絡安全識別、電子競技、風險管控、應急指揮等等。?
另外,讓人人都有自己的數據庫將成為現實。將來像擁有Email一樣,每個人都會需要擁有自己的數據庫,用于管理個人重要數據,真正做到‘我的數據,我做主’。? ??
張世明博士強調:“數據爆炸正在驅動硬件、軟件及數據服務等市場前所未有的經濟增長。快數據時代,實時分析與優化決策將是數據分析的重點。傳統數據庫正面臨著不斷增長的數據規模、復雜數據和實時分析、優化決策的多重挑戰”。?
顯然,數據爆發、復雜度提升以及不斷增長的實時分析、優化決策應用需求將成為數據庫市場長期不斷增長的基本驅動力。另外,孕育面向個人數據庫的需求,將會有無限的市場空間。?
多年來,核心的數據處理硬件架構仍基于經典的馮·諾依曼體系結構,即指令與數據混合存儲,程序執行時,CPU在程序計數器的指引下,線性順序地讀取下一條指令和數據,以計算器為中心,這就注定了其本質特點是線性或是串行性。?
簡單來說,核心在于“串行”二字,存儲器是馮·諾依曼體系架構的核心,CPU在每一次執行命令前,都要從存儲單元中讀取數據,執行一次計算任務,就要讀取一次,執行十次計算任務,就要讀取十次。?
如此一來,馮·諾依曼體系結構的弊端由此顯現,即業界顯知的內存墻問題,不僅需要花費大量功耗在數據頻繁讀取上,更致命的是:慢。?
如果處理速度過慢,則無法滿足快速增長的大數據實時分析、優化決策處理的需求。面對快數據,數據庫面臨更大的挑戰,需要解決三個基本問題:一,存儲和管理越來越大的數據承載量;二,將孤立的數據孤島連接起來;三,針對大規模數據進行實時分析。?
張世明博士指出,我們亟需對傳統數據庫進行技術架構革新,分布式數據庫正在經歷變革,如新型HTAP和NewSQL數據庫,以應對不斷增長的大數據實時分析、優化決策處理的諸多挑戰,如融合應用場景、大體量、高吞吐量、高并發、復雜業務處理等顯著特點。
?
未來將是智能數據庫AiSQL的市場,她將真正實現人工智能AI與數據庫的無縫融合。AI賦能數據庫的自治優化管理的同時,也可以通過SQL這種簡單的數據庫標準語言實現AI算法的優化調度,讓人工智能應用開發變得更簡單易用。?
?
從零架構,打造自適應異構智能計算引擎?
后摩爾時代,為突破以CPU為中心的馮·諾依曼架構的技術瓶頸,讓CPU、GPU、FPGA或其他各種智能計算芯片xPU一起協同計算,發揮不同處理器各自并行數據處理能力的優勢來共同完成計算任務是關鍵。?
為達到此目標,張世明博士及其創新團隊踐行了一條全新的解決之道,以適應內存驅動架構的自適應異構智能計算引擎為基礎,融合機器學習框架和高速網絡,打造新一代自適應數據智能平臺BigInsights。?
?
自適應異構智能計算引擎真正實現數據實時分析、優化決策處理,是貝格邁思區別于其它同類型公司的基礎。?
傳統數據庫都是以CPU為處理核心,或有部分采用GPU或FPGA做為協處理器加速數據分析任務,但其并沒有把數據庫的計算任務下放到不同的處理器去進行適配優化處理。其結果是在不能進一步提升數據處理速度的同時,還浪費了不同處理器各自的數據處理優勢,即沒有發揮不同處理器的各自所長。?
一個大的數據分析任務分配到計算機的內部,會解析成為多個不同的子計算任務,這些子計算任務之間存在著不同的計算模式和關聯關系。?
張世明博士及其創新團隊可以通過這些計算模式和關聯關系進行不同計算任務的微調度,把相應的計算任務分別自動適配到各自適應的CPU、GPU、FPGA或其他各種智能計算芯片xPU上。?
這就使得,原先需要等待CPU一步一步地串行完成的任務,現在針對現代CPU、GPU、FPGA或其他各種智能計算芯片xPU的不同并行數據分析能力,分解成不同的任務下放下去共同完成,將“單一處理模式”變成了“多重處理并行”,這即是所謂貝格邁思特有的自適應異構智能計算引擎。
?
區別于其他競品公司需要開發相應的專用系統來實現此,貝格邁思的技術領先之處即在于直接通過內置的自適應編譯引擎即可實現。?
這樣結合諸多軟硬件技術進步從零架構的新一代分布式智能數據庫AiSQL--第五代數據庫,不僅速度可以領先國際主流內存計算平臺Spark超百倍,還可實現快數據復雜業務的實時分析處理,并實現在線系統彈性擴展、容災備份、多副本數據一致性同步、跨數據中心數據異步同步、自動數據遷移、高可用安全計算等新型分布式智能數據庫所需的高效功能。?
這種創新型的思想和落地實現是由以張世明博士為核心及張潼教授領銜的創新團隊歷經多年合作研發而成,團隊聚集了多位海歸博士及國內外著名企業的大數據與機器學習專家。他們熟識機器學習與人工智能應用的全流程技術要素,在大規模機器學習和高性能分布式系統研發方面有著豐富的經驗。?
另外,貝格邁思已獲得深圳科創委創新資金和深圳發改委創新產業基金以及多項人才專項資金支持,并通過了國家高新技術企業認定。
?
五大核心技術助力應對快數據挑戰?
據張世明博士介紹,支撐起貝格邁思異構自適應智能計算框架的,主要是五大核心技術:壓縮可檢索、加密可查詢、原生虛擬化、內存驅動架構和遠程內存訪問。?
壓縮可檢索對數據高效壓縮存儲并提供高效查詢、加密可查詢實現數據的可運算加密安全協議、內存驅動架構以融合內存為中心提供存內數據計算、原生虛擬化充分發揮新型硬件革新的能效比和遠程內存訪問技術實現內存架構的遠程內存數據訪問,全面提升系統性能,是貝格邁思自適應數據智能平臺BigInsights的基礎技術。?
?
壓縮可檢索,面對較大的數據量,一般都會進行壓縮,而傳統技術壓縮處理后須解壓縮后方可進行計算。貝格邁思則采用獨特的數據結構,實現優于普通壓縮技術十倍的高效壓縮比,實現最小信息存儲,并在高效壓縮數據上直接實現微秒級的實時檢索,減少延遲,節約成本的同時,更大提升數據處理效率。?
加密可查詢,數據上云是勢不可擋的發展趨勢,但保證數據安全是關鍵。傳統方法即是將數據加密后上云,但是數據加密后往往難以運算,達不到數據上云的目的。貝格邁思使用最新加密可計算的安全協議,實現用戶可直接在加密數據上的高效查詢分析,確保用戶數據的全程加密安全可信計算,從根本上防范數據安全。?
內存驅動架構,以內存為中心的體系架構,而不同于傳統的以CPU處理器為中心的馮·諾依曼架構,即多個異構處理器共享統一的內存池和自適應異構智能計算引擎運行環境,實現真正大內存計算環境,有效防止多處理器緩存數據頻繁遷移而導致的井噴效應,突破馮·諾依曼架構的內存墻計算瓶頸,打造基于內存驅動架構的自適應異構智能計算一體機,滿足數據實時計算所需的強大算力需求。?
原生虛擬化,為充分發揮新型硬件技術革新的高性能,突破操作系統的性能調度限制,讓數據分析引擎實例擁有專有的硬件設備資源,可以透過操作系統直接管理和操作這些專有的硬件設備,保證實時計算所需的硬件資源核心,同時保證不同數據分析引擎實例的安全隔離,實現裸機設備的輕量級實時虛擬化。?
遠程內存訪問,要實現大規模數據的內存實時分析,諸如實現PB級數據的內存實時分析,則需成千上萬的計算機組成網絡集群,協同進行分布式內存計算方可完成,畢竟單臺計算機的內存資源是有限的,不可能將PB級數據裝入其內存。從而,實現多臺計算機間的內存互訪成為問題的核心。基于內存語義原語的遠程內存訪問協議,實現分布式內存智能計算框架,是貝格邁思自適應數據智能平臺BigInsights的基礎。?
目前,貝格邁思擁有的30多項核心專利都是圍繞以上五大核心技術延伸而來。張世明博士表示,這五大核心技術,單獨拎一個出來都可以做出一個千億級市值的產品,這也是未來貝格邁思垂直拓展的方向。?
立足自主創新,突破智能數據庫卡脖子技術?
進入快數據時代,我們生活中小到柴米油鹽醬醋茶,大到房、車買賣交易,更有甚者你每時每刻的行蹤、評論的每一個新聞、發送的每一條信息、消費的每一份賬單以及每一筆資金的動向,都被事無巨細地記錄在數據庫中。?
數據庫與芯片和操作系統被視為現代信息技術的三大核心基礎技術,是各行業核心系統正常穩定運行的基礎,是數據分析優化處理服務的核心引擎。然而,在金融等關鍵行業的核心交易系統中,我國絕大部分數據庫均被Oracle、IBM、SAP等國際巨頭所壟斷,系統的一切運行只能遵循“外國邏輯”,同時許多核心數據信息安全面臨巨大風險。?
張世明博士指出,數據庫被視為基礎軟件皇冠上最耀眼的明珠,快數據時代的技術高地,是各大科技企業巨頭(如谷歌、亞馬遜、微軟以及阿里、騰訊等企業)必爭的技術核心。?
數據庫已歷經40多年的技術演進,從單機數據庫到MPP分布式數據庫再到云數據庫以及NewSQL數據庫的技術變遷。然而,國產數據庫卻一直相形見絀、望洋興嘆,成為被國外卡住的關鍵核心技術之一。?
?
近幾年,在國產替代背景下,數據庫的發展近幾年備受矚目,國產數據庫如雨后春筍般涌現。然而,國產自主可控創新研發的數據庫產品,卻鮮為人知,甚至亂象叢生。?
一些所謂國產數據庫,其實質不過是用進口內核(如IBM?Informix)或開源組件(如MySQL、PostgreSQL)包裝起來的“香蕉軟件”,在一些互聯網企業的積極推動下,利用輿論、市場影響力以及免費或低價策略,迅速進入一些關鍵領域,擠壓真正的國產數據庫技術創新的發展空間。?
對現代信息技術產業來說,新舊勢力的對決已司空見慣。猶如當年風靡全球市場的諾基亞、摩托羅拉被蘋果、三星打敗,喬布斯發布iPhone手機的那一刻就定格了未來智能手機的市場格局;又如傳統的IT信息系統正在被云計算所取代。?
這一幕也正在數據庫市場上演,第五代智能數據庫AiSQL取代傳統數據庫將成為后摩爾時代數據分析優化決策市場的定局,微軟、SAP和Oracle等科技企業巨頭都在積極布局第五代智能數據庫AiSQL的核心技術研發。?
面對快數據更為復雜的業務形態,用戶需要構建更為復雜、靈活、可控的數據管理分析系統。在大數據量,高并發下,能處理更多的數據源和數據形態,并具有更好的彈性響應能力,快數據時代的用戶對數據庫需求與過去大不相同,面臨諸多技術挑戰。?
?
眾所周知,傳統數據庫系統大都基于幾十年前傳統架構設計,基于數據存儲于較慢的硬盤設備和系統構架于較慢的網絡環境兩個基本假設,從而較慢的數據讀寫IO和網絡傳輸IO是系統性能瓶頸的關鍵因素。?
張世明博士指出,歷史已經發生了革新式變化,快數據時代更復雜的應用需求和更新、更強大的硬件環境,已經完全改變了市場規則。?
現在,我們擁有融合SSD容量和DRAM性能的新型持久性內存NVRAM,網絡帶寬已經遠遠超過系統總線帶寬。傳統數據庫的基本假設已經不存在了,反而處理器成為系統性能的主要瓶頸。?
張世明博士介紹說:“我們現在完全不用擔心內存的限制,包括成本,將PB級數據置于內存進行實時分析將是我們的目標。”?
將PB級數據置于內存進行實時分析,這是很多公司想做而又不敢做的事情,可想難度之高。美國Databricks公司的Spark和德國SAP?HANA是第一個吃螃蟹的,展現了內存計算在大數據實時分析領域強大的性能優勢。?
張世明博士回憶道:“在我們于2012年立志想做新型高性能分布式內存數據庫時,就深受Spark、SAP?HANA的啟示。同時,MemSQL和VoltDB的成功也給我們巨大的精神鼓舞。”?
立志自主創新研發,改變國產數據庫創新研發不足、技術落后的局面,做有突破性的技術創新,是張世明博士及其創新團隊近十年來孜孜不倦努力的動力。?
“人工智能應用如火如荼的潮流,并沒有讓我們丟失立志初始的激情”,張世明博士如實說,“新型數據庫底層技術才是真正突破我國人工智能基礎技術壁壘所在;未來巨大的數據實時分析藍海市場是我們堅信的基礎,大數據所呈現的巨大價值已可見一斑;快數據將在各個領域發揮重要作用,技術情懷和使命感就是我們堅持不懈的動力。”?
據張世明博士介紹,貝格邁思以自己研發的系統做底層支撐,摒棄‘拿來主義’。?
貝格邁思創新團隊踐行了一條與其他數據庫創新公司不同的技術路線。從硬件架構創新來真正提升數據庫的算力,采用內存驅動架構的異構智能計算一體機為基礎,打造貝格邁思特有的自適應異構智能計算引擎。?
如此以來,貝格邁思創新團隊將人工智能AI與數據庫無縫的融合為一體,而其他數據庫公司卻因缺乏基礎的人工智能硬件算力支撐,不得不把人工智能AI以分離系統模式與數據庫并行。?
貝格邁思創新團隊真正踐行新一代智能數據庫AiSQL的彈性調度核心機制,自適應感知Workload進行系統自動伸縮、自適應感知業務特點自動匹配數據訪問、自適應感知數據關聯性自動調整數據存儲、自適應感知數據計算模式自動適配處理器等核心數據智能引擎功能。?
“貝格邁思新一代自適應數據智能平臺BigInsights,一套高性能、彈性易擴展、高可用、安全可靠、以內存計算為核心、融合數能管理與機器學習框架于一體的數據智能平臺。在統一命名空間下提供PB級數據內存管理,以云原生服務架構,多租戶彈性隔離共享模式,為用戶提供一站式數據智能管理和實時分析與優化決策服務,解決多樣業務彈性需求,提高數據運營效率,降低系統資源投入成本,激發用戶數據價值指數級增長。”?
面向未來,打造應用生態,吸引人才?
站在宏觀的角度,把握數字化、網絡化和智能化融合的數字經濟發展契機,是科技創新與產業變革的必由之路;站在用戶的角度,面對瞬息萬變的市場競爭,實時獲取數據的價值,是其立于不敗之地的關鍵。?
貝格邁思將以開拓創新精神,潛心打造應對數據洪流的諾亞方舟,將在數據智能技術創新賦能用戶這條道路上,繼續打磨技術,力爭成為國際領先的數據智能創新技術的引領者,以及數據科技驅動行業應用的創新者。?
貝格邁思將大力推行智能數據庫AiSQL的國產化替代,不僅重塑各行業的運行邏輯,更為數據智能產業的發展開辟一條嶄新的發展趨勢路徑。?
同時,貝格邁思已聯合中科院計算所計算機體系結構國家重點實驗室、中科院軟件所計算機科學國家重點實驗室、中科院信工所信息安全國家重點實驗室和中科院深圳先進院以及香港理工大學和香港大學等科研機構,進行持續地創新技術研發,進一步促進貝格邁思新一代自適應數據智能平臺BigInsights的產品化迭代和產業化應用擴展。?
貝格邁思還將聯合行業應用企業打造新一代自適應數據智能應用推廣平臺,構建數據智能技術創新應用生態,促進數據智能創新技術在金融、醫療、環保、智慧城市、智能制造、物聯網和工業互聯網等領域的創新應用。?
?
“吾欲鯤鵬展翅,彌青青子衿,爾枉用相存,予鼓瑟吹笙,契闊談?”,作為一個志存高遠的技術極客,未來的路上需要志同道合者。張世明博士一直在路上,探尋熱衷于技術、喜歡挑戰和創新、想做有突破性技術的同仁志士,共謀數據智能未來技術范式。