圖片來源@視覺中國
文 | 愛分析
隨著數(shù)字化的深入,Hadoop架構的分析平臺在成本和業(yè)務需求上越來越不能適應企業(yè)的要求,因此國內外領先的大數(shù)據(jù)公司都在轉向云原生。云原生架構由于具有彈性伸縮、低成本、敏捷性的優(yōu)勢,正在逐步取代Hadoop,成為新一代數(shù)據(jù)分析平臺的基礎。而新一代的數(shù)據(jù)分析平臺也將具備云原生、存算分離、容器化、自動化、湖倉融合、訂閱制等特征。區(qū)別于美國市場,中國市場的私有云會與公有云共同發(fā)力,企業(yè)應該看清趨勢,盡早做好下一代數(shù)據(jù)平臺架構的選型和搭建。
技術的發(fā)展都有著自己的生命周期。在技術從起步到成長,再到成熟、衰退,最終被新技術所取代的過程中,商業(yè)化公司一直起到了重要的推動作用,但它們也終將因為技術的迭代而改變自身的走向。
大數(shù)據(jù)行業(yè)近期發(fā)生的兩件大事,印證了數(shù)據(jù)分析領域的技術也遵循著這樣的演變規(guī)律:兩家硅谷大數(shù)據(jù)公司分別IPO和私有化。
6月25日,Apache Kafka商業(yè)化公司Confluent正式登陸納斯達克,首日開漲25%,市值超過110億美元。Confluent成立于2014年,其提供的是一個實時事件流平臺,具有高吞吐、低延時、高可用和數(shù)據(jù)持久性的能力。公司在2018年推出云原生版本產(chǎn)品Confluent Cloud,并將云原生作為公司的主要戰(zhàn)略。
而在此前的6月初,Cloudera卻被私有化退市,這一消息令人唏噓。因為Cloudera從2008年成立至今一直是Hadoop生態(tài)的領導者,其開發(fā)的產(chǎn)品以及背后基于Hadoop開源技術的生態(tài)曾是企業(yè)首選的大數(shù)據(jù)分析解決方案。但Cloudera自2017年5月上市以來一直表現(xiàn)不佳,先后經(jīng)歷過股價腰斬,與業(yè)內第二名Hortonworks的合并抱團,以及現(xiàn)在的私有化退市,也代表了Hadoop的頹勢。
作為同是出自Apache的頂級項目,為何Confluent和Cloudera卻在同一時間在資本市場走向了完全相反的方向?Hadoop為何走向衰落,數(shù)據(jù)分析技術的未來又會走向何方?愛分析基于對相關領域的持續(xù)研究和積累,以及對業(yè)內專家的訪談,嘗試對這兩起事件折射出的數(shù)據(jù)分析技術的演進趨勢做出分析解讀。
從企業(yè)用戶的視角,成本和業(yè)務需求實現(xiàn)是技術選型的核心考量。而這兩個因素在不同時代的演變,既造就了Hadoop的興起,也解釋了現(xiàn)在Hadoop為何開始走向衰落。
在數(shù)據(jù)分析技術的演進過程中,成本是首要驅動因素。
在2004年Hadoop誕生之前的近20年中,數(shù)據(jù)分析技術一直被大規(guī)模并行處理(MPP)架構所主導。以Teradata為代表的MPP數(shù)倉產(chǎn)品采用基于專有物理硬件的軟硬件一體機架構,因此企業(yè)在擴展存儲和計算資源時需要付出高昂的成本。隨著大數(shù)據(jù)時代的到來,數(shù)據(jù)量不斷加大,企業(yè)越來越不堪成本支出的重負,紛紛轉向了在軟件層面開源免費,硬件層面可以采用廉價PC服務器的Hadoop架構。
但Hadoop架構在成本上對客戶而言依然不是最優(yōu)解。在數(shù)字化應用已經(jīng)無所不在的今天,企業(yè)對存儲和計算資源都提出了更高的要求。Hadoop沒能進一步解決算力和資源的優(yōu)化問題,也在擴容成本和運維成本上逐漸不能適應企業(yè)要求。
在擴容成本方面,Hadoop雖然在軟件架構層面實現(xiàn)了計算與存儲的分離,但其在硬件層面仍然基于無共享架構,計算和存儲資源是耦合的。然而今天企業(yè)在計算和存儲資源上的擴展需求往往并不同步:計算資源通常僅需在負載高峰期進行擴展,而存儲資源的擴展一般是長期、線性的過程。企業(yè)無法按需獨立擴展計算和存儲資源,必然帶來資源的浪費。此外,Hadoop的擴容時間成本也非常高,通常Hadoop集群擴容一倍,企業(yè)僅在硬件的采購和部署上花費的時間就需要半年或以上。
在運維成本方面,由于Hadoop的解決方案通常是從其生態(tài)中的數(shù)百個開源項目中選擇一堆技術組件組合起來實現(xiàn)相關功能,這樣的體系非常復雜,且組件間的耦合度非常高。隨著Hadoop生態(tài)技術組件越來越龐雜,組件之間的耦合性和差異性要求開發(fā)和運維人員具備全棧能力,給企業(yè)帶來了不菲的運維成本。
成本因素之外,業(yè)務需求的變化則在另一個層面驅動了數(shù)據(jù)分析技術的迭代。
在數(shù)倉時代,企業(yè)的數(shù)據(jù)分析需求以處理結構化數(shù)據(jù)、為業(yè)務人員作報表應用為主,MPP架構在當時能夠很好地滿足這些需求。
但隨著互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)的逐步普及,企業(yè)內沉淀的數(shù)據(jù)量呈現(xiàn)出爆發(fā)式增長,不僅數(shù)據(jù)量本身變得很大,數(shù)據(jù)類型也從原來的結構化數(shù)據(jù)為主,發(fā)展為包含各類結構化、半結構化、非結構化,以及圖片和音視頻數(shù)據(jù)。MPP架構無法承接對大量非結構化和半結構化數(shù)據(jù)的處理,而Hadoop架構由于生態(tài)內具有眾多組件能夠實現(xiàn)不同功能,可以處理復雜類型的數(shù)據(jù),其分布式架構也能夠為企業(yè)實現(xiàn)大數(shù)據(jù)分析的高性能,以Hadoop為基礎的數(shù)據(jù)湖架構興起。
然而近年來,企業(yè)面臨的數(shù)據(jù)分析業(yè)務需求也發(fā)生了重要改變,使得Hadoop越來越不能很好地滿足企業(yè)日益復雜的分析需求。這些改變主要體現(xiàn)在三個方面:
1)隨著數(shù)字化轉型浪潮的推進,企業(yè)有越來越多在線化、互聯(lián)網(wǎng)化的業(yè)務場景,上云的滲透率越來越高,大量數(shù)據(jù)的產(chǎn)生、采集和應用都發(fā)生在云端,而更適應本地化部署特性的Hadoop很難滿足企業(yè)數(shù)據(jù)流動的需要。
2)同樣隨著企業(yè)數(shù)字化的深入,企業(yè)產(chǎn)生了大量創(chuàng)新性的數(shù)據(jù)應用需求,需要快速落地、快速迭代。而Hadoop架構由于過于繁重,無法適應企業(yè)對數(shù)據(jù)應用的敏捷性需求。
3)人工智能和機器學習在數(shù)據(jù)分析領域的應用正在加速落地,而一些高級的分析框架,比如TensorFlow,其分布式架構在設計之初就是基于云原生架構,沒有考慮過Hadoop架構,因此在Hadoop上很難部署和運行這類高級分析框架。
既然Hadoop在面對新的數(shù)據(jù)分析需求時已經(jīng)展現(xiàn)出種種不足,那下一代架構是什么?事實上,包括Confluent在內的新一代大數(shù)據(jù)公司已經(jīng)回答了這個問題——擁抱云原生。云原生是指在應用的設計階段就為了云的運行環(huán)境而設計,包含微服務、容器化、DevOps、持續(xù)交付等特征,充分利用和發(fā)揮云平臺的彈性和分布式架構的優(yōu)勢。
由于意識到企業(yè)用戶的需求正在往云端、存儲計算分離、敏捷等方向上發(fā)展,一些領先的大數(shù)據(jù)公司早在幾年前就將重點放在了云原生版本的產(chǎn)品上,也由此獲得了顯著的成功。
以剛剛IPO的Confluent公司為例,其所代表的開源流數(shù)據(jù)工具Kafka最早也是源自于Hadoop生態(tài)。Kafka為不同數(shù)據(jù)源之間數(shù)據(jù)的交換這個任務而生,Confluent將Kafka商業(yè)化推出Confluent Platform并取得了成功,隨后在2018年推出了云原生的版本Confluent Cloud,為用戶提供完全托管的云端服務,具備彈性伸縮以及支持用戶敏捷開發(fā)等特性。
根據(jù)Confluent招股說明書,Confluent Cloud在2020年取得了3140萬美元的訂閱收入,2019年、2020年和2021年前3個月的增速分別達到454%、117%和124%。盡管Confluent Cloud的收入目前僅占到公司總收入的20%左右,但其表現(xiàn)出的成長性遠超本地產(chǎn)品Confluent Platform約50%的增速。Confluent在招股說明書中也強調了公司云原生的戰(zhàn)略,并將Confluent Cloud視為公司未來收入增長的最重要產(chǎn)品。這應該也是資本市場給與Confluent高度認可的主要原因。
在此之前,去年IPO、市值曾達800億美元的明星大數(shù)據(jù)公司Snowflake,更是云原生的代表。Snowflake針對云計算環(huán)境將產(chǎn)品特性進行了深度優(yōu)化,在云端向客戶提供簡單易用、彈性伸縮、按使用量計費的一站式數(shù)據(jù)管理和分析平臺。其突出特征是支持計算、存儲節(jié)點單獨擴展,從而實現(xiàn)了資源的精細化管理,有效降低了擴容成本,同時可以做到按使用量付費。
同樣是硅谷熱門的大數(shù)據(jù)公司Databricks,其提供的是一個云上的面向數(shù)據(jù)分析師和數(shù)據(jù)科學家的大數(shù)據(jù)分析平臺,用戶可以通過Databricks在云端環(huán)境中實施整個大數(shù)據(jù)方案,從數(shù)據(jù)提取、數(shù)據(jù)轉換、交互式處理,到數(shù)據(jù)產(chǎn)品等。Databricks底層計算使用Spark,存儲使用Delta云存儲服務,支撐了企業(yè)在云端對各種結構化、半結構化和非結構化數(shù)據(jù)的分析。
國內廠商中,源自Apache Kylin的大數(shù)據(jù)管理和分析平臺提供商Kyligence也是一個典型的案例。據(jù)Kyligence聯(lián)合創(chuàng)始人兼CEO韓卿表示,公司在成立之初產(chǎn)品是基于Hadoop架構的,但在2018年左右,公司敏銳地預判到客戶的需求逐漸在往云原生、存儲計算分離的方向上發(fā)展。因此Kyligence對原有產(chǎn)品架構做了一些新的設計,在2019 年推出了完全脫離Hadoop平臺的云原生產(chǎn)品Kyligence Cloud,其底層使用了云原生架構,存儲使用云廠商的對象存儲,計算使用Spark+容器化,資源可以直接對接云平臺的IaaS服務和ECS。Kyligence Cloud通過多維數(shù)據(jù)立方體(cube)預計算、分布式聚合索引和云原生彈性架構結合,不僅顯著簡化了云上數(shù)據(jù)倉庫和數(shù)據(jù)湖的數(shù)據(jù)處理和分析工作,同時也大幅降低了企業(yè)使用云分析的成本。因此,Kyligence Cloud獲得了諸如UBS等國內外頭部公司的認可和采用。
可以看到,云原生架構的浪潮已經(jīng)到來。總結起來,云原生架構之所以在當下被越來越多地采納,主要在于其三方面的顯著優(yōu)勢:彈性伸縮、低成本和敏捷性。
首先是云原生架構為數(shù)據(jù)分析帶來的彈性伸縮能力。因為云原生架構可以輕松實現(xiàn)計算和存儲資源的分離,企業(yè)可以做到按照實際需求分別購買存儲和計算資源,并隨啟隨停,真正實現(xiàn)按照資源消費量來付費,與此同時,在云端的擴容也可以在幾分鐘內完成 。這種使用方式極大地優(yōu)化了企業(yè)對資源的使用效率,降低了使用成本。
其次,云原生架構也極大地降低了企業(yè)的運維成本。因為在云原生架構下,云廠商提供了完整的IaaS基礎設施,省去了企業(yè)硬件投入和運維工作的同時,企業(yè)也能充分運用IaaS的底層分布式框架實現(xiàn)各種操作,從而大大降低系統(tǒng)復雜性,提高系統(tǒng)運行效率。
最后是敏捷性。隨著企業(yè)數(shù)字化和智能化應用的深入,云原生架構彈性伸縮、存算分離支撐下的按需付費特性,能夠讓企業(yè)花費很少的成本先嘗試新應用。如果應用效果好,企業(yè)可以在此基礎上加大投入繼續(xù)推進;如果方向出現(xiàn)問題,企業(yè)可以及時停止項目,沉沒成本能夠控制在很低的水平。這樣的敏捷性很好地支撐了企業(yè)去嘗試各種新的數(shù)據(jù)應用,從而增強了企業(yè)的競爭優(yōu)勢。
基于對企業(yè)數(shù)字化轉型與數(shù)據(jù)分析需求的趨勢判斷,并結合領先大數(shù)據(jù)公司在產(chǎn)品設計上采取的技術路線,可以看到,以云原生架構為基礎的全新的數(shù)據(jù)分析平臺將成為未來的主流。云原生特性作為技術架構層面的變化,也將為企業(yè)數(shù)據(jù)分析應用帶來更多的可能。對此,愛分析從技術、數(shù)據(jù)架構和商業(yè)模式三個維度總結了下一代數(shù)據(jù)分析平臺將具備的特征。
從技術維度,下一代數(shù)據(jù)分析平臺將會具備云原生、存算分離、容器化和自動化四個特征。
1)云原生。隨著云計算的逐漸普及,企業(yè)上云步伐的加快,企業(yè)主要的IT基礎設施都將部署在云端,因此數(shù)據(jù)分析平臺以及數(shù)據(jù)的分析和應用都將主要在云端進行。
2)存算分離。隨著企業(yè)對數(shù)據(jù)分析應用需求的持續(xù)增加,計算資源的擴展需求進一步增長,存算分離的價值也將凸顯。企業(yè)可以按需對存儲和計算資源在云端分別進行擴容,由此能夠以很低的成本獲得近乎無限的算力。
3)容器化。基于云原生的背景,未來企業(yè)的數(shù)據(jù)應用在很多情況下,將會跨云甚至跨基礎設施進行。容器化的價值在于可以讓企業(yè)在不同的基礎架構之上快速構建統(tǒng)一的數(shù)據(jù)分析平臺,實現(xiàn)數(shù)據(jù)應用的平滑遷移。
4)自動化。傳統(tǒng)的數(shù)據(jù)分析平臺在分析和應用的多個環(huán)節(jié)仍然依靠人工進行處理,比如數(shù)據(jù)標注、數(shù)據(jù)清洗。通過在數(shù)據(jù)分析平臺中應用AI增強技術,首先可以在云端對存儲和計算資源分別做自動優(yōu)化,提高資源使用效率,為企業(yè)降低成本;其次,在數(shù)據(jù)清洗、數(shù)據(jù)建模、數(shù)據(jù)分析等環(huán)節(jié)使用自動化,能夠極大地提升分析平臺的易用性,節(jié)省大量人力成本,提升數(shù)據(jù)應用開發(fā)的敏捷性。對AI增強技術的大量采用也正是Snowflake具備出眾易用性的原因。
在數(shù)據(jù)架構維度,隨著數(shù)據(jù)分析的復雜度以及企業(yè)對數(shù)據(jù)分析實時度的要求越來越高,傳統(tǒng)的數(shù)據(jù)倉庫與數(shù)據(jù)湖割裂的局面將會走向融合。Gartner認為,數(shù)據(jù)倉庫通常是用已知數(shù)據(jù)解答分析已知問題,數(shù)據(jù)湖通常是用未知數(shù)據(jù)解答分析未知問題,而新的數(shù)據(jù)架構需要解決的是這兩種場景之上模糊地帶的需求。而根據(jù)研究機構EMA將新一代架構定義為“統(tǒng)一分析倉庫”(Unified Analytics Warehouse),這種新的數(shù)據(jù)架構需要具備高性能與企業(yè)級完整度、分析靈活性與低延遲、高擴展性及與現(xiàn)有設施的兼容性這三個方面的能力。此外,業(yè)內也有“湖倉一體”的提法,尚未達成統(tǒng)一。對此,愛分析會在后續(xù)的研究中詳細探討。
最后,在商業(yè)模式維度,技術架構上的變化也將帶來商業(yè)邏輯的變化,訂閱制、按需付費將會成為企業(yè)使用分析平臺的主要付費方式。由于在云原生架構下可以支持存算分離和彈性伸縮,企業(yè)不再需要在前期先投入大量成本購買硬件,而是可以在云端基于需求按使用量付費,實現(xiàn)“Pay as you go”。訂閱制從根本上顛覆了企業(yè)使用數(shù)據(jù)平臺的付費方式,其對于企業(yè)的核心價值是使得企業(yè)可以以很低的成本探索各種創(chuàng)新型的數(shù)據(jù)應用,從而使數(shù)據(jù)發(fā)揮更大的價值。同時,訂閱制也驅動廠商更加持續(xù)關注企業(yè)客戶成功,保持與客戶長期共生和互利的關系。以Kyligence為例,其全線產(chǎn)品目前在國內都已經(jīng)廣泛采用訂閱模式來服務客戶,尤其是在銀行、保險等金融行業(yè)頭部客戶也已采納訂閱制,這說明國內企業(yè)的付費觀念已經(jīng)發(fā)生變化,在美國已經(jīng)是主流的訂閱制的付費模式同樣也適合中國市場。
以上對數(shù)據(jù)分析走向云原生架構趨勢的總結,主要基于對美國市場的觀察。相比美國市場以公有云為主導的市場環(huán)境,中國市場會呈現(xiàn)出明顯差異。
首先,中國云計算市場起步時間較晚,相比美國落后五到七年左右,同時企業(yè)尤其是傳統(tǒng)企業(yè)的上云步伐也不如美國企業(yè)激進,大量業(yè)務數(shù)據(jù)仍然停留在傳統(tǒng)IT環(huán)境中。因此,中國市場轉向云原生的滲透仍然有數(shù)年的窗口期,在這個架構迭代的窗口期內,包括傳統(tǒng)數(shù)據(jù)庫廠商、云廠商和新興廠商在內,各方參與者的競爭格局將發(fā)生新一輪洗牌。
其次,由于政策監(jiān)管、行業(yè)特性和觀念等因素,國內以金融和政府公共事業(yè)為代表的行業(yè)企業(yè)以及央國企,中長期來看仍將采納以私有云、行業(yè)云為底座的混合架構,公有云很難占據(jù)主導地位。因此,面向中國市場的云原生架構的數(shù)據(jù)分析平臺,需要考慮如何在以私有云為主的架構環(huán)境下,仍能讓企業(yè)用戶充分享受到云原生特性帶來的優(yōu)勢,這背后有大量問題需要解決。
以Kyligence為例,其針對國內外市場推出了不同版本的解決方案。在國際市場,Kyligence對接了公有云平臺Azure和AWS,用戶可以在線購買和使用其產(chǎn)品,服務了包括UBS這樣的行業(yè)頂尖客戶。在國內市場,Kyligence除了提供公有云和本地部署版本的產(chǎn)品,也推出更適合國內企業(yè)客戶的私有云版本產(chǎn)品,并且其私有云版本產(chǎn)品獲得了多個大型金融機構的采用。
Hadoop的時代已經(jīng)走向落幕,云原生是大勢所趨。但Hadoop并不會在這個時間點很快消亡,而是會平滑地過渡到下個技術階段,今天的Hadoop依然是很穩(wěn)定的大數(shù)據(jù)解決方案。中國市場相比美國的滯后,給廣大企業(yè)為未來三到五年做好數(shù)據(jù)平臺架構的選型和相應的技術儲備,構建新一代的數(shù)據(jù)分析平臺,預留了充足的時間。對于那些已經(jīng)把數(shù)字化作為根本戰(zhàn)略的企業(yè),更應該盡快擁抱這樣的趨勢,以在未來的企業(yè)競爭中保持優(yōu)勢。
更多精彩內容,關注鈦媒體微信號(ID:taimeiti),或者下載鈦媒體App
2022-09-14 鈦媒體 App發(fā)布了 《星巴克加碼中國市場,未來三年要新增開3000家門店|鈦快訊》的文章
2022-08-11 鈦媒體 App發(fā)布了 《白云山麾下公司虛抬藥價“把戲”,被拆穿了》的文章
2022-07-06 鈦媒體 App發(fā)布了 《為了幫00后卷王找到工作,簡歷修改師們拼了》的文章
2022-07-06 鈦媒體 App發(fā)布了 《威尼斯向游客收“進城費”,國內城市如何借鑒?》的文章
2022-03-25 鈦媒體 App發(fā)布了 《蔚來2021年財報發(fā)布:年營收361億元,整車毛利率達到20.1%》的文章