11月4日,2022杭州云棲大會《互聯網產業與飛天技術創新》峰會上,阿里技術風險與效能負責人張瓅玶表示,經過持續多年上云用云,今年阿里巴巴集團在PaaS(包括大數據、機器學習平臺、數據庫中間件等)支持的業務形態中支出占用云總成本達43%,阿里業務已進入“全面云原生深度用云”階段。
以云計算發展歷程來看,用云形態主要包括IaaS(基礎設施即服務)、PaaS(平臺即服務)、SaaS(軟件即服務)三類。企業在數字化轉型初期,主要借助云計算能力構建IaaS資源平臺,統一云上云下資源以提升效率。隨著大數據、AI產業發展,帶來了算力需求的變化,用云形態也發生改變,對IaaS投入比重越低,意味著用云越好。據IDC報告顯示,2021年中國公有云(IaaS+PaaS)市場PaaS支出占比為16.8%,相比之下,阿里巴巴在PaaS投入比重已超過業內平均水平。
作為全球首家將所有業務放在公共云上的科技企業,阿里在過去十年經歷了云計算能力從單點試驗到規?;瘧玫能S遷式變革。2015年阿里電商業務增長,開始雙11彈性上云以解決大促資源的計算缺口;2019年阿里實現核心系統上云,到2020年實現全面云原生化,直至2021年阿里完成了包括電商主營業務在內的數千萬核心算力、30余萬應用的全面上云。
在大規模業務上云、深度用云的過程中,成本優化對企業來說是一項不小的挑戰。張瓅玶表示,對于阿里來說,這取決于對成本的理解和考量。他認為,傳統認知中把物理機器成本做簡單的分攤是不全面的,成本應以業務單位算力成本來看?!凹纫吹秸麄€機房和集群的分配、閑置的影響,也要看到業務架構、資源利用率水平,存儲和網絡的彈性能力等對成本和效能的影響?!?/p>
以阿里推動上云業務升級的云產品Flink為例,業務主體在兩個月時間內完成了云上遷移,實現性能提升30%以上,成本下降30%,整個過程不需要關注原有集群機器閑置成本以及產品研發團隊投入。
過去三年,阿里從核心系統上云、到全面深度用云,正式實現了從統一調度到全面FinOps(云成本優化)實踐,即運用成本管理體系支撐優化,通過云計算的彈性能力實現了機器閑置率下降和支持峰值分配率的提升、神龍虛擬化架構帶來的CPU利用率提升、以及存儲、網絡彈性成本下降,最終帶來業務整體單位算力成本下降。
除了成本優化,全面深度用云也帶來了阿里業務的敏捷創新。通過用云產品靈駿智能計算快速實現超大規模機器學習模型訓練交付,在大規模稀疏場景中,訓練萬億樣本數據時間從兩周縮短到半周,提效四倍,訓練集群成本下降50%。通過對阿里集團調用量最大的數據庫之一Tair的用云優化,今年雙11淘寶購物車擴容技術以輕量化連接、異步支持技術支撐起超大連接數,使單集群訪問流量達到100GB/s,承載數億用戶同時在線加大購物車。
截止目前,阿里已經使用了60多款重點云產品,這些產品支持集團業務在全球多個可用區開箱即用,不但減少大量運維成本,也可實現隨時彈性,并且歷經雙11穩定性考驗。
張瓅玶表示,全面云原生深度用云是算力經濟時代的下一個開始。今年,阿里巴巴確立了以“云原生”作為集團整體技術架構的戰略,向Serverless化邁進。9月,淘寶首頁核心應用率先實現了Serverless架構升級,通過更輕量靈活規范地用云,實現業務快速迭代創新。
您也可以關注我們的官方微信公眾號(ID:ctoutiao),給您更多好看的內容。