?
LinkedIn 總部位于美國加利福尼亞州山景城,是一家全球最大的職業社交網站,成立于 2002 年 12 月,于 2011 年 5 月 20 日在美上市。截至目前,LinkedIn 一共有超過 6.45 億會員,超過 2000 萬個工作崗位。LinkedIn 目前使用 Kafka 日均處理消息超 4.5 萬億條,并已決定將所有工作負載遷移到 Azure 公有云上。
2009 年,LinkedIn 注冊用戶超過 5000 萬人。2014 年,其注冊用戶規模已經超過 3 億。而今天,LinkedIn 已經擁有超過 6.45 億注冊用戶,超過 2000 萬個工作崗位,每八秒鐘就有一個人通過 LinkedIn 被雇傭。
伴隨業務規模的不斷擴大,LinkedIn 的技術團隊需要成長得更加健壯,才能滿足業務需求。LinkedIn 的技術團隊創造了一個世界級的基礎設施和一套工具和產品,使用 Project Inversion 重建了整個軟件開發基礎設施,并且選擇將技術團隊造的輪子開源,回饋社區與其他公司。在 LinkedIn 的數據基礎設施中, Kafka 是核心支柱之一。
LinkedIn 在 2011 年 7 月開始大規模使用 Kafka,當時 Kafka 每天大約處理 10 億條消息,這一數據在 2012 年達到了每天 200 億條,而到了 2013 年 7 月,每天處理的消息達到了 2000 億條。2015 年,他們的最新記錄是每天利用 Kafka 處理的消息超過 1 萬億條,在峰值時每秒鐘會發布超過 450 萬條消息,每周處理的信息是 1.34 PB。每條消息平均會被 4 個應用處理。在使用 Kafka 的最初四年中,實現了 1200 倍的增長。2019 年,這個數字已經變成了 4.5 萬億條。
LinkedIn 在將 Kafka 捐獻給 Apache 基金會后,也在持續打磨、優化著 Kafka 的使用與生態。隨著規模的不斷擴大,LinkedIn 更加關注于 Kafka 的可靠性、成本、安全性、可用性以及其他的基礎指標。
LinkedIn 在 Kafka 上的主要關注領域包括:
配額(Quotas)
開發新的 Consumer
可靠性和可用性的提升
安全性
……
除了關注打磨 Kafka 技術本身以外,LinkedIn 還針對 Kafka 構建了一套完整的生態系統,以解決日益增長的業務規模所帶來的新挑戰。
?
?
上圖并不能完全反映 LinkedIn 的各種數據管道和拓撲結構,但足以說明 LinkedIn 的 Kafka 部署的關鍵部分,以及它們是怎樣相互作用。
另據了解,LinkedIn 目前正在更換其數據中心,計劃在未來幾年向 Azure 遷移,并將關鍵業務數據委托給云平臺。LinkedIn 高級副總裁 Mohak Shroff 表示,這將是該公司史上最大的技術轉型之一,預計至少需要三年時間才能完成 6.45 億用戶數據遷移,以避免損害網站的可訪問性、可靠性和性能。








