亚洲先锋影音人AV成_免费A级毛片一分钟_人人爽人人爽人人插_日韩少妇极品熟妇人妻潮喷

沃卡惠移動(dòng)端logo

如何看待大數(shù)據(jù)云原生發(fā)展之路

2023-12-01 09:57:314636

如何看待大數(shù)據(jù)云原生發(fā)展之路

2023 云棲大會(huì)在杭州如期舉行,前身是阿里云開發(fā)者大會(huì),作為阿里的主場,國內(nèi)公有云計(jì)算份額最大廠商,今年的主題是:計(jì)算,為了無法計(jì)算的價(jià)值。大會(huì)主場兩大主題:大模型和云計(jì)算。大模型的火熱和未來可預(yù)見的應(yīng)用場景充分了引起了大家的重視,上午場以人工智能在阿里云的發(fā)展為主,同時(shí)闡述了云計(jì)算為人工智能算力提供了堅(jiān)實(shí)的支持。下午場,云產(chǎn)品線負(fù)責(zé)人各自從容器、存儲(chǔ)、網(wǎng)絡(luò)、數(shù)據(jù)庫、Severless、大數(shù)據(jù)這幾個(gè)主題介紹了這一年開發(fā)和提升的成果。作為一個(gè)大數(shù)據(jù)從業(yè)者,在公有云和容器化發(fā)展的大趨勢下,我們關(guān)注的重點(diǎn)已經(jīng)不僅僅是大模型,大數(shù)據(jù)在未來幾年發(fā)展的重點(diǎn)方向是什么,大數(shù)據(jù)的技術(shù)演進(jìn)路線會(huì)如何。

一、從技術(shù)主論壇上看云技術(shù)的主要進(jìn)展

云棲大會(huì)上午場,阿里云創(chuàng)始人王堅(jiān)做了一場演說,說到了云計(jì)算的第三次浪潮的到來。同時(shí),闡述了自己對(duì)云計(jì)算第一次浪潮的理解,并用 Netflix 和米哈游兩家企業(yè)的案例來表達(dá)對(duì)云計(jì)算浪潮到來所帶來的效益。第二次浪潮以傳動(dòng)企業(yè)上云,比如銀行上云為代表。第三次浪潮的標(biāo)志事件是北京冬奧會(huì)核心系統(tǒng)上云。未來,企業(yè)上云是大部分的首選,公有云擁有的規(guī)?;驮朴?jì)算的人才是根本原因。這點(diǎn)如同傳統(tǒng)分散的手工作坊向集中式規(guī)模化的大型工廠演進(jìn)。我們來具體看看,下午場的技術(shù)主論壇,在技術(shù)干貨或者核心產(chǎn)品上都有哪些提升,在大數(shù)據(jù)領(lǐng)域會(huì)有哪些影響。下面我會(huì)將主要產(chǎn)品技術(shù)演講進(jìn)行摘要。

彈性計(jì)算/容器方面:核心點(diǎn)在于擁抱云原生,發(fā)布了基于 CIPU+ 飛天操作系統(tǒng)構(gòu)建第三階段彈性計(jì)算。ECS 的計(jì)算從支持 Intel 到自研的倚天 710 和 AMD 芯片,各款芯片的主打方向不同。同時(shí),對(duì)不同的 ECS 實(shí)例,做了針對(duì)價(jià)格的細(xì)分。經(jīng)濟(jì)型實(shí)例主打?qū)W生、中小企業(yè)開發(fā)者、測試環(huán)境。HPC 實(shí)例、高性能高穩(wěn)定實(shí)例,主打一些特殊要求行業(yè)。介紹了 ECI 容器能力,舉例某頭部公司,基于 ECI 容器的能力,構(gòu)建自己的彈性大數(shù)據(jù)系統(tǒng),感覺很意外的,日累計(jì)可以創(chuàng)建 200W 個(gè) ECI 的實(shí)例。

存儲(chǔ)方面:重點(diǎn)是阿里云的對(duì)象存儲(chǔ) OSS,也是大數(shù)據(jù)領(lǐng)域如果上云使用的基礎(chǔ)服務(wù)。提供 OSS 的標(biāo)準(zhǔn)、低頻、歸檔三種存儲(chǔ)類型和歸檔直讀。提升 OSS 帶寬到 100Gbps,舉例 270GB 的模型,大約 20秒讀完。OSS 的協(xié)議兼容支持,OSS-Posix 本地文件,OSS-HDFS 兼容 Hadoop 協(xié)議。

網(wǎng)絡(luò)方面:阿里的飛天洛神云網(wǎng)絡(luò),提升了高性能網(wǎng)絡(luò)接入和轉(zhuǎn)發(fā),主要是軟硬協(xié)同、互補(bǔ)。云原生對(duì)網(wǎng)絡(luò)的挑戰(zhàn),以前的網(wǎng)絡(luò)是為虛擬機(jī)提供的,現(xiàn)在要為容器 Pod 提供,兩者的數(shù)量級(jí)不同帶來的挑戰(zhàn)。一是容器對(duì)網(wǎng)卡的創(chuàng)建速度要求高,從原來的幾百的彈性提升到幾千,二是基于 K8s 的無縫融合,優(yōu)化了各種網(wǎng)絡(luò)層查表和內(nèi)存管理。介紹了主動(dòng)重路由技術(shù),來解決多區(qū)域網(wǎng)絡(luò)突然閃斷問題,以及模型訓(xùn)練對(duì)大網(wǎng)絡(luò)帶寬的需求。

托管的K8s:主要闡述了一些使用數(shù)據(jù),64% 用戶生產(chǎn)環(huán)境使用 K8s,云上 K8s 增速達(dá)到 127%。云托管的 K8s 超過本地部署,占比 73% 等。將托管的 K8s 集群產(chǎn)品定價(jià)重新規(guī)劃了一下。

數(shù)據(jù)庫方面:介紹了瑤池 Rds、Polardb 以及 Adb,基于開源的有 Selectdb、Mongodb、Clickhouse。其中,闡述了拳頭產(chǎn)品 Polardb 的性能優(yōu)化。在產(chǎn)品方面,Rds+Redis、Polardb+Tair,內(nèi)置緩存和無需人工關(guān)注讀寫一致性。同時(shí),介紹了Adb 和 Lindorm,Lindorm 作為 Nosql 數(shù)據(jù)庫的能力和支持多模態(tài)。

大數(shù)據(jù)方面:介紹了 Pai 平臺(tái),Maxcomputor 支持 Python 處理,F(xiàn)link+Paimon 新一代實(shí)時(shí)湖倉方案,Dataworks 智能化升級(jí),比如支持自然語言,全托管向量檢索服務(wù) Dashvector,最后介紹將要全面 Serverless 化的產(chǎn)品,比如 ES、Spark、StarRocks 等。

二、大數(shù)據(jù)技術(shù)發(fā)展和應(yīng)用現(xiàn)狀

大數(shù)據(jù)的技術(shù)發(fā)展起步于 Google 的 2003 年三篇論文,GFS、Bigtable、MapReduce,愿稱之為大數(shù)據(jù) 1.0 階段,分別闡述了海量數(shù)據(jù)存儲(chǔ)、快速點(diǎn)查、通用計(jì)算。后來基于三篇論文原型實(shí)現(xiàn)的大數(shù)據(jù)開源組件,Hadoop 技術(shù)體系,包含 HDFS、Hbase、Yarn、MapReduce,分別解決在廉價(jià)機(jī)器構(gòu)建分布式存儲(chǔ)、快速點(diǎn)查、資源調(diào)度、海量數(shù)據(jù)計(jì)算問題。

隨著技術(shù)的發(fā)展,大數(shù)據(jù)組件的推陳推新,以 Hive、Spark、Storm 為代表,大數(shù)據(jù)邁入了 2.0 階段,同時(shí)像ELK解決特定場景的輕量化的鏈路也有了發(fā)展空間。過程中,OLAP 分析領(lǐng)域迎來了新的發(fā)展,如 Clickhouse、Kylin、Druid 等 OLAP 引擎。數(shù)據(jù)的主要構(gòu)建方式過渡到了以類 SQL 為主。

在后面的 2.0 階段,實(shí)時(shí)計(jì)算方面,2015 年谷歌發(fā)表《Google-DataFlow》介紹了流式計(jì)算的概念,后來有了開源的 Flink 實(shí)時(shí)計(jì)算,大數(shù)據(jù)處理步入了 2.5 階段。近年來,企業(yè)迎來了上云浪潮,帶來了阿里云的迅猛發(fā)展。K8s 體系在業(yè)務(wù)系統(tǒng)逐漸普及。在 OLAP 領(lǐng)域,迎來了新一批成員,如 StarRocks、Doris 等 MPP 數(shù)據(jù)庫引擎。同時(shí),數(shù)據(jù)湖的快速發(fā)展,Hudi、Iceberg、Delta、Paimon,在存儲(chǔ)層和表之間構(gòu)建了一層,基于云上對(duì)象存儲(chǔ)近乎無限的特點(diǎn),數(shù)據(jù)倉庫的概念步入了數(shù)據(jù)湖的概念。

那么我們是不是可以算進(jìn)入了大數(shù)據(jù) 3.0 階段呢?我認(rèn)為還有一塊需要補(bǔ)足。雖然大數(shù)據(jù)跟隨所在公司上云,應(yīng)用了云上的基礎(chǔ)設(shè)置,但是大數(shù)據(jù)技術(shù)的構(gòu)建,本質(zhì)還是基于傳統(tǒng)的 ECS 來實(shí)施,從公有云的發(fā)展來看,K8s 天然提供的資源調(diào)度和編排體系能夠替代 Yarn 資源調(diào)度?;?HDFS 的存儲(chǔ),能夠使用 OSS 來構(gòu)建數(shù)據(jù)湖系統(tǒng)。網(wǎng)絡(luò)方面,公有云看到了大數(shù)據(jù)云原生的趨勢,網(wǎng)絡(luò)方面已經(jīng)做了升級(jí)改造。K8s 的彈性能力在成本的天然優(yōu)勢是眾多企業(yè)的首選。那么,需要解決的問題在于計(jì)算組件如何契合K8s體系,形成云原生。

我們可以看到主要大數(shù)據(jù)組件的發(fā)展趨勢,Spark、Flink、Clickhouse、StarRocks 等,正在快速發(fā)展自身基于K8s構(gòu)建應(yīng)用的能力。在這個(gè)過程中,避免不了會(huì)碰到一些問題,下面我們來具體看一看。

三、大數(shù)據(jù)云原生的重難點(diǎn)

大數(shù)據(jù)上云和大數(shù)據(jù)云原生化是兩個(gè)不同的概念。大數(shù)據(jù)上云,一般可以理解為,企業(yè)不需要去自建機(jī)房,使用公有云作為 IDC,大數(shù)據(jù)基于公有云的基礎(chǔ)設(shè)施(虛擬機(jī)、存儲(chǔ)、網(wǎng)絡(luò))來構(gòu)建大數(shù)據(jù)技術(shù)體系。大數(shù)據(jù)的云原生化,則是指將大數(shù)據(jù)技術(shù)與應(yīng)用部署在云原生環(huán)境中,利用云原生的優(yōu)勢,如容器化、彈性伸縮、存算分離等,以實(shí)現(xiàn)更高效、更靈活、更可靠的大數(shù)據(jù)處理和分析。

需要注意的是,大數(shù)據(jù)云原生化的實(shí)現(xiàn)需要解決一些技術(shù)和生態(tài)問題,如兼容性、資源管理、計(jì)算性能和生態(tài)融合等。因此,在實(shí)現(xiàn)大數(shù)據(jù)云原生化時(shí),需要進(jìn)行全面的架構(gòu)設(shè)計(jì)和實(shí)施方法選擇,以確保最終的解決方案能夠滿足實(shí)際需求。將大數(shù)據(jù)組件進(jìn)行云原生化的升級(jí)改造,具體來說需要從存儲(chǔ)、計(jì)算以及調(diào)度這三個(gè)基礎(chǔ)維度來入手。

存儲(chǔ)方面相對(duì)來說,比較容易進(jìn)行改造和替換,企業(yè)可以選擇市面上多種云存儲(chǔ),且這種云儲(chǔ)存除了具備高容錯(cuò)、高可靠性以外,還需要具備冷熱數(shù)據(jù)分層管理,以及與主流大數(shù)據(jù)計(jì)算引擎 Hive、Spark、Trino 等無縫兼容適配能力,如阿里云近年推出的 OSS-HDFS 云存儲(chǔ)。除了上述所說的云儲(chǔ)存以外,將大數(shù)據(jù)進(jìn)行云原生化改造,重難點(diǎn)問題在于計(jì)算和調(diào)度這兩個(gè)維度。

K8s 之于大數(shù)據(jù)體系有幾點(diǎn)問題相對(duì)突出:第一是大數(shù)據(jù)離線計(jì)算對(duì)于瞬時(shí)容器的突發(fā)需求,以 Spark 任務(wù)為例,一個(gè)較大規(guī)模的 Spark 任務(wù)短時(shí)需要的 Container 可能是幾千到萬級(jí)別,K8s 的 Pod 能否快速彈出,短時(shí)超大規(guī)模鏡像拉取是否會(huì)有瓶頸。第二是隨之而來容器基礎(chǔ)網(wǎng)絡(luò)問題,如 Pod 上網(wǎng)絡(luò)的創(chuàng)建和釋放能否滿足,容器間網(wǎng)絡(luò)帶寬性能能否滿足。第三是容器的掛載盤普遍較小,Spark 或 Flink 都存在Shuffle數(shù)據(jù)落盤的問題。大數(shù)據(jù)云原生在計(jì)算和調(diào)度兩個(gè)維度,上述三個(gè)問題是需要解決的。

四、大數(shù)據(jù)云原生的可行性

從主論壇技術(shù)上看,大數(shù)據(jù)相關(guān)的核心基礎(chǔ)設(shè)施在容器上都有較大提升,如 Serverless 彈性容器和底層網(wǎng)絡(luò)的性能提升、OSS 帶寬的提升以及 OSS-HDFS 協(xié)議的支持。同時(shí),開源社區(qū)中出現(xiàn)了各種用于大數(shù)據(jù)中間結(jié)果的 Remote Shuffle 組件,如 Celeborn 等。我認(rèn)為大數(shù)據(jù)云原生化是可行的,相信很多公司的大數(shù)據(jù)發(fā)展方向會(huì)朝著云原生路線演進(jìn)。在云棲大會(huì)的參會(huì)單位中,無意中看到了一家公司關(guān)于大數(shù)據(jù)云原生的案例:《米哈游大數(shù)據(jù)云原生實(shí)踐》,分享者是這家公司大數(shù)據(jù)技術(shù)專家杜安明。他們的實(shí)踐和我的想法不謀而合,下面我們來看一下他們是怎么做的。

他們主要分享了米哈游大數(shù)據(jù)架構(gòu)向云原生化升級(jí)過程中的目標(biāo)、探索和實(shí)踐,以及如何通過以阿里云容器服務(wù) ACK 為底座的 Spark 云原生架構(gòu),獲得在彈性計(jì)算、成本節(jié)約以及存算分離方面的價(jià)值。

一是彈性計(jì)算。由于游戲業(yè)務(wù)會(huì)進(jìn)行周期版本更新、開啟活動(dòng)以及新游戲的上線等,對(duì)離線計(jì)算資源的需求與消耗波動(dòng)巨大,可能是平時(shí)水位的幾十上百倍。利用K8s集群天然的彈性能力,將 Spark 計(jì)算任務(wù)調(diào)度到 K8s 上運(yùn)行,可以比較輕松的解決這類場景下資源消耗洪峰問題。

二是成本節(jié)約。依托阿里云容器服務(wù) Kubernetes 版 ACK 集群自身強(qiáng)大的彈性能力,所有計(jì)算資源按量申請(qǐng)、用完釋放,再加上我們對(duì) Spark 組件的定制改造,以及充分利用 ECI Spot 實(shí)例,在承載同等計(jì)算任務(wù)和資源消耗下,成本節(jié)約達(dá) 50%。

三是存算分離。Spark 運(yùn)行在 K8s 之上,完全使用 K8s 集群的計(jì)算資源,而訪問的數(shù)據(jù)也由 HDFS、OSS 逐步切換到 OSS-HDFS 上,中間 Shuffle 數(shù)據(jù)的讀寫采用 Celeborn,整套架構(gòu)實(shí)現(xiàn)了計(jì)算和存儲(chǔ)的解耦,易于維護(hù)和擴(kuò)展。

整個(gè)分享看下來,米哈游大數(shù)據(jù)攻克了很多重難點(diǎn)問題,已經(jīng)實(shí)現(xiàn)了大數(shù)據(jù)計(jì)算的云原生化,并且取得了很不錯(cuò)的收益。