近日,中國電信云計算研究院在云存儲與數(shù)據(jù)中心資源管理領(lǐng)域取得研究突破,由湯聞達、王一多、王彥文、吳杰研究團隊完成的《Leave No One Behind: Fair and Efficient Tiered Memory Management for Multi-Applications》,王一多、湯聞達、孟令航、李梁、吳杰研究團隊完成的《Origami: Efficient ML-Driven Metadata Load Balancing for Distributed File Systems》兩篇論文,同時被并行處理領(lǐng)域最老牌的國際頂級會議 ICPP 2025 接收。這兩項研究分別聚焦分級內(nèi)存管理與元數(shù)據(jù)管理難題,為云基礎(chǔ)設(shè)施優(yōu)化提供了創(chuàng)新性解決方案,彰顯了中國電信在云計算核心技術(shù)領(lǐng)域的前沿探索能力。
在數(shù)據(jù)中心內(nèi)存資源優(yōu)化方向,湯聞達等人針對多租戶環(huán)境下不同應(yīng)用間的內(nèi)存資源競爭問題,提出了工作負載感知的分級內(nèi)存管理框架。創(chuàng)新性地構(gòu)建了基于負載特征的用戶態(tài)內(nèi)存頁面遷移與快速內(nèi)存容量公平分配機制,從內(nèi)存資源管理、頁面遷移策略設(shè)計、頁表結(jié)構(gòu)優(yōu)化到頁面遷移機制優(yōu)化實現(xiàn)了全面創(chuàng)新。有效解決了現(xiàn)有方案中因忽視應(yīng)用特性差異而陷入“冷頁困境”(即在多租負載共置環(huán)境下,關(guān)鍵負載的重要頁面因訪問頻率相對較低被誤判為“冷”,從而被遷移到慢速內(nèi)存,導致關(guān)鍵業(yè)務(wù)性能受損)的問題。
圖1:面向多租負載共置的分級內(nèi)存管理架構(gòu)示意
框架利用PEBS(Performance Event-Based Sampling)技術(shù)實時采集與分析負載的內(nèi)存頁面訪問特征,并結(jié)合eBPF機制,靈活調(diào)整內(nèi)存頁面遷移策略,以適應(yīng)不同負載的訪存特性。特別是在 QoS 保障方面,通過 Fast Tier Hit Ratio實時度量分級效果與快慢內(nèi)存容量的動態(tài)分配策略,保障高優(yōu)先級應(yīng)用的內(nèi)存訪問效率與資源的公平分配。這一技術(shù)突破為云計算和大數(shù)據(jù)場景下的資源隔離與性能優(yōu)化提供了全新思路,有望在云平臺、新型算力網(wǎng)絡(luò)等場景中實現(xiàn)規(guī)模化應(yīng)用。
王一多等人針對云上分布式存儲系統(tǒng)中海量元數(shù)據(jù)管理的效率瓶頸,提出了機器學習驅(qū)動的元數(shù)據(jù)負載均衡框架 Origami。該框架突破了傳統(tǒng)方法僅關(guān)注元數(shù)據(jù)均勻劃分的局限性,首次以最小化用戶作業(yè)完成時間為核心目標,實現(xiàn)均衡的過程中充分考慮了元數(shù)據(jù)的局部性特征與層次結(jié)構(gòu)。該框架包括實時數(shù)據(jù)收集、近似最優(yōu)決策計算、高效模型訓練以及模型驗證等步驟,最終在負載均衡收益與訪問開銷之間實現(xiàn)了較好的權(quán)衡。
圖2:面向元數(shù)據(jù)負載均衡的模型訓練框架Origami整體架構(gòu)
實驗數(shù)據(jù)表明,Origami 框架有效解決了分布式文件系統(tǒng)中因?qū)哟位臻g和動態(tài)負載導致的訪問熱點問題,相比傳統(tǒng)方案大幅降低了用戶端到端操作的完成時延。這一成果將智能技術(shù)與云存儲系統(tǒng)深度融合,未來可廣泛應(yīng)用于云存儲、數(shù)據(jù)中心及泛在存儲等場景,為構(gòu)建低延遲、高并發(fā)的存儲架構(gòu)提供了關(guān)鍵技術(shù)支撐。
ACM ICPP(International Conference on Parallel Processing)作為并行與分布式計算領(lǐng)域的國際頂級會議(CCF推薦B類),其收錄論文需經(jīng)過國際權(quán)威學者的嚴格評審。本次中國電信云計算研究院同時斬獲兩項成果,充分體現(xiàn)了其在系統(tǒng)結(jié)構(gòu)、資源管理等方向的研究深度。ICPP 2025將于9月8日-11日在美國圣地亞哥召開,屆時我院研究團隊將與全球?qū)W者共同探討智能云基礎(chǔ)設(shè)施的技術(shù)前沿。