亚洲一区精品自拍_2021年国内精品久久_男同十八禁gv在线观看_免费观看a级性爱黄片

當(dāng)前位置:文章中心>技術(shù)教程
公告通知 新聞快遞 技術(shù)教程 產(chǎn)品展示

使用ML預(yù)測磁盤故障、智能診斷部署,MSRA在云端將AIOps玩出高度

發(fā)布時間:2022-01-24 點(diǎn)擊數(shù):1027

 運(yùn)維是一家公司正常運(yùn)行的重要組成部分。為了保證在線體系的服務(wù)質(zhì)量和用戶體會,公司運(yùn)維部分需求實時監(jiān)控體系運(yùn)行狀況,以便對反常及時進(jìn)行分析和處理。傳統(tǒng)的人工運(yùn)維辦法耗時耗力,之后呈現(xiàn)了使用很多自動化腳本的自動化運(yùn)維辦法,但跟著體系規(guī)模日益增長,海量用戶、大規(guī)模集群、雜亂的體系架構(gòu)自動化運(yùn)維漸漸無能為力。

如何實時檢測反常、快速響應(yīng)毛病、猜測毛病、合理規(guī)劃容量等成為了重要研討課題。大數(shù)據(jù)和 AI 時代的到來使公司運(yùn)維邁入了智能化階段,智能運(yùn)維(AIOps)應(yīng)運(yùn)而生。

AIOps  是「Artifical Intelligence for IT Operations」的縮寫,由 Gartner 在 2016  年提出。據(jù)其解說,AIOps 有兩個主要組成部分,別離是大數(shù)據(jù)和機(jī)器學(xué)習(xí)。AIOps  需求遠(yuǎn)離數(shù)據(jù)孤島,在大數(shù)據(jù)渠道中將觀測數(shù)據(jù)(如在監(jiān)控體系和作業(yè)日志中發(fā)現(xiàn)的數(shù)據(jù))和互動數(shù)據(jù)(如在突發(fā)事件和記載中發(fā)現(xiàn)的數(shù)據(jù))聚合起來。然后,對組合  IT 數(shù)據(jù)履行全面分析和機(jī)器學(xué)習(xí)戰(zhàn)略。終究取得自動化驅(qū)動的洞察力,這些洞察力能夠完成運(yùn)維渠道持續(xù)的修復(fù)和改進(jìn)。

image.png

圖源:Gartner

伴跟著各行業(yè)數(shù)字化轉(zhuǎn)型的趨勢以及近年來新冠疫情帶來的長途作業(yè)、協(xié)同協(xié)作需求,云核算進(jìn)一步蓬勃發(fā)展。Gartner  研討副總裁 Sid Nag 以為云現(xiàn)已成為干流戰(zhàn)略,「下一代的產(chǎn)品方案,幾乎都是搭建于云渠道上的?!乖絹碓蕉嗟氖褂梅?wù)轉(zhuǎn)向了云端,5G  也為云核算的發(fā)展注入了新的生機(jī)??墒牵絹碓蕉嗟挠脩羯显?,體系辦理正面對著前所未有的應(yīng)戰(zhàn)。

AIOps 與云服務(wù)的交融

在 1 月 13 日的微軟亞洲研討院「智能運(yùn)維」媒體交流會,微軟亞洲研討院副院長、微軟杰出首席科學(xué)家張冬梅以為,AIOps 應(yīng)經(jīng)過立異的 AI 或 ML 技能,有用且高效地規(guī)劃、構(gòu)建并運(yùn)營大規(guī)模的雜亂云服務(wù)。

image.png

張冬梅。圖源:msra

其間,AIOps 又可分為不同的服務(wù)對象以及不同的服務(wù)方針:

AI for System(服務(wù) / 體系):規(guī)劃和構(gòu)建更可靠、更高功能和更高功率的高質(zhì)量服務(wù);

AI for DevOps(開發(fā) / 運(yùn)維):使用智能工具為工程人員賦能,在 DevOps 中完成高生產(chǎn)力;

AI for Customer(客戶):經(jīng)過智能化和更好的用戶體會,改進(jìn)客戶滿意度。

下圖為 AIOps 別離針對服務(wù) / 體系、開發(fā) / 運(yùn)維和客戶的使用場景:

image.png

從使用場景能夠看出,AIOps 的研討主要聚焦于檢測、確診、猜測和優(yōu)化四個范疇,每個范疇包括的運(yùn)維使命不同,又各自面對不同的應(yīng)戰(zhàn)。咱們以檢測為例,包含了時刻序列的反常檢測、根據(jù)日志的反常檢測以及多維度變化檢測等使命,但檢測過程中面對著差異化需求、噪音數(shù)據(jù)、高緯度以及標(biāo)示數(shù)據(jù)缺少等應(yīng)戰(zhàn)。

image.png

一直以來,微軟亞洲研討院致力于探索  AIOps 范疇的研討邊界。10 年前,率先開發(fā)云智能以及 AIOps  相關(guān)范疇的研討,在該范疇提出了全新的辦法與規(guī)劃,如自動體系規(guī)劃(Proactive System  Design)、數(shù)據(jù)驅(qū)動型安全布置(Data-driven Safe Deployment),并在  ICSE/FSE(軟件工程范疇)、OSDI/NSDI(核算機(jī)網(wǎng)絡(luò)體系范疇)以及  AAAI/IJCAI(人工智能范疇)等全球高影響力學(xué)術(shù)會議上發(fā)表論文 50 多篇。

其間,與天津大學(xué)智能與核算學(xué)部軟件工程團(tuán)隊、紐斯卡爾大學(xué)等協(xié)作完成的論文《  How Long Will it Take to Mitigate this Incident for Online Service  Systems? 》更是取得了 ISSRE 2021 唯一最佳論文獎。


實踐中的 AIOps 技能

利用大規(guī)模數(shù)據(jù)發(fā)掘、機(jī)器學(xué)習(xí)和人工智能技能,微軟亞洲研討院開發(fā)了一系列 AIOps 立異技能,并現(xiàn)已在云體系的毛病猜測、反常檢測、智能確診、容量規(guī)劃、事端辦理等許多實際使用場景中落地,極大地提升了工業(yè)生產(chǎn)力、服務(wù)質(zhì)量和用戶體會和。研討成果現(xiàn)已使用到了微軟 Skype、OneDrive、Office 365、Azure 等許多在線服務(wù)中。

微軟亞洲研討院首席研討員林慶維以磁盤毛病猜測、安全布置確診和智能虛擬機(jī)預(yù)裝備(PPS)為例展示了 AIOps 在軟硬件毛病猜測、智能確診和智能化建議 / 提示等三個使用場景中的落地及完成作用。

首先,硬盤毛病猜測。在毛病產(chǎn)生之前,提前猜測以防止可能的損失是智能服務(wù)的殺手锏。咱們知道,硬件毛病是形成虛擬機(jī)(VM)宕機(jī)和重啟的最主要原因之一,而磁盤毛病又是形成硬件毛病的主要原因。在磁盤完全失效前,虛擬機(jī)就會遭到影響,并且磁盤數(shù)據(jù)存儲散布極點(diǎn)失衡,磁盤健康狀態(tài)也會遭到鄰近磁盤的影響,

針對這些特征,微軟亞研在論文《NTAM:  Neighborhood-Temporal Attention Model for Disk Failure Prediction in  Cloud Platforms》中提出了鄰域 - 時刻注意力模型(Neighborhood-Temporal Attention Model,  NTAM),這是一種根據(jù)深度學(xué)習(xí)的全新磁盤毛病猜測辦法。此外,本文還提出了時刻漸進(jìn)采樣法(Temporal Progressive  Sampling, TPS),一種用于處理極點(diǎn)數(shù)據(jù)失衡的數(shù)據(jù)增強(qiáng)辦法。

論文地址:https://dl.acm.org/doi/10.1145/3442381.3449867

下圖為  NTAM 模型概覽。微軟亞研在公共數(shù)據(jù)集以及從微軟 Azure 中收集數(shù)百萬個磁盤創(chuàng)立的兩個工業(yè)數(shù)據(jù)集上對該模型進(jìn)行了評估。結(jié)果表明,NTAM  顯著優(yōu)于其他 SOTA 模型。更值得重視的是,NTAM 和 TPS 辦法現(xiàn)已使用到了微軟 Azure 和微軟 365  等云渠道中,并在工業(yè)實踐中取得收益。

image.png

其次,安全布置確診。不規(guī)范、不安全布置會可能會引發(fā)災(zāi)難事端,因而針對布置的反常檢測(Anomaly Detection)非常重要。微軟亞研采用的辦法如下圖所示:

image.png

其間,在檢測反常過程中,微軟亞研在論文《Cross-dataset  Time Series Anomaly Detection for Cloud Systems》中提出了自動遷移學(xué)習(xí)反常檢測(Active  Transfer Anomaly Detection,  ATAD),它集成了遷移學(xué)習(xí)和自動學(xué)習(xí)技能。遷移學(xué)習(xí)用于將知識從源數(shù)據(jù)集遷移至方針數(shù)據(jù)集,自動學(xué)習(xí)用于確認(rèn)未標(biāo)示數(shù)據(jù)集中一小部分樣本的信息標(biāo)簽。

論文地址:https://www.usenix.org/conference/atc19/presentation/zhang-xu

ATAD 概覽如下。微軟亞研經(jīng)過實驗證明了 ATAD 在跨數(shù)據(jù)集時刻序列反常檢測中的有用性,只需求少于 0.1% 的人工標(biāo)示即可完成杰出的準(zhǔn)確率。

image.png

最后,智能虛擬機(jī)預(yù)裝備。作為最常見的核心操作,虛擬機(jī)裝備對用戶體會產(chǎn)生直接影響。裝備功能不良會形成長時刻等候?qū)е驴蛻舨粷M意,并且難以處理大客戶的批量懇求,形成巨大經(jīng)濟(jì)損失。微軟  Azure 中的預(yù)裝備服務(wù)(Pre-Provisioning Service, PPS)經(jīng)過創(chuàng)立預(yù)裝備的虛擬機(jī)提升了 VM  布置的功能,帶來了可靠性和延遲收益。

image.png

不過,仍然面對一些應(yīng)戰(zhàn),比如可猜測的  VM 需求量少,存在很多的 VM 類型和差異化 VM  需求形式。此外,猜測不確認(rèn)不可防止,難以歸入優(yōu)化體系中。決議計劃變量和約束條件是離散,且離散域的優(yōu)化是 NP -  難問題。對此,微軟亞研提出了全新的辦法結(jié)構(gòu),將不確認(rèn)性感知結(jié)構(gòu)用于猜測與優(yōu)化。結(jié)果表明,微軟亞研提出的辦法完成了相較于其他競品更優(yōu)的體現(xiàn)。

image.png

未來,微軟亞洲研討院將致力于「更自動化、更自動化和更通用化」的智能運(yùn)維,更高效地賦能于運(yùn)維人員、開發(fā)者和客戶。