什么是AIOps?
自Gartner于2016年創(chuàng)造AIOps一詞以來,人工智能已成為先進(jìn)技術(shù)世界的流行語。AIOps的目標(biāo)是自動化復(fù)雜的IT系統(tǒng)解決方案,同時簡化其操作。
簡單地說,AIOps是一種轉(zhuǎn)型方法,它使用機(jī)器學(xué)習(xí)和AI技術(shù)來運行諸如事件關(guān)聯(lián)、監(jiān)控、服務(wù)管理、可觀察性和自動化等操作。
借助AIOps,您可以收集和匯總從可觀察性和監(jiān)控系統(tǒng)、不同應(yīng)用程序或基礎(chǔ)架構(gòu)生成的不斷增加的數(shù)據(jù),過濾噪音以識別系統(tǒng)性能和可用性問題的事件和模式,并確定根本原因并經(jīng)常自動解決它們或?qū)⒕瘓蟀l(fā)送給IT團(tuán)隊。
如果您不使用AIOps來完成該過程,那么將很難與快速發(fā)生的技術(shù)創(chuàng)新一起運行。此外,如果您依賴傳統(tǒng)知識和舊系統(tǒng),您的IT運營更有可能變得不可預(yù)測和不可擴(kuò)展。
正如Gartner預(yù)測的那樣,到2023年,40%的DevOps團(tuán)隊可能會在其應(yīng)用程序和基礎(chǔ)設(shè)施監(jiān)控工具中實施AIOps,以實現(xiàn)更好的平臺性能和功能。
AIOps架構(gòu)
AIOps架構(gòu)提供了有助于無縫集成企業(yè)監(jiān)控、服務(wù)管理和自動化的方法和技術(shù),以提供完整的AIOps解決方案。
AIOps架構(gòu)支持跨操作監(jiān)控的洞察力。
如上圖所示,AIOps在IT運營方面具有三個關(guān)鍵領(lǐng)域,即Monitor(Observe)、Engage和Act。
與傳統(tǒng)的事件管理和監(jiān)控工具不同,在可觀察性方面,基于機(jī)器學(xué)習(xí)的功能用于確保在滿足組織的監(jiān)控需求的同時,無論其架構(gòu)如何,都不會留下空白或盲點。
在可觀察性階段,發(fā)生的主要過程包括數(shù)據(jù)攝取、數(shù)據(jù)集成、事件抑制、事件去重、基于規(guī)則的關(guān)聯(lián)、機(jī)器學(xué)習(xí)關(guān)聯(lián)(包括異常檢測、事件關(guān)聯(lián)、根本原因分析和預(yù)測分析)、可視化、協(xié)作和反饋。
AIOps架構(gòu)的參與部分與IT服務(wù)管理(ITSM)及其通過不同指標(biāo)和功能處理流程及其執(zhí)行的功能有關(guān)。
由于Engage部分處理服務(wù)管理的數(shù)據(jù),它充當(dāng)ITSM中發(fā)生的所有活動或操作的存儲庫,包括問題管理、配置管理、事件管理、變更管理、容量管理、可用性和服務(wù)級別協(xié)議.
在可觀察性事件中,指標(biāo)、跟蹤和日志充當(dāng)主要數(shù)據(jù);在Engage中,主要數(shù)據(jù)仍然圍繞在不同流程中的操作執(zhí)行情況,其中數(shù)據(jù)是按需和實時分析的混合。
Engage的主要階段包括事件創(chuàng)建、任務(wù)分配、任務(wù)分析、代理分析、變更分析、流程分析、可視化、協(xié)作和反饋。
最后,在Act階段,實際的技術(shù)任務(wù)執(zhí)行發(fā)生。該行為是執(zhí)行所有技術(shù)任務(wù)的最后階段,例如變更執(zhí)行、事件解決、服務(wù)請求執(zhí)行等。在這里發(fā)現(xiàn)的所有事件都得到解決,系統(tǒng)恢復(fù)正常狀態(tài)。
AIOps是如何工作的?
您可以通過查看支持其流程的技術(shù)組件(機(jī)器學(xué)習(xí)、大數(shù)據(jù)和自動化)來簡單地了解AIOps的工作原理。AIOps在獨立部署時效果最佳,并提供一個集中式系統(tǒng)來協(xié)作收集和分析來自多個監(jiān)控源的數(shù)據(jù)。
注意:數(shù)據(jù)可以包括流式實時事件、網(wǎng)絡(luò)數(shù)據(jù)、歷史性能事件、系統(tǒng)日志和指標(biāo)、事件相關(guān)或票務(wù)。
收集數(shù)據(jù)后,AIOps實施機(jī)器學(xué)習(xí)和分析功能,以:
- 從大量數(shù)據(jù)中識別和分離重要的異常事件警報。
- 發(fā)現(xiàn)異常事件的根本原因并提出解決方案。
- 自動向運營分析師發(fā)出警報以及建議的解決方案。
- 根據(jù)問題的性質(zhì)為異常事件創(chuàng)建補救措施并實時解決問題。
最后,基于分析結(jié)果,AIOps的機(jī)器學(xué)習(xí)有助于調(diào)整算法,甚至創(chuàng)建新算法來確定早期階段的問題并提出極具影響力的解決方案。簡而言之,鑒于之前的結(jié)果,AIOps模型繼續(xù)改進(jìn)。
AIOps的核心要素
說到這里,你一定知道,AIOps背后的核心要素是大數(shù)據(jù)和機(jī)器學(xué)習(xí)。
為了理解這兩個術(shù)語,我們將在這里更好地了解它們。
1.大數(shù)據(jù)
由于AIOps從眾多資源中獲取數(shù)據(jù),因此基于大數(shù)據(jù)技術(shù)構(gòu)建AIOps平臺至關(guān)重要。大數(shù)據(jù)是指使用傳統(tǒng)軟件進(jìn)行數(shù)據(jù)處理無法處理的復(fù)雜、龐大的數(shù)據(jù)集。它包含的數(shù)據(jù)種類更多、數(shù)量增加且速度快,也被稱為大數(shù)據(jù)的三個V。
由于AIOps將來自不同來源的大型、復(fù)雜、多變的數(shù)據(jù)集集成到數(shù)據(jù)倉庫中,因此如果不使用大數(shù)據(jù)平臺,處理如此大量數(shù)據(jù)的速度可能會變得難以管理。
2.機(jī)器學(xué)習(xí)
AIOps的第二個也是最重要的部分是機(jī)器學(xué)習(xí),這是人工智能的一個關(guān)鍵方面。機(jī)器學(xué)習(xí)的核心是研究人類行為,以使用算法和數(shù)據(jù)來復(fù)制它們。當(dāng)ML在獲取信息以解決任務(wù)后實施時,它可以提供比人類本身更好的結(jié)果準(zhǔn)確性。
同樣,ML幫助AIOps平臺利用其能力來分析數(shù)據(jù)并檢測模式和異常,同時監(jiān)控事件和實體。然后使用分析的數(shù)據(jù)來提供見解并找到根本原因警報。
AIOps的好處和挑戰(zhàn)
AIOps的主要優(yōu)勢如下:
- 更高的系統(tǒng)可用性:由于AIOps確?,F(xiàn)代混合基礎(chǔ)設(shè)施的最大應(yīng)用程序可用性,它已成為潛在的游戲規(guī)則改變者。
- 在修復(fù)的同時更好地遵守SLA:與IT服務(wù)管理功能集成,AIOps可以找到事件模式,識別有用的見解,并允許自動化解決方案。所有這些都減少了平均修復(fù)時間,同時超出了SLA合規(guī)性。
- 最小的人為錯誤:由于AIOps自動化了IT團(tuán)隊處理的大多數(shù)日常和迭代的操作任務(wù),它同時減少了人為錯誤。
- 更好的自動化事件檢測:AIOps節(jié)省了大量時間,因為它通過引導(dǎo)事件分析來驗證事件,從而減少了由于偽事件而產(chǎn)生的噪音。
- 預(yù)測和憤怒預(yù)防:AIOps使用基本KPI來衡量運營績效,創(chuàng)建智能建議以幫助IT運營完成其目標(biāo)。
- 成本優(yōu)化:成熟的AIOps系統(tǒng)可以通過將任務(wù)從人類轉(zhuǎn)移到算法來有效地降低運營成本,從而引導(dǎo)人力資源將時間花在其他重要任務(wù)上。
- 更好的環(huán)境可見性:使用AIOps,企業(yè)可以識別機(jī)會、制定戰(zhàn)略決策并識別IT運營中的低效率。
AIOps面臨的一些挑戰(zhàn)是:
- 困難的組織變革管理。
- 不匹配的期望。
- 剛性過程。
- 數(shù)據(jù)可用性和監(jiān)控困難。
- 缺乏領(lǐng)域輸入。
- 不準(zhǔn)確的預(yù)測分析。
- 由于數(shù)據(jù)漂移,歷史數(shù)據(jù)的最低準(zhǔn)確度。
- 難以理解機(jī)器學(xué)習(xí)。
AIOps的用例
眾所周知,AIOps旨在收集和分析IT運營數(shù)據(jù)。AIOps的一些流行用例包括:
異常檢測
AIOps不斷分析數(shù)據(jù)并將其與有助于檢測潛在問題的歷史事件進(jìn)行比較。
事件事件關(guān)聯(lián)
您可以將AIOps用于事件事件關(guān)聯(lián),因為它可以快速處理和分析事件數(shù)據(jù),同時在問題失控之前提供解決方案。
預(yù)測分析
除了早期錯誤檢測外,具有數(shù)據(jù)收集和分析功能的AIOps還可以幫助機(jī)器學(xué)習(xí)算法了解當(dāng)前和歷史數(shù)據(jù)趨勢,同時提供對未來結(jié)果的可行見解。
數(shù)字化轉(zhuǎn)型
隨著AIOps從ITOps中消除新技術(shù)的復(fù)雜性,創(chuàng)造了一個不受限制的轉(zhuǎn)換的新空間。它可以幫助組織利用靈活性來實現(xiàn)新的進(jìn)步來處理他們的戰(zhàn)略目標(biāo)。
根本原因分析
人們還可以使用AIOps通過關(guān)聯(lián)大量數(shù)據(jù)點、跟蹤事件模式等來分析根本原因。AIOps的根本原因分析可幫助企業(yè)及其用戶更有效地識別和解決問題,從而改善客戶體驗。
云采用/遷移
借助AIOps,可以清楚地了解云采用和遷移正在轉(zhuǎn)變的相互依賴關(guān)系,從而最大限度地降低與這種轉(zhuǎn)變相關(guān)的風(fēng)險。
AIOps的未來
鑒于技術(shù)的進(jìn)步,大多數(shù)組織正在從傳統(tǒng)基礎(chǔ)架構(gòu)轉(zhuǎn)變?yōu)樵谔摂M化環(huán)境中運行的動態(tài)基礎(chǔ)架構(gòu),可以根據(jù)需要進(jìn)行重新配置和擴(kuò)展。
但是,正如我們所知,這些系統(tǒng)往往會無休止地生成大量數(shù)據(jù)。甚至Gartner也表示,IT基礎(chǔ)設(shè)施更有可能每年創(chuàng)建兩到三倍的運營數(shù)據(jù)。
毋庸置疑,傳統(tǒng)解決方案無法跟上這樣的數(shù)據(jù)量,無法對周圍環(huán)境中的事件進(jìn)行分類或關(guān)聯(lián)數(shù)據(jù)以提供對IT運營的實時分析和洞察以滿足客戶需求。
但是,由于AIOps在分析數(shù)據(jù)、提取異常事件或自動向IT團(tuán)隊發(fā)出警報時提供對整個基礎(chǔ)架構(gòu)的依賴關(guān)系和性能的可見性,它成為現(xiàn)代組織的最佳解決方案。
毫無疑問,AIOps是利用現(xiàn)代機(jī)器學(xué)習(xí)和大數(shù)據(jù)以及其他高級分析技術(shù)的平臺,通過找到問題的根本原因并提供推薦的解決方案,通過動態(tài)、主動和個性化的洞察力來改進(jìn)IT運營。
- 上一篇
管理大數(shù)據(jù)的開創(chuàng)性技巧
多年來,關(guān)于大數(shù)據(jù)的言論和著作很多。許多人認(rèn)為,隨著大數(shù)據(jù)的進(jìn)步,生活的各個領(lǐng)域都會變得更好。然而,專家們正在努力尋找更好、更高效、更有效的方式來管理大數(shù)據(jù)。什么是大數(shù)
- 下一篇
什么是集成學(xué)習(xí)?
最強大的機(jī)器學(xué)習(xí)技術(shù)之一是集成學(xué)習(xí)。集成學(xué)習(xí)是使用多種機(jī)器學(xué)習(xí)模型來提高預(yù)測的可靠性和準(zhǔn)確性。然而,使用多個機(jī)器學(xué)習(xí)模型如何導(dǎo)致更準(zhǔn)確的預(yù)測?使用什么樣的技術(shù)來創(chuàng)建