阿里云田濤濤:云上運維新思維
圖:阿里云彈性計算管控平臺技術負責人田濤濤
2021年10月22日,在云棲大會的《云上運維最佳實踐》分論壇,阿里云彈性計算管控平臺技術負責人田濤濤發(fā)表了主題為“云上運維新思維”的演講,為大家闡述云上運維的新形態(tài),以及阿里云彈性計算提供了哪些云上運維新能力。
以下是根據(jù)他的演講整理成的文章,主要通過三個部分來介紹云上運維新思維。
- 云上運維的新形態(tài)
- 新產(chǎn)品
- 新能力
一、云上運維的新形態(tài)
在過去的十二年里面,阿里云彈性計算快速的成長,以ECS實例為中心,構建了強大的計算力,我們最近新發(fā)布的第四代神龍架構就是典型代表,同時圍繞最中心的實例,我們構建了更好的彈性能力,從創(chuàng)建彈性到監(jiān)控運維的全生命周期,來保證客戶可以方便使用ECS和ECI。
隨著越來越多企業(yè)開始在云上使用DevOps,我們發(fā)布了“三環(huán)“產(chǎn)品,里面有很多很熟悉的產(chǎn)品,比如資源編排、運維編排等。過去很多年,我們持續(xù)打造自動化運維能力,今天給大家匯報一下過去一年我們在自動化運維能力的進展,開源生態(tài)能力的建設,以及如何更好的支持其它開源的產(chǎn)品。
過去幾年里,越來越多企業(yè)擁抱了DevOps之后,如何更好支持在云上做更好的運維,我們觀察到以下四個方面的趨勢:
- 第一,客戶已經(jīng)從傳統(tǒng)資源視角到應用視角轉變。
- 第二,應用的安全合規(guī)。
- 第三,問題診斷方面。
- 第四,開放兼容,體驗一致開放。
二、新產(chǎn)品
今天的第一個新產(chǎn)品發(fā)布是Application Manager,它的使用非常簡單。只需要選擇導入已有的資源,將自己的服務變成應用。結合應用,我們就會自動化來生成,通過分組維度的運行狀態(tài),自動化監(jiān)控報警以及通知。同時,我們還提供基于應用視角的分組維度的運維,可以一鍵完成代碼編譯到代碼發(fā)布全過程。
除了應用管理之外,另外一個重要的發(fā)布是ECS Session Manager,可以更好地管控和運維通道。它可以實現(xiàn)無密碼直接登錄服務器,可以自定義用戶界面,可以對連接記錄及運行命令進行審計,操作過程非常的簡單。
三、新能力
1、ECS Workbench新能力
ECS Workbench,在2018年年底發(fā)布的,現(xiàn)在大部分客戶選擇Workbench作為最佳的Web指令操作工作來替代傳統(tǒng)的SSH或者RDP。今天發(fā)布了很多新能力:
- 第一,命令審計的能力,甚至對高風險命令進行攔截.它可以強制拒絕一些高危命令,高危操作以及安卓后門程序,都會通過實時模式攔截。
- 第二,我們也提供了錄屏功能。只要開啟錄屏回放,所有記錄都可以實時回放。
- 最后,我們結合Session manager,更加簡化連接通道。
2、運維編排新功能
運維編排是我們提供的Pipeline(Ops) as Code的重要產(chǎn)品,今天我們繼續(xù)發(fā)布一系列的增強能力:
- 配置清單。如果你有兩臺ECS,當注冊表和配置參數(shù)不同的時候,做調優(yōu)和排查時會非常難。所以,我們會做實時數(shù)據(jù)分析和計算,找出兩臺機器的配置參數(shù)差異,并且也可以通過配置清單做分布式的大規(guī)模機器的配置下發(fā)。
- 補丁管理。很多客戶希望在補丁管理過程中做更好的定制,混合以及自定義開發(fā)。
- 參數(shù)管理。今天有很多命令和參數(shù)需要重復使用的,通過參數(shù)管理就可以把這些參數(shù)托管給阿里云。同時用戶可以對參數(shù)加密,加密之后可以保證參數(shù)管理的過程是加密可信的。
3、TAG新功能
過去幾年越來越多的客戶都已經(jīng)開始使用TAG來管理云上的資源,今天我們針對TAG的新功能再次做了升級。
- 統(tǒng)一API及控制臺,對阿里云跨所有資源類資源進行標記時,支持通過統(tǒng)一API及控制臺進行標簽管理。
- 預置標簽。這個標簽只能查看,不能變更。如果需要變更,可以交給CSV及云產(chǎn)品來更改。這樣可以方便做審計和跟蹤。
- CreatedBy,通過CreatedBy創(chuàng)建主賬號時,可以基于主賬號、子賬號、角色扮演等方式進行標簽分賬。
- 標簽模板,基于標簽使用場景配置,環(huán)境標簽、組織標簽、角色標簽、成本標簽、使用者標簽等。
4、自助排障能力提升
自助排障能力是去年云棲大會發(fā)布的重磅能力,今年繼續(xù)做了增強。去年我們的自主排障支持70多項能力,今天擴展并支持100多項能力。后臺可以實時查找出來問題所在。今天著重講的三個功能:安全組的診斷;實例在啟動和停止時的診斷;網(wǎng)絡全鏈路實時診斷。
通過我們的診斷會給你建議和方法,包括一些修復的策略,幫你自助完成整個生命周期的管理。同時我們也開放了API,可以結合自助診斷系統(tǒng)快速拿到結果。
5、Auto Scaling ECI
很多客戶希望實現(xiàn)定制模式、報警模式。一方面可以簡化自己的成本,另一方面可以簡化自己的操作,實現(xiàn)自動化擴容。我們今天也發(fā)布了Auto Scaling ECI。我們成功實現(xiàn)了免運維、低成本以及豐富的伸縮模式。用戶無需關心底層服務器,無需預先創(chuàng)建集群和維護集群,可以專注業(yè)務領域創(chuàng)新。它可以根據(jù)業(yè)務流量自動彈性伸縮,減少空置費用,可同時配置定時任務、報警任務、固定容量等多種模式。
6、云助手支持混合云
現(xiàn)在每天數(shù)以萬計的客戶,包括我們自己的CICD Build都是完全由云助手來實現(xiàn)的。云助手已經(jīng)成為云上最重要的安全管控通道之一?,F(xiàn)在云助手可以管理物理機,并且所有操作都是可審計、可追溯、可回放的。同時,你也可以把這個功能安裝在其他云平臺的服務器上,依然無縫的做管理。所以我們認為云助手將會是未來新的云的管理通道,它可能替換和簡化云的思維和運維。
7、ROS支持Terraform
很多客戶非常喜歡Terraform。Terraform是客戶端運營,需要自己構建一套機器在客戶端運營,如果出現(xiàn)問題也不能實時跟蹤和演進。資源編排一直是阿里云最重要的載體,所以我們重磅發(fā)布ROS已經(jīng)支持Terraform,并且該功能已經(jīng)上線??梢灾苯訉erraform的腳本交給ROS執(zhí)行和在客戶端運行Terraform無差別,在實現(xiàn)這個功能時,我們會在這個過程中會做審計、追蹤、實名驗證,已經(jīng)完全做到無縫的遷移。
從資源到應用上,我們發(fā)布了應用管理,極大簡化運營操作;ECS實例清單,實時做參數(shù)的對比、驗證的對比、更多的審計;我們也發(fā)布了ECI,像ECS一樣非常極簡;Session Manager,提供無密碼管控通道,讓運維更加安全。
我們相信云時代的運維將會有自己的特點。在新的云模式下如何更好做運維需要大家一起探索,讓運維變得更簡單,更智能,更自動化。
點擊大會官網(wǎng),觀看田濤濤的精彩演講視頻。
