本文根據(jù)孫燕老師在《2019DAMS中國數(shù)據(jù)智能管理峰會》現(xiàn)場演講內(nèi)容整理而成。
講師介紹
孫燕,微博廣告基礎(chǔ)運維負責人,2009年入職新浪,任職10年間參與博客、圖片、視頻、微博平臺監(jiān)控、微博廣告多個產(chǎn)品運維,致力于運維自動化、產(chǎn)品架構(gòu)優(yōu)化、服務(wù)治理、智能監(jiān)控及以監(jiān)控為依托的服務(wù)容災建設(shè)。
圖片來源于:DBAplus社群
前言
微博現(xiàn)在日活達到了2億,微博廣告是微博最重要且穩(wěn)定的收入來源,沒有之一,所以微博廣告系統(tǒng)的穩(wěn)定性是我們廣告運維所有工作中的重中之重。
微博廣告的運維主要負責資產(chǎn)管理、服務(wù)穩(wěn)定性維護、故障應(yīng)急處理以及成本控制等多個責任。
微博廣告運維發(fā)展經(jīng)歷了如下階段:從早期小規(guī)模的手工運維到工具化運維,隨著服務(wù)器數(shù)量的發(fā)展,業(yè)務(wù)模型日漸發(fā)展,開發(fā)、運營、QA都參與到產(chǎn)品的生命周期中,我們現(xiàn)在也進入了自動化運維的階段,在新的虛擬化技術(shù)、算法技術(shù)的驅(qū)動下,我們也在朝著AIOps的方向努力。
圖片來源于:《2019DAMS中國數(shù)據(jù)智能管理峰會》PPT
在整個運維過程中,我們遇到了很多痛點,幸福的人生都是一樣的,不幸的人生各有各的不幸,各家的運維都各有各的痛點。
我們的服務(wù)器在3000臺以上,業(yè)務(wù)線及輔助資源各種各樣,產(chǎn)品迭代非??欤乙蕾囮P(guān)系復雜,流量變更,切換損失不可接受。
在這種情況下,我們面臨資產(chǎn)管理困難、環(huán)境不統(tǒng)一、上線難度大、運維成本高的問題。
圖片來源于:《2019DAMS中國數(shù)據(jù)智能管理峰會》PPT
基于這些問題,微博廣告運維工作主要集中在以下四個方面:運維自動化平臺建設(shè)、彈性計算、智能監(jiān)控、服務(wù)治理。
圖片來源于:《2019DAMS中國數(shù)據(jù)智能管理峰會》PPT
運維自動化
一個健全的自動化運維平臺必須要具備如下幾個功能:基礎(chǔ)監(jiān)控、資源管理、事件集中分析、配置管理、批量運維工具、持續(xù)集成和發(fā)布。
圖片來源于:《2019DAMS中國數(shù)據(jù)智能管理峰會》PPT
基于這些功能和需求,我們廣告運維自主研發(fā)了Kunkka平臺(微博廣告運維自主研發(fā)的自動化運維平臺)、資產(chǎn)管理、自動化上線等運維平臺。
資產(chǎn)管理是基于公司CMDB(公司級別的資產(chǎn)管理系統(tǒng))獲取到主機云服務(wù)器,針對微博廣告對資源的管理需求自建定制化的資產(chǎn)管理平臺;配置中心包括服務(wù)注冊、服務(wù)配置等功能;自動化上線涵蓋了開發(fā)在上線過程中所需要的節(jié)點和流程;自主終端是行業(yè)變化的功能實現(xiàn),大家可以通過頁面完成文件或命令下發(fā)、日志審計等各種工作。
圖片來源于:《2019DAMS中國數(shù)據(jù)智能管理峰會》PPT
Kunkka基于主機和容器,通過Salt作為傳輸層進行命令下發(fā),組件層包含開源軟件,操作層將命令頁面化,通過頁面進行日常工作和管理。
圖片來源于:《2019DAMS中國數(shù)據(jù)智能管理峰會》PPT
這樣的自動化運維平臺基本上滿足了運維的日常操作需求,在Kunkka平臺中還有自動擴縮容的功能,我們針對這個功能進行延伸。在自動擴所容的基礎(chǔ)上,根據(jù)時間段,流量進行動態(tài)判斷,自動決策的擴所容夠功能。