金山云魏代政解讀:移動(dòng)視頻云初建平臺(tái)是怎樣煉成的
2016年直播風(fēng)頭正勁,云公司也迎來春風(fēng)。縱觀視頻云市場,金山視頻云異軍突起,在移動(dòng)直播領(lǐng)域拔得頭籌,一舉成為移動(dòng)視頻云初建平臺(tái)。僅僅半年,排名前200的直播App中有一半已經(jīng)是金山視頻云的客戶。
那么,是什么使金山視頻云在短短半年內(nèi)成為行業(yè)的絕對(duì)領(lǐng)導(dǎo)者呢?這個(gè)業(yè)內(nèi)公認(rèn)的“移動(dòng)視頻云初建平臺(tái)”在運(yùn)維上又有哪些絕招呢? 這些疑問在GOPS2016全球運(yùn)維大會(huì)上得到了解答。
12月16日,在高效運(yùn)維主辦的GOPS2016全球運(yùn)維大會(huì)-北京站上,金山云視頻云事業(yè)部運(yùn)維總監(jiān)魏代政發(fā)表了題為《視頻直播運(yùn)維難點(diǎn)與解決方案》的主題演講,對(duì)金山視頻云運(yùn)維經(jīng)驗(yàn)進(jìn)行了干貨分享。
金山云視頻云事業(yè)部運(yùn)維總監(jiān)魏代政在發(fā)表演講
他指出,優(yōu)質(zhì)的云架構(gòu)是平臺(tái)的根基和靈魂,金山視頻云具備一站式,超融合的解決方案,服務(wù)能力方面追求高吞吐和高可靠。監(jiān)控全面精準(zhǔn)、故障快速隔離、科學(xué)的容量調(diào)度與建設(shè)規(guī)劃,是保障超大規(guī)模視頻CDN系統(tǒng)持續(xù)穩(wěn)定運(yùn)行的三大首要任務(wù)。
一站式、超融合、高吞吐、高可靠,打造完美視頻云解決方案
從解決方案角度,金山視頻云具備一站式,超融合的特點(diǎn),即:從播放SDK到CDN系統(tǒng),從CDN系統(tǒng)到直播源站,從直播源站到點(diǎn)播源站,在線/離線轉(zhuǎn)碼,連麥服務(wù),美顏&動(dòng)態(tài)貼紙等,一應(yīng)俱全,可以為客戶一站式解決所有問題。
與此同時(shí),兼容和友商進(jìn)行源流互推共享,方便用戶整合各家云服務(wù)優(yōu)勢(shì)達(dá)到自身服務(wù)質(zhì)量的極致提升。
從服務(wù)能力方面,金山視頻云一直秉承高吞吐,高可靠的追求。
而在基礎(chǔ)設(shè)施建設(shè)方面,金山視頻云的CDN具備6大三線上層、200+CDN節(jié)點(diǎn)、6TB帶寬儲(chǔ)備,并計(jì)劃在2017年實(shí)現(xiàn)500+節(jié)點(diǎn)、10TB帶寬儲(chǔ)備。在直播源站方面則具備10萬路流、5萬路實(shí)時(shí)轉(zhuǎn)碼,而且整個(gè)架構(gòu)具備快速水平擴(kuò)展能力。
從上述數(shù)據(jù)不難看出,金山視頻云的海量流量承載能力,能力的背后是大量的節(jié)點(diǎn)和設(shè)備,和眾多條可用數(shù)據(jù)鏈路的冗余。那么,面對(duì)如此多的機(jī)房、設(shè)備以及眾多的網(wǎng)絡(luò)數(shù)據(jù)流鏈路,在如此之快的成長和發(fā)展速度下,金山視頻云是如何保障平臺(tái)穩(wěn)定性,如何做到高可靠呢?
魏代政指出,監(jiān)控全面精準(zhǔn)、故障快速隔離、科學(xué)的容量調(diào)度與建設(shè)規(guī)劃是保障金山視頻云服務(wù)持續(xù)高速發(fā)展的三個(gè)首要任務(wù)。
運(yùn)維主動(dòng)出擊,將隱患扼殺于萌芽階段
對(duì)于云平臺(tái)而言,面對(duì)超大規(guī)模CDN系統(tǒng),應(yīng)如何保證平臺(tái)持續(xù)穩(wěn)定運(yùn)行呢?在運(yùn)維方面,需要實(shí)現(xiàn)以下目標(biāo),即:
l 監(jiān)控&巡檢:全面無遺漏、告警精準(zhǔn)數(shù)量少、定位問題速度快,發(fā)現(xiàn)問題于萌芽;
l 集群機(jī)器管理:故障快速隔離、故障修復(fù)優(yōu)先級(jí)、全程可控?zé)o泄漏;
l 帶寬容量管理:容量安全不過載、流量徒增扛得住、滿足保底不浪費(fèi)、容忍節(jié)點(diǎn)離線割接、容忍節(jié)點(diǎn)故障離線。
保障監(jiān)控全面精準(zhǔn)
金山視頻云監(jiān)控是一個(gè)全鏈路的系統(tǒng)架構(gòu),從基礎(chǔ)設(shè)施到軟件服務(wù)到用戶請(qǐng)求再到用戶端上的數(shù)據(jù),統(tǒng)統(tǒng)進(jìn)行了全面收集和整合分析?;阪溌繁O(jiān)控,可以精準(zhǔn)的發(fā)現(xiàn)是在全鏈路的哪個(gè)環(huán)節(jié)上出現(xiàn)了故障,如“鷹眼”般敏銳、精準(zhǔn)。
故障快速隔離
CDN是一個(gè)超大型的分布式緩存,從設(shè)備和網(wǎng)絡(luò)資源方面都有很大的冗余度,能夠容忍單點(diǎn)故障。能精確識(shí)別出來的故障(物理機(jī)故障,網(wǎng)絡(luò)故障,軟件故障燈),要做到快速隔離,這是快速止損保證服務(wù)質(zhì)量的有效方式。
在大規(guī)模節(jié)點(diǎn)設(shè)備維護(hù)方面,金山云CDN有一整套機(jī)器全生命周期管理系統(tǒng),做到機(jī)器設(shè)備從采購到上線服務(wù),從上線服務(wù)到故障離線,從故障離線到修復(fù)回歸線上的整個(gè)機(jī)器生命周期全程跟蹤,并實(shí)現(xiàn)了部分狀態(tài)轉(zhuǎn)換的自動(dòng)化。
金山視頻云在機(jī)器采購、預(yù)處理、壓測、初始化到機(jī)器故障被摘除及故障處理的各個(gè)環(huán)節(jié)中,充分保障機(jī)器的各種生命狀態(tài)的管理和維護(hù)。如果出現(xiàn)故障,第一時(shí)間進(jìn)行快速隔離、修復(fù)、再利用。各個(gè)狀態(tài)的機(jī)器時(shí)刻在監(jiān)控,就像帶領(lǐng)士兵打仗一樣,高度自動(dòng)化的盤點(diǎn)前線士兵數(shù)量,受傷的士兵數(shù)量,及時(shí)撤下傷員,快速跟進(jìn)并治愈傷員再次派上戰(zhàn)場,各個(gè)環(huán)節(jié)銜接流暢,處理及時(shí),從而實(shí)現(xiàn)機(jī)器的高在線率、高出勤率,保證群體總戰(zhàn)斗力輸出。
科學(xué)的容量調(diào)度與建設(shè)規(guī)劃
容量管理成功的關(guān)鍵在于容量調(diào)度和建設(shè)規(guī)劃。
調(diào)度是以帶寬容量數(shù)據(jù)為依據(jù),數(shù)據(jù)的準(zhǔn)確性決定了調(diào)度系統(tǒng)的表現(xiàn)是否符合預(yù)期,保證容量數(shù)據(jù)的準(zhǔn)確性是做好容量管理和調(diào)度的關(guān)鍵。金山視頻云對(duì)帶寬容量數(shù)據(jù)有多種持續(xù)進(jìn)行的稽核手段,從CDN日志和交換機(jī)物理層面采集進(jìn)行了例行的稽核,進(jìn)而保障數(shù)據(jù)的準(zhǔn)確性,一旦出現(xiàn)問題立即人工介入干預(yù),及時(shí)消除數(shù)據(jù)噪聲,將數(shù)據(jù)修正,保證調(diào)度系統(tǒng)的數(shù)據(jù)支撐是正確可靠的。
建設(shè)規(guī)劃方面,金山視頻云根據(jù)中國核心運(yùn)營商的網(wǎng)絡(luò)結(jié)構(gòu)特點(diǎn),結(jié)合自身容量數(shù)據(jù),按照一定的片區(qū)、省份對(duì)各個(gè)運(yùn)營商的資源利用率進(jìn)行分析,產(chǎn)出建設(shè)決策,做到片區(qū)利用率均衡,每個(gè)省份和片區(qū)都具備一定的冗余帶寬,容忍流量徒增,容忍部分節(jié)點(diǎn)因故障或者割接而暫時(shí)離線。
在目前階段,為了保證服務(wù)的絕對(duì)穩(wěn)定,金山視頻云的調(diào)度采用了“自動(dòng)化方式調(diào)度”+“人工干預(yù)”的雙保險(xiǎn)機(jī)制,來實(shí)現(xiàn)容量安全不過載、流量徒增扛得住、滿足保底不浪費(fèi)、容忍節(jié)點(diǎn)離線的目標(biāo),隨著調(diào)度系統(tǒng)的不斷優(yōu)化,目前人工干預(yù)已經(jīng)變得很少。
移動(dòng)視頻云初建平臺(tái)并非一蹴而就,金山視頻云在客戶積累中獲取經(jīng)驗(yàn),在培育市場的同時(shí),不斷地提高自身的技術(shù)輸出能力。作為視頻云領(lǐng)域的先行者,金山視頻云還將在技術(shù)上持續(xù)打磨、與時(shí)俱進(jìn),以技術(shù)引領(lǐng)視頻行業(yè)的革新,將未來“視”界帶到今天。
關(guān)注我們
