想要多活又心疼錢?咋不瞧瞧青云的真正多活呢?
來源:DOIT 作者:朱朋博
太陽每天照常升起,如果哪天太陽也出了故障,跟往常不一樣了,那絕對是世界級大新聞,首先得慶幸這樣的事情通常只會(huì)出現(xiàn)在科幻電影里。
Github是程序員的世界里類似的存在。2015年的統(tǒng)計(jì)數(shù)字顯示,Github托管了5700萬個(gè)代碼倉庫,有2800萬個(gè)用戶活躍在Github上,Github的用戶對故障不陌生,每次Github出故障都能引起一番熱議。最近一次故障中,Github的中斷持續(xù)了24小時(shí),用戶無法提交代碼更新,也沒辦法從Github下載最新版本的代碼,正常的工作節(jié)奏完全被打亂了。
“星軌”可能是中國互聯(lián)網(wǎng)服務(wù)商創(chuàng)造的新名詞,說是新浪微博衡量服務(wù)器抗壓能力的新單位,一星軌表示一個(gè)一線明星出軌給新浪微博所帶來的流量,據(jù)說微博的服務(wù)器現(xiàn)在能同時(shí)抗擊8星軌,類似的描述常見于描述樓梯的抗八級地震一樣。不久前的“官宣”事件又一次突破了新浪微博服務(wù)器的承重,服務(wù)部分中斷了,廣大網(wǎng)友把官宣玩壞了,也順帶把新浪微博的技術(shù)人員又嚇了一跳。
說了這么多,就只是想說,故障,宕機(jī)什么的,離我們普通人真的很近,這些上了新聞的只是其中一少部分,更多故障宕機(jī)之類的事件廣大網(wǎng)友根本察覺不到,系統(tǒng)就被修復(fù)到能對外服務(wù)了,這類專門應(yīng)對故障宕機(jī)的系統(tǒng)常見的就有多活系統(tǒng)。
多活系統(tǒng)通常是為了增強(qiáng)系統(tǒng)的可靠性、業(yè)務(wù)的連續(xù)性,使用業(yè)務(wù)運(yùn)行不受故障/災(zāi)難影響。
Github也搭建了多活系統(tǒng),結(jié)果多活系統(tǒng)出了故障。Github的兩個(gè)機(jī)房的網(wǎng)絡(luò)出現(xiàn)中斷,服務(wù)發(fā)生切換中由于多活系統(tǒng)考慮不全,導(dǎo)致系統(tǒng)發(fā)生腦裂,兩個(gè)機(jī)房的數(shù)據(jù)不一致。為了保證用戶數(shù)據(jù)的一致性不得不停服,24小時(shí)之后數(shù)據(jù)才得以恢復(fù)。青云QingCloud運(yùn)營副總裁林源向筆者介紹說。
故障之后多活系統(tǒng)就開始發(fā)揮作用了,評價(jià)多活水平的是RTO和RPO。RTO是指業(yè)務(wù)恢復(fù)時(shí)間,就好比玩游戲時(shí)卡的時(shí)候到恢復(fù)的時(shí)間段,游戲時(shí)最常見的應(yīng)該是網(wǎng)絡(luò)故障。RPO表示故障丟失的數(shù)據(jù)量,剛才完成的操作系統(tǒng)給丟了,比如你買了裝備,一轉(zhuǎn)眼故障后裝備沒了錢也沒了,也可能是你擊殺了別的玩家,一眨眼回來顯示你輸了。
玩游戲還好,要是偶爾銀行故障的RTO、RPO的水平低了,也來這么一回,那事情可就大了。
雙活雖然好,但是貴,建造也麻煩,好在不是誰都需要雙活,比如你手里的手機(jī)偶爾莫名重啟一下,那沒啥事兒。
要是雙十一的時(shí)候,明明零點(diǎn)搶到了特價(jià)iPhoneX MAX,一眨眼,錢也付了,訂單丟了,店家說看不見,你說你付了錢,那不得哭啊。要是雙十一的時(shí)候,下單的按鈕始終點(diǎn)不了,錢一直付不了,每秒幾十萬、幾百萬、幾千萬訂單額的商家不得哭暈在廁所嗎?
要是銀行的大型機(jī)也莫名其妙的重啟了,那叫超級大事故,經(jīng)濟(jì)秩序可能就亂掉了。銀行、保險(xiǎn)、重型制造、電力等涉及國計(jì)民生的業(yè)務(wù)系統(tǒng)如果出現(xiàn)不可恢復(fù)的故障,那后果真實(shí)不堪設(shè)想。所以,這些場景要求數(shù)據(jù)不能丟。
林源介紹說,像銀行的IT架構(gòu)都需要符合銀監(jiān)會(huì)的規(guī)定,需要有兩地三中心。所謂兩地三中心,兩地是指兩個(gè)城市,三中心是指三個(gè)數(shù)據(jù)中心。同城的數(shù)據(jù)中心相互間是雙活系統(tǒng),異地的一個(gè)數(shù)據(jù)中心則主要負(fù)責(zé)備份,以此保障數(shù)據(jù)的安全性,業(yè)務(wù)的連續(xù)性。
兩地三中心固然好,缺點(diǎn)就是貴。
前期投入在兩個(gè)城市建三個(gè)數(shù)據(jù)中心,貴!三個(gè)機(jī)房的軟硬設(shè)備,連接設(shè)備,貴!業(yè)務(wù)上線后,需要很多專門的運(yùn)維人員,貴!
林源介紹說,建這么一套復(fù)雜的系統(tǒng)下來至少得一兩年,時(shí)間就是金錢企業(yè)絕對。青云在構(gòu)建北京大區(qū)、廣東大區(qū)和上海大區(qū)的時(shí)候,每個(gè)區(qū)域、每個(gè)城市至少需要一年時(shí)間,就這還算快的。
通常所說的多活是指業(yè)務(wù)的多活,業(yè)務(wù)的多活是最終要求。他需要數(shù)據(jù)中心網(wǎng)絡(luò)互通、數(shù)據(jù)安全、負(fù)載遷移等層面層層遞進(jìn),底層任意一個(gè)環(huán)節(jié)出現(xiàn)問題,整套多活系統(tǒng)可能會(huì)崩潰。
GitHub多活系統(tǒng)也是煞費(fèi)苦心,GitHub投入巨大,在兩個(gè)數(shù)據(jù)中心間買了100G光纖做互聯(lián),做了非常充足的準(zhǔn)備,結(jié)果還是出了問題。服務(wù)于技術(shù)人的網(wǎng)站也出現(xiàn)技術(shù)問題,聽起來挺諷刺的,其實(shí)這也正說明了多活系統(tǒng)的復(fù)雜性。
從技術(shù)上來講,多活的實(shí)施很難,從需求上來看,多活的需求很普遍。于是,公有云便開始提供共性的多活服務(wù),青云就有這樣的多活服務(wù)。
青云的多活服務(wù)有基礎(chǔ)架構(gòu)、基礎(chǔ)設(shè)施和分布式應(yīng)用三個(gè)層次組成。
其中,基礎(chǔ)設(shè)施是指數(shù)據(jù)中心本身,指的是青云在北京,上海和廣東建立的數(shù)據(jù)中心,一個(gè)地區(qū)的數(shù)據(jù)中心算一個(gè)Region,一個(gè)Region有多個(gè)可用區(qū),比如北京有北京3B,北京3D,北京3C這樣三個(gè)可用區(qū)。3個(gè)可用區(qū)之間的距離(30-50公里之間)可以滿足銀監(jiān)會(huì)對銀行數(shù)據(jù)中心的要求,另外,機(jī)房之間還需要有高速低延遲帶寬支持。
在基礎(chǔ)設(shè)施之上的是IaaS基礎(chǔ)架構(gòu),IaaS層的多活服務(wù)一般都指的構(gòu)建于多個(gè)數(shù)據(jù)中心之間的負(fù)載均衡服務(wù),負(fù)載均衡器將接收到的負(fù)載分發(fā)到多個(gè)數(shù)據(jù)中心,任何單個(gè)數(shù)據(jù)中心故障都沒什么影響。另外,多活系統(tǒng)的網(wǎng)絡(luò)也很麻煩,沒關(guān)系,青云自己的數(shù)據(jù)中心已經(jīng)做好了。
多活系統(tǒng)最上一層的是分布式應(yīng)用。其實(shí)這里說是應(yīng)用不是特別合適,應(yīng)用一般都是用戶自己開發(fā)的,而青云所提供的通常來說是數(shù)據(jù)庫(如果非要說數(shù)據(jù)庫也是應(yīng)用也可以),數(shù)據(jù)庫很難,分布式數(shù)據(jù)庫更難,有了分布式數(shù)據(jù)庫之后數(shù)據(jù)庫的多活就方便多了,將數(shù)據(jù)庫分布在不同的可用區(qū)就能提供很好的多活數(shù)據(jù)庫服務(wù)。青云的平臺上支持自研的分布式數(shù)據(jù)庫MySQL Plus,另外也支持MongoDB。
有了這三層服務(wù)之后,用戶在青云的平臺上,只要選擇了三個(gè)可用區(qū)之一,使用了負(fù)載均衡器,然后部署了分布式數(shù)據(jù)庫,然后部署自己的分布式應(yīng)用之后就算構(gòu)建了自己的多活服務(wù)。這套系統(tǒng)下來,即使是初創(chuàng)公司也能享受到高大上的多活服務(wù),對青云這樣的云服務(wù)商來說,也沒有太多額外的成本,因?yàn)檫@服務(wù)是通用的。
所以,對于選用公有云多活服務(wù)的用戶來說,額外的成本并不明顯,遠(yuǎn)遠(yuǎn)低于自己搭建的多活服務(wù)。
搭建多活系統(tǒng),這是公有云的天然優(yōu)勢之一,所以很多公有云服務(wù)商都有多活服務(wù),不過,與一些友商相比,青云的多活的服務(wù)能力更全面一些。(見下圖)
最近,AWS發(fā)布了混合云的產(chǎn)品方案Outposts,讓AWS云平臺連接到企業(yè)數(shù)據(jù)中心內(nèi)部,讓用戶在本地也享受到跟云端一樣的服務(wù)體驗(yàn)。這一思想和類似的描述在恰好正式青云的宣傳描述,青云自一開始就比較重視企業(yè)用戶本地的使用體驗(yàn),公有云和私有云兩條腿走路,筆者也認(rèn)為這是青云能實(shí)現(xiàn)較快盈利的一個(gè)重要原因。
正因?yàn)槿绱耍嘣频亩嗷畈粌H可以用在公有云,也用在企業(yè)混合云環(huán)境,照顧了許多企業(yè)用戶的實(shí)際需求,也能為企業(yè)用戶搭建多活方案。
無論如何,我們是看到,云服務(wù)商提供的多活有明顯優(yōu)勢,成本上,實(shí)施門檻上都大大降低,用戶不會(huì)因?yàn)槭褂枚嗷罘?wù)而承擔(dān)太多額外成本。理論上不存在絕對不出問題的架構(gòu),但多活架構(gòu)可以把風(fēng)險(xiǎn)降低再降低,相信未來,會(huì)有更多不那么關(guān)鍵,但是對服務(wù)體驗(yàn)有要求的企業(yè)也都會(huì)主動(dòng)尋找云的多活服務(wù)。
關(guān)鍵詞:
相關(guān)閱讀
最近更新
每日觀點(diǎn):信用風(fēng)險(xiǎn)監(jiān)測周報(bào):“21寶龍MTN001”本金兌付展期 藍(lán)盾股份主體及債項(xiàng)等級下調(diào)至CC
06-14- 06-13