可觀測(cè)性平臺(tái),企業(yè)選擇自建還是購(gòu)買?3000字幫你捋清思路
我在接觸企業(yè)做咨詢的時(shí)候,問的頻率最高的是關(guān)于搭建可觀測(cè)性平臺(tái)的困惑,在數(shù)字化程度高的業(yè)務(wù)系統(tǒng)里面,可觀測(cè)性平臺(tái)確實(shí)能夠極高的提高運(yùn)維效率,那么企業(yè)最感興趣的是:建立可觀測(cè)性,是應(yīng)該自己搭建還是直接購(gòu)買商業(yè)產(chǎn)品?
一、成本 v.s. 收益當(dāng)考慮自建還是采購(gòu)可觀測(cè)平臺(tái)時(shí),普遍會(huì)認(rèn)為自建更劃算——因?yàn)殚_源軟件是免費(fèi)的,而商業(yè)軟件通常需要付費(fèi)。這是一個(gè)片面的說法,實(shí)際上,我們應(yīng)該考慮的是總體擁有成本(Total Cost of Ownership,TCO)。
Total Cost of Ownership(TCO)是指一個(gè)產(chǎn)品或服務(wù)的全部擁有成本,包括購(gòu)買價(jià)、使用成本、維護(hù)費(fèi)用、升級(jí)成本、以及最終處理費(fèi)用等。通俗來說,TCO 是指購(gòu)買一個(gè)東西的總成本,而不僅僅是購(gòu)買它時(shí)的價(jià)格。這個(gè)概念常常用于企業(yè)采購(gòu)決策,因?yàn)槠髽I(yè)在采購(gòu)產(chǎn)品或服務(wù)時(shí),需要考慮到產(chǎn)品或服務(wù)的全部擁有成本,而不僅僅是它的購(gòu)買價(jià),這樣才能更好地做出決策。
(資料圖)
舉個(gè)例子,假設(shè)你正在考慮購(gòu)買一輛汽車。如果只考慮購(gòu)買時(shí)的價(jià)格,可能會(huì)選擇價(jià)格較低的車型。但是,如果你考慮到汽車的使用成本、維護(hù)費(fèi)用、油耗、保險(xiǎn)費(fèi)等,那么價(jià)格可能就不是唯一的考慮因素了。因此,TCO 能夠幫助你更全面地了解一個(gè)產(chǎn)品或服務(wù)的全部成本,才能做出更明智的決策。
那轉(zhuǎn)化成現(xiàn)在討論的自建還是采購(gòu)這個(gè)問題上,企業(yè)不僅包括考慮購(gòu)買商品或服務(wù)的費(fèi)用,還要考慮以下這些成本的付出:
資源成本:無論是自建還是購(gòu)買商業(yè)產(chǎn)品,都需要考慮安裝和部署所需的計(jì)算、存儲(chǔ)等資源成本。如果使用SaaS產(chǎn)品,還需要考慮將遙測(cè)數(shù)據(jù)傳輸?shù)絊aaS端所需的流量成本。人力成本:自己搭建和購(gòu)買商業(yè)產(chǎn)品的主要區(qū)別在于人力成本。自己搭建需要花時(shí)間來安裝、設(shè)置和根據(jù)需要進(jìn)行二次開發(fā),而購(gòu)買商業(yè)產(chǎn)品需要進(jìn)行相應(yīng)的培訓(xùn)。這些時(shí)間都會(huì)轉(zhuǎn)化為員工的工資,也是企業(yè)的重要開支之一。拆除或最終處置成本:在某些情況下,無論是自建還是購(gòu)買,如果不再使用相關(guān)工具或產(chǎn)品,都不能簡(jiǎn)單地扔掉。我們需要考慮如何替換它,是否需要進(jìn)行遷移工作,這也會(huì)帶來一些成本。成本總是伴隨著預(yù)期收益的,建立可觀測(cè)性主要是為了提升系統(tǒng)的可靠性??捎^測(cè)性可以讓最終用戶獲得更好的體驗(yàn)和服務(wù),滿足業(yè)務(wù)需求,甚至推動(dòng)業(yè)務(wù)發(fā)展。
同時(shí),正如我之前提到的,在云原生時(shí)代,隨著系統(tǒng)復(fù)雜性的增加,不存在完全沒有問題的系統(tǒng)。因此,在出現(xiàn)問題或故障時(shí),快速找到問題的根本原因,縮短故障平均恢復(fù)時(shí)間(MTTR)變得非常重要。這些都是建立可觀測(cè)性的價(jià)值收益。接下來,我們將看一下自建和購(gòu)買商業(yè)產(chǎn)品分別涉及哪些成本和收益。
二、自建可觀測(cè)性平臺(tái)這里的自建不是指從零開始自己研發(fā)一整套可觀測(cè)平臺(tái)(這種方式的時(shí)間、人力成本非常高),而是基于開源產(chǎn)品進(jìn)行構(gòu)建和二次開發(fā),這也是更多企業(yè)能夠接受和采用的方式??捎^測(cè)性不僅僅是監(jiān)控,自建可觀測(cè)平臺(tái)還需要考慮監(jiān)控、日志和鏈路追蹤。此外,除了計(jì)算和存儲(chǔ)資源,還需要根據(jù)數(shù)據(jù)量的規(guī)模考慮消息中間件、緩存、數(shù)據(jù)庫(kù)等多種組件所需的資源。例如,以下是日志分析平臺(tái)ELK的典型架構(gòu)(ELK是Elasticsearch、Logstash和Kibana三個(gè)開源項(xiàng)目的首字母縮寫):
如果你想通過開源軟件自建可觀測(cè)性,可能需要以下組件:
監(jiān)控:Prometheus+Grafana。日志:Logstash+Kibana。鏈路追蹤:SkyWalking。數(shù)據(jù)存儲(chǔ):Elasticsearch集群。消息隊(duì)列:Kafka集群。數(shù)據(jù)庫(kù):MySQL集群。內(nèi)存數(shù)據(jù)庫(kù):Redis集群。這時(shí),需要考慮資源、人力和一些隱性成本。
1. 資源成本要滿足大數(shù)據(jù)量的情況,幾臺(tái)1核2G的虛擬機(jī)很難解決問題。特別是在生產(chǎn)環(huán)境中,如果數(shù)據(jù)量大,Elasticsearch的計(jì)算節(jié)點(diǎn)需要高配置,通常需要兩個(gè)16C 64GB的主機(jī)節(jié)點(diǎn)和一個(gè)控制節(jié)點(diǎn)。日志的原始數(shù)據(jù)到后端存儲(chǔ),雖然存在一定的壓縮,但實(shí)際容量還需要考慮索引、兩份數(shù)據(jù)副本等因素占據(jù)的存儲(chǔ)空間。如果使用公有云,還需要考慮各個(gè)計(jì)算節(jié)點(diǎn)的存儲(chǔ)成本。此外,自建數(shù)據(jù)中心還涉及服務(wù)器成本、機(jī)房費(fèi)用、后續(xù)擴(kuò)容成本等。災(zāi)備資源成本,可觀測(cè)性平臺(tái)被稱為“Lastdance service”,它需要比其他服務(wù)的可用性更高,所以在災(zāi)備方案上的成本遠(yuǎn)高于普通服務(wù)。2. 人力成本維護(hù)自建工具需要2~3人的團(tuán)隊(duì)進(jìn)行安裝部署、功能開發(fā)、問題排查和處理、性能調(diào)優(yōu)等工作。此外,二次開發(fā)也需要人力成本。許多企業(yè)沒有二次開發(fā)的能力,即使進(jìn)行二次開發(fā),也可能由于主導(dǎo)開發(fā)的技術(shù)負(fù)責(zé)人或相關(guān)人員離職而導(dǎo)致項(xiàng)目難以繼續(xù)。由于可觀測(cè)性需要不斷迭代,如果人手不足,就無法跟上技術(shù)發(fā)展,整個(gè)團(tuán)隊(duì)的技術(shù)應(yīng)用也會(huì)受到限制。
隨著業(yè)務(wù)增長(zhǎng),維護(hù)工具的團(tuán)隊(duì)人數(shù)也會(huì)隨之增長(zhǎng),從開始的2~3人,到幾十人甚至上百人。作者曾在AWS Cloudwatch工作過,當(dāng)時(shí)核心研發(fā)人數(shù)就已過百人。
另外,隨著業(yè)務(wù)增長(zhǎng),所需的人才門檻也會(huì)提高,不僅對(duì)大型分布式系統(tǒng)設(shè)計(jì)、開發(fā)和運(yùn)維有極高的要求,同時(shí)還需要了解網(wǎng)絡(luò)通信、操作系統(tǒng)、網(wǎng)絡(luò)安全,以及數(shù)據(jù)科學(xué)。為此Google針對(duì)這類復(fù)合性人才制定了一個(gè)崗位 – SRE(站點(diǎn)可靠性工程師),根據(jù)統(tǒng)計(jì),這類人才的工程師平均薪資大約在100萬人民幣/年。而且這類人才通常集中在頭部的互聯(lián)網(wǎng)大廠,招聘難度遠(yuǎn)比招傳統(tǒng)研發(fā)高。
3. 隱性成本由于這種將開源軟件組合起來的方案只能稱為工具的組合,而不是完整的可觀測(cè)平臺(tái)(它并沒有完全解決數(shù)據(jù)孤島問題)。當(dāng)遇到業(yè)務(wù)問題時(shí),仍然需要訪問不同的工具進(jìn)行問題分析,并需要與不同團(tuán)隊(duì)進(jìn)行溝通,這會(huì)花費(fèi)很多時(shí)間,尤其是在線上救火的時(shí)候,服務(wù)宕機(jī)5分鐘和宕機(jī)5小時(shí),帶來的損失,不僅僅是經(jīng)濟(jì)上的損失,很有可能就會(huì)失去客戶信任,持續(xù)流失客戶。
持續(xù)維護(hù)也需要成本。技術(shù)棧中的第三方組件必須及時(shí)更新和修補(bǔ),同時(shí)還需要考慮自建組件的安全性。假如維護(hù)團(tuán)隊(duì)出現(xiàn)人員流失或者變更,其交接成本比重新搭建一套新的系統(tǒng)還要高,因?yàn)殚_源組件每天都會(huì)迭代更新,假如維護(hù)團(tuán)隊(duì)沒有開源社區(qū)里的核心成員,基本上1年之后,系統(tǒng)升級(jí)會(huì)成為整個(gè)團(tuán)隊(duì)一整年的KPI。
自建的收益:通常來說,很考驗(yàn)企業(yè)的技術(shù)能力,企業(yè)的技術(shù)實(shí)力過硬可以快速上手、構(gòu)建原型,并通過不斷完善逐漸完善平臺(tái)。另外,成熟的開源軟件通常有強(qiáng)大的技術(shù)社區(qū)支持。成百上千的程序員來自世界各地,共同維護(hù)一套軟件,保持其活力并使其不斷更新和修復(fù)問題。此外,自建軟件可以建立企業(yè)內(nèi)部的專業(yè)知識(shí)。每個(gè)企業(yè)都有自己的需求,這些需求需要轉(zhuǎn)化為軟件功能。自建平臺(tái)讓企業(yè)內(nèi)部利益相關(guān)者的溝通和協(xié)調(diào)更加順暢,能更好地服務(wù)于業(yè)務(wù)需求。
三、使用商業(yè)產(chǎn)品構(gòu)建可觀測(cè)性購(gòu)買的成本:企業(yè)在購(gòu)買第三方產(chǎn)品和服務(wù)時(shí),通常會(huì)考慮以下因素:
一次性花費(fèi)這么多錢,這個(gè)產(chǎn)品對(duì)業(yè)務(wù)有什么價(jià)值?前期Proof of Concept(PoC)看起來很好,但實(shí)際使用會(huì)不會(huì)完全不同?供應(yīng)商是否能夠滿足新的業(yè)務(wù)需求,還是必須等待他們更新?如何確保購(gòu)買的產(chǎn)品能夠持續(xù)滿足不斷變化的需求?是否能夠避免供應(yīng)商鎖定?如果因某種原因需要選擇新產(chǎn)品,需要多少時(shí)間和精力進(jìn)行遷移和切換?這些都是購(gòu)買商業(yè)軟件需要考慮的成本因素。購(gòu)買商業(yè)產(chǎn)品的流程通常比較漫長(zhǎng)。經(jīng)過測(cè)試、招投標(biāo)等一系列過程后,如果產(chǎn)品無法滿足客戶的使用需求,或者因各種原因需要重新開始,那么整個(gè)過程所消耗的財(cái)務(wù)、時(shí)間和人力成本將是巨大的。另一方面,許多商業(yè)軟件按許可證收費(fèi)。如果公司處于快速成長(zhǎng)階段,需要考慮公司在發(fā)展壯大后繼續(xù)使用商業(yè)軟件的額外開銷。
購(gòu)買的收益:如果購(gòu)買和使用的是SaaS軟件,可以減少自建平臺(tái)所需的計(jì)算、存儲(chǔ)等資源投資和維護(hù)成本。即使購(gòu)買的平臺(tái)需要安裝部署,通常也由供應(yīng)商負(fù)責(zé),完成初始配置后,即可開始使用。更重要的是,原本需要進(jìn)行開源軟件二次開發(fā)的工程師可以將時(shí)間和精力投入到業(yè)務(wù)保障上,不再需要全面研究和掌握開源軟件的開發(fā)和維護(hù)。另一方面,選擇合適的商業(yè)產(chǎn)品也意味著將專業(yè)事務(wù)交給專業(yè)人士處理。你可能會(huì)獲得一個(gè)擁有專業(yè)知識(shí)的合作伙伴,在可觀測(cè)性領(lǐng)域有自己的積累,能夠?yàn)槟闾峁I(yè)服務(wù),解決各種問題。如果自己去研究,可能需要數(shù)年才能達(dá)到這個(gè)水平。
相比之下,購(gòu)買商業(yè)產(chǎn)品需要考慮的成本更少,因?yàn)檫@些產(chǎn)品通常都是一站式解決方案,可以滿足企業(yè)所有的可觀測(cè)性需求。此外,商業(yè)產(chǎn)品通常會(huì)提供更好的技術(shù)支持和服務(wù),保證系統(tǒng)的穩(wěn)定性和可靠性。綜上所述,企業(yè)在選擇自建還是購(gòu)買可觀測(cè)性平臺(tái)時(shí),需要綜合考慮各種成本和收益,做出明智的決策。
作者:Nicholas,InsightMon CTO
本文由@Nicholas 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于CC0協(xié)議。
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。
關(guān)鍵詞:
[責(zé)任編輯:xwzkw]
相關(guān)閱讀
- (2023-08-23)可觀測(cè)性平臺(tái),企業(yè)選擇自建還是購(gòu)買?3000字幫你捋清思路
- (2023-08-23)國(guó)常會(huì)釋放資本市場(chǎng)稅收利好 5項(xiàng)資本市場(chǎng)稅收優(yōu)惠政策獲延續(xù) 基本情況講解
- (2023-08-23)河北省張家口市2023-08-22 19:05發(fā)布雷電黃色預(yù)警
- (2023-08-23)破發(fā)股鴻日達(dá)上半年扣非虧損 去年上市即巔峰募7.54億
- (2023-08-23)電視的LED、OLED、QLED、Mini LED到底是什么?1分鐘看明白
- (2023-08-23)7換1,F(xiàn)MVP易主!勇士醞釀史詩(shī)級(jí)交易,庫(kù)里聯(lián)手字母哥成NBA公敵
- (2023-08-23)港珠澳大橋車流再創(chuàng)新高 8月已6次單日破萬
- (2023-08-23)瑞豐銀行上半年凈利同比增長(zhǎng)16.8% 不良貸款率0.98%
- (2023-08-23)快手科技 Q2 財(cái)報(bào):總營(yíng)收 277.4 億元,上市后首次實(shí)現(xiàn)凈利潤(rùn)
- (2023-08-23)隊(duì)報(bào):亨利希望邀請(qǐng)自己的前隊(duì)友克里希擔(dān)任在國(guó)奧執(zhí)教的助手
- (2023-08-23)奧迪威股東戶數(shù)下降14.66%,戶均持股12.97萬元
- (2023-08-23)福然德:上半年凈利潤(rùn)1.79億元 同比增長(zhǎng)33.91%
- (2023-08-23)上單人馬出裝2022(上單人馬)
- (2023-08-23)籃球賽場(chǎng)上展現(xiàn)青春風(fēng)采
- (2023-08-23)日本政府宣布將于24日開始將福島核污染水排放入海
- (2023-08-23)赴港二次上市,美的集團(tuán)的分拆“棋局”剛剛開始
- (2023-08-23)騏達(dá)曲軸傳感器故障,騏達(dá)水溫傳感器故障
- (2023-08-23)大唐延安發(fā)電有限公司:向年底投產(chǎn)目標(biāo)發(fā)起總攻
- (2023-08-23)用戶吐槽iPhone 14電池健康度下降過快 蘋果回應(yīng):正?,F(xiàn)象
- (2023-08-23)2023年海底線纜上市公司一覽(8月22日)
- (2023-08-23)長(zhǎng)航鳳凰:截止2023年8月10日,股東總戶數(shù)78252
- (2023-08-23)宜通世紀(jì):截至該問題回復(fù)之時(shí),公司尚未收到該通知書
- (2023-08-23)沙灘排球——2023世界職業(yè)巡回賽未來賽(中國(guó)啟東站)落幕
- (2023-08-23)男童走失、老人迷路……城陽公安急伸援手,盡顯為民“警”色
- (2023-08-23)浦發(fā)銀行成都分行組織開展 “看電影,學(xué)反詐”系列宣傳活動(dòng)
- (2023-08-23)2023年8月21日國(guó)內(nèi)現(xiàn)貨市場(chǎng)鋅價(jià)匯總
- (2023-08-23)大洋電機(jī):上半年凈利潤(rùn)同比增長(zhǎng)19.55%
- (2023-08-23)商務(wù)部:60余家企業(yè)和機(jī)構(gòu)將在服貿(mào)會(huì)上首發(fā)一批新產(chǎn)品、新技術(shù)
- (2023-08-23)開心汽車并購(gòu)茂林斯達(dá)交割完畢 正式進(jìn)入新能源汽車制造領(lǐng)域
- (2023-08-23)路特斯Type 133實(shí)車曝光:外觀充滿運(yùn)動(dòng)氣息