溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶(hù)服務(wù)條款》

2000多個(gè)Bug!這個(gè)系統(tǒng)讓銀行癱瘓、13億人賬戶(hù)出錯(cuò)、最終損失超過(guò)28億

發(fā)布時(shí)間:2020-08-04 15:22:50 來(lái)源:ITPUB博客 閱讀:155 作者:IT職業(yè)頻道 欄目:軟件技術(shù)
作者 | 魚(yú)羊 郭一璞    轉(zhuǎn)自量子位  | 公眾號(hào) QbitAI
2000多個(gè)bug,這樣一個(gè)千瘡百孔的系統(tǒng),被用在了一家有13億用戶(hù)的銀行里。
2000多個(gè)Bug!這個(gè)系統(tǒng)讓銀行癱瘓、13億人賬戶(hù)出錯(cuò)、最終損失超過(guò)28億
這是去年TSB銀行系統(tǒng)遷移大事故的報(bào)告結(jié)果,出自Slaughter and May律所。
Bug連篇、測(cè)試沒(méi)做好、IT服務(wù)商無(wú)能,這一切的一切,導(dǎo)致了災(zāi)難級(jí)后果。
當(dāng)系統(tǒng)啟用的時(shí)候,用戶(hù)們紛紛發(fā)現(xiàn)自己的錢(qián)不見(jiàn)了、花一兩塊扣掉幾千、賬戶(hù)被別人登錄……
銀行為了啟用這個(gè)系統(tǒng),投入了2500人年的成本;而事后為了補(bǔ)鍋,也花費(fèi)了高達(dá)28億的資金。

系統(tǒng)遷移捅了13億用戶(hù)的婁子

故事,是從一樁“離婚再嫁”的案子開(kāi)始的。
離婚再嫁的主角,是英國(guó)銀行TSB
2000多個(gè)Bug!這個(gè)系統(tǒng)讓銀行癱瘓、13億人賬戶(hù)出錯(cuò)、最終損失超過(guò)28億
2015年,TSB銀行結(jié)束了與勞埃德銀行(Lloyds Bank)長(zhǎng)達(dá)20年的“婚姻”,從他們合并的集團(tuán)中拆分出來(lái),并賣(mài)身給了新歡、西班牙公司薩瓦德?tīng)枺⊿abadell)集團(tuán),收購(gòu)價(jià)17億英鎊,按當(dāng)時(shí)的匯率大概是158億人民幣。
然而,過(guò)去的20年,世界變了太多,銀行業(yè)也進(jìn)步了太多。20年的“婚姻”留給TSB銀行的,還有和“前夫”剪不斷理還亂的IT系統(tǒng)。
TSB銀行540萬(wàn)客戶(hù)的數(shù)十億記錄,都還留在“前夫”勞埃德銀行的系統(tǒng)里,而且因?yàn)榫壏忠褦?,不能白嫖人家的系統(tǒng),每年還要給前夫交1億英鎊(大約9.3億人民幣)的費(fèi)用。
這就好像肉身雖然已經(jīng)和“新歡”在一起,但支付寶和微信賬號(hào)還是跟“前夫”共用一套,而且還要給“前夫”付賬號(hào)租金,自然令人不爽。
于是,在籌備了許久之后,2018年,他們終于要行動(dòng)了:把“前夫”IT系統(tǒng)里的客戶(hù)信息記錄,遷移到“新歡”專(zhuān)門(mén)為T(mén)SB銀行準(zhǔn)備的新系統(tǒng)里。
他們把遷移的日子,定在了4月22日星期日的晚上,先把銀行的IT系統(tǒng)離線,遷移完之后再上線,恢復(fù)客戶(hù)訪問(wèn)自己銀行賬戶(hù)的權(quán)限。
為了這場(chǎng)遷移,他們已經(jīng)投入了超過(guò)2500人年的人力成本,西班牙“新歡”集團(tuán)的CEO在前一年的圣誕節(jié)就大聲放話:這是全歐洲史無(wú)前例的大項(xiàng)目,我們投入了1000多名專(zhuān)業(yè)人才,將極大地促進(jìn)我們?cè)谟?guó)的增長(zhǎng)。
不過(guò),雖然大佬們?cè)谂_(tái)上豪言壯語(yǔ),實(shí)際上負(fù)責(zé)遷移的員工們心里卻慌得一逼。這個(gè)遷移項(xiàng)目本來(lái)要籌備18個(gè)月,結(jié)果時(shí)間超了,預(yù)算也超了,事情難辦的很。
Flag果然不能立太早,打臉的結(jié)果很快就來(lái)了。
2000多個(gè)Bug!這個(gè)系統(tǒng)讓銀行癱瘓、13億人賬戶(hù)出錯(cuò)、最終損失超過(guò)28億
遷移結(jié)束,客戶(hù)的訪問(wèn)權(quán)限,他們以為萬(wàn)無(wú)一失,但就在20分鐘后,收到了問(wèn)題報(bào)告:
有的客戶(hù)發(fā)現(xiàn)自己的錢(qián)不見(jiàn)了;
有的客戶(hù)花了一點(diǎn)小錢(qián),賬戶(hù)里卻記錄成了花費(fèi)數(shù)千美元;
有的客戶(hù)登錄上去之后,發(fā)現(xiàn)不是自己的賬戶(hù),而是看到了別人的銀行賬戶(hù)。
13億客戶(hù)的賬戶(hù)記錄都出了問(wèn)題,于是,他們把TSB銀行罵成狗,金融監(jiān)管機(jī)構(gòu)們則連夜找銀行喝茶。
而此后的幾個(gè)星期,銀行都在拼命的恢復(fù)系統(tǒng),但數(shù)以百萬(wàn)計(jì)的客戶(hù)們已經(jīng)人心惶惶,拼命的把自己存在TSB銀行的錢(qián)取出來(lái)。
TSB銀行,被自己捅的簍子扔進(jìn)了地獄模式。
而問(wèn)題的根源,在于測(cè)試。
2000多個(gè)Bug!這個(gè)系統(tǒng)讓銀行癱瘓、13億人賬戶(hù)出錯(cuò)、最終損失超過(guò)28億


英國(guó)金融監(jiān)管機(jī)構(gòu)金融行為監(jiān)管局(FCA)首席執(zhí)行官Andrew Bailey在事故幾周后對(duì)外公開(kāi)表示,造成系統(tǒng)混亂的很大原因在于缺少測(cè)試,而TSB銀行請(qǐng)來(lái)救急的IBM專(zhuān)家也發(fā)現(xiàn),TSB銀行沒(méi)有采用嚴(yán)格的上線標(biāo)準(zhǔn)。
而且由于地球上的金融體系都是相連的,事故所造成的錯(cuò)誤被永久的保留在了金融體系里,不可逆轉(zhuǎn)。
這起彌天大禍,也讓TSB銀行賠了很多錢(qián)。為了賠償客戶(hù)、解決系統(tǒng)出問(wèn)題后渾水摸魚(yú)的交易、找第三方幫忙總共花了3.302億英鎊,按當(dāng)時(shí)匯率算大約28.4億人民幣。
2000多個(gè)Bug!這個(gè)系統(tǒng)讓銀行癱瘓、13億人賬戶(hù)出錯(cuò)、最終損失超過(guò)28億
而TSB的乙方、IT提供商Sabis也因?yàn)檫@起事故收到了1.53億英鎊(超過(guò)13億人民幣)的賠償賬單。
而受此影響,TSB銀行當(dāng)年虧損了1.054億英鎊(9.2億人民幣),CEO Paul Pester引咎辭職。
業(yè)績(jī)這么差,銀行的經(jīng)營(yíng)也難以為繼,今年11月底TSB關(guān)閉了英國(guó)86個(gè)分行,至少400個(gè)工作崗位也因此消失。

銀行系統(tǒng)很復(fù)雜

信息化時(shí)代,銀行的IT系統(tǒng)也變得越來(lái)越復(fù)雜。
六十年前,人們只能選擇在柜臺(tái)存取現(xiàn)金,普通客戶(hù)并沒(méi)有機(jī)會(huì)直接接觸計(jì)算機(jī)系統(tǒng)。當(dāng)時(shí),銀行雖然也啟用了巨型計(jì)算機(jī),但它們只會(huì)在一天或一周交易結(jié)束的時(shí)候?qū)堎|(zhì)數(shù)據(jù)進(jìn)行匯總。
也就是說(shuō),銀行的IT系統(tǒng)僅由銀行員工使用,銀行與客戶(hù)在柜臺(tái)上的交互用的還是紙質(zhì)工具。
這種情況在1967年發(fā)生了改變。
這一年,世界上第一臺(tái)自動(dòng)柜員機(jī)(ATM)在英國(guó)誕生,并被安裝到倫敦北部的巴克萊銀行Enfield分行。從此,銀行和客戶(hù)交互的方式發(fā)生重大變革。
ITRS Group首席執(zhí)行官蓋伊·沃倫(Guy Warren)解釋說(shuō):
直到真正的ATM和在線銀行業(yè)務(wù)出現(xiàn),公眾才可以直接訪問(wèn)銀行的IT系統(tǒng)。
這還僅僅是個(gè)開(kāi)始。
全球互聯(lián)的時(shí)代,互聯(lián)網(wǎng)和移動(dòng)銀行的發(fā)展進(jìn)一步拉近了客戶(hù)和銀行IT系統(tǒng)之間的距離,而這樣的系統(tǒng),也越來(lái)越成為銀行賴(lài)以運(yùn)營(yíng)的關(guān)鍵所在。
2000多個(gè)Bug!這個(gè)系統(tǒng)讓銀行癱瘓、13億人賬戶(hù)出錯(cuò)、最終損失超過(guò)28億
或許你會(huì)覺(jué)得,登個(gè)支付寶/微信,亮出付款碼,讓小錢(qián)錢(qián)在銀行跟銀行之間發(fā)生小小的流動(dòng),并沒(méi)有什么難度。但事實(shí)上,每一次信息的加載和刷新背后,都發(fā)生了復(fù)雜的數(shù)據(jù)移動(dòng)——
每一次動(dòng)作可能關(guān)聯(lián)到許多個(gè)單獨(dú)的系統(tǒng),所有這些系統(tǒng)都必須彼此交互,并與核心大型計(jì)算機(jī)連通。系統(tǒng)要現(xiàn)在后端復(fù)制數(shù)據(jù),將現(xiàn)金從一個(gè)賬戶(hù)轉(zhuǎn)移到另一個(gè)賬戶(hù),保持同步更新。
而這樣的運(yùn)算量,還要乘以數(shù)十億倍。
根據(jù)世界銀行的數(shù)據(jù),現(xiàn)在,全球至少有69%的成年人都擁有銀行賬戶(hù)。人們每一天都在通過(guò)銀行賬戶(hù)支付賬單、貸款還款、訂閱各種服務(wù)……并且,這些活動(dòng)常常是跨行,甚至跨國(guó)進(jìn)行的。
一家銀行內(nèi)部的多個(gè)IT系統(tǒng)(移動(dòng)銀行、ATM等),不僅需要彼此交互,甚至還必須跟其他國(guó)家的銀行建立聯(lián)系。比如我在國(guó)內(nèi)辦了一張visa信用卡,在美國(guó)也要能消費(fèi)才行。

遷移問(wèn)題很麻煩

TSB正是栽在了這樣的高度復(fù)雜性上。
IBM在為T(mén)SB編寫(xiě)的報(bào)告中指出:新應(yīng)用程序的組合,對(duì)先進(jìn)微服務(wù)的應(yīng)用和雙活數(shù)據(jù)中心的使用,導(dǎo)致了TSB生產(chǎn)中的復(fù)合風(fēng)險(xiǎn)。
如何正確地處理銀行IT系統(tǒng)遷移中出現(xiàn)的問(wèn)題,對(duì)于任何一個(gè)銀行來(lái)說(shuō),都是不小的挑戰(zhàn)。
其中,大量的事前規(guī)劃和測(cè)試工作是不可避免的。
像匯豐銀行這樣的跨國(guó)銀行,具有高度復(fù)雜、相互關(guān)聯(lián)的系統(tǒng),這些系統(tǒng)會(huì)定期進(jìn)行測(cè)試、遷移和更新。
即使在這方面如此經(jīng)驗(yàn)豐富,匯豐銀行的前IT主管蘭開(kāi)斯特仍坦承:訣竅就是讓員工在這件事上付出更多的時(shí)間。
他還指出,TSB的IT系統(tǒng)遷移是一件很復(fù)雜的事:
我不確定他們是不是真的意識(shí)到了這件事的復(fù)雜程度。他們甚至沒(méi)有完全想好要怎么去測(cè)試系統(tǒng)。
FCA首席執(zhí)行官Andrew Bailey則表示:
TSB的這一事故反映出他們?nèi)鄙購(gòu)?qiáng)大的回歸測(cè)試
注:回歸測(cè)試是軟件測(cè)試的一種,旨在檢驗(yàn)軟件原有功能在修改后是否保持完整
而最新的事故報(bào)告也引起了hacker news上網(wǎng)友們的熱烈討論。
有網(wǎng)友表示,如果TSB能選擇小規(guī)模多次遷移,而不是在某一天進(jìn)行大爆炸式遷移,那這種嚴(yán)重的事故可能就不會(huì)發(fā)生。
花幾周/幾個(gè)月的時(shí)間在生產(chǎn)過(guò)程中進(jìn)行檢查,以確保舊數(shù)據(jù)庫(kù)和新數(shù)據(jù)庫(kù)返回的結(jié)構(gòu)相同。最終,將數(shù)據(jù)都轉(zhuǎn)移到新數(shù)據(jù)庫(kù)中,并在一段時(shí)間之后再關(guān)閉舊的數(shù)據(jù)庫(kù)。這樣做效果是比較好的。
2000多個(gè)Bug!這個(gè)系統(tǒng)讓銀行癱瘓、13億人賬戶(hù)出錯(cuò)、最終損失超過(guò)28億
而對(duì)測(cè)試不足導(dǎo)致了銀行系統(tǒng)癱瘓的這一調(diào)查結(jié)論,有人吐槽說(shuō):
作為測(cè)試工程師,我一點(diǎn)也不意外?;ㄙM(fèi)更多的時(shí)間、投入更多的人員來(lái)打造更好的測(cè)試架構(gòu),對(duì)于很多公司來(lái)說(shuō)都是“可以節(jié)省的成本”。
經(jīng)理們總是在設(shè)定的上線日期前問(wèn):“測(cè)試咋能花那么多時(shí)間?!”真要出事了他們又開(kāi)始甩鍋了。
2000多個(gè)Bug!這個(gè)系統(tǒng)讓銀行癱瘓、13億人賬戶(hù)出錯(cuò)、最終損失超過(guò)28億
也有網(wǎng)友嚴(yán)厲批評(píng)道:TSB的問(wèn)題不應(yīng)該說(shuō)是測(cè)試不足,而是在多個(gè)層面上都測(cè)試不足,并且缺少可恢復(fù)的備份。
2000多個(gè)Bug!這個(gè)系統(tǒng)讓銀行癱瘓、13億人賬戶(hù)出錯(cuò)、最終損失超過(guò)28億
也有人指出,避免出錯(cuò)最簡(jiǎn)單的辦法就是減少變化。
問(wèn)題在于,無(wú)論是銀行還是其他領(lǐng)域的公司,業(yè)務(wù)都是在不斷進(jìn)化的。
根據(jù)FCA發(fā)布的數(shù)據(jù),從2017年到2018年,英國(guó)金融服務(wù)部門(mén)報(bào)告的技術(shù)中斷增加了187%。
蓋伊·沃倫就認(rèn)為:系統(tǒng)停機(jī)不會(huì)消失。問(wèn)題在于,可接受的度在哪里?
你怎么看呢?
參考鏈接:
https://news.ycombinator.com/item?id=21870089
https://www.tsb.co.uk/news-releases/slaughter-and-may/
https://www.tsb.co.uk/news-releases/slaughter-and-may/slaughter-and-may-report.pdf
https://increment.com/testing/what-broke-the-bank/
https://www.ft.com/content/d1f37ab2-0eb8-11ea-a225-db2f231cfeae
—  —

向AI問(wèn)一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI