7月1日,寧夏銀行核心系統(tǒng)數(shù)據(jù)庫出現(xiàn)故障,導致該行存取款、轉賬支付、借記卡、網(wǎng)上銀行、ATM和POS業(yè)務中斷37小時40分鐘。16日,工商銀行由于網(wǎng)絡設備發(fā)生硬件故障導致銀證系統(tǒng)異常,部分銀證轉賬交易出現(xiàn)單邊賬現(xiàn)象。人們不禁要問,為何在信息化技術相對發(fā)達、一向重視安全的金融行業(yè)中,仍會頻頻出現(xiàn)宕機等問題呢? 到底是什么阻礙了金融行業(yè)業(yè)務系統(tǒng)的高效運行?我們又該如何去應對?
銀行面臨運維難題
金融機構在搶占市場份額、擴大客戶基礎、創(chuàng)新產品和業(yè)務模式的過程中,整個業(yè)務系統(tǒng)的組成也變得愈發(fā)復雜,從前端的網(wǎng)銀、外部系統(tǒng)到核心前置,乃至跟第三方的相連,其中涉及的服務器、主機、應用、網(wǎng)絡系統(tǒng)越來越龐大,系統(tǒng)之間的耦合也越來越復雜,運維難度明顯加大。另一方面,大集中給總行數(shù)據(jù)中心帶來的不僅是數(shù)據(jù)的大集合,還包括技術、人力,甚至業(yè)務的集合,由此帶來的運維壓力可想而知。而金融機構面向激烈的市場競爭不得不做出應用和業(yè)務變更,也成為了業(yè)務運維低效的原因之一。
從運維能力和運維手段來看,系統(tǒng)之間業(yè)務上相互獨立,但維護上需要相互關聯(lián),而銀行目前的運維是割裂的,不難想象各家自掃門前雪的結果將是網(wǎng)絡、應用、數(shù)據(jù)庫、主機等“各自為陣”,一旦出現(xiàn)故障,各個系統(tǒng)之間的配合難以協(xié)調。從運維人員來看,他們受制于缺乏業(yè)務知識,排查故障往往需要首先弄清業(yè)務的網(wǎng)絡路徑,再挨個篩查對業(yè)務產生影響的應用,導致故障處置周期長、效率低,不能很好地滿足監(jiān)管機構、銀行客戶,乃至銀行自身的要求。由此看來,支撐核心業(yè)務系統(tǒng)的網(wǎng)絡系統(tǒng)的運維工作,包括網(wǎng)絡基礎設施、相關的應用系統(tǒng)、數(shù)據(jù)庫以及安全保障系統(tǒng)的運維已經(jīng)變成一個至關重要的工作,網(wǎng)絡系統(tǒng)的運維必須和企業(yè)的核心業(yè)務活動完全融合起來。金融機構網(wǎng)絡運維需要一種基于業(yè)務網(wǎng)絡的性能管理系統(tǒng),能讓網(wǎng)絡的運維和業(yè)務的保障緊密結合起來,幫助用戶提升以業(yè)務為核心的主動網(wǎng)絡運維能力,提升業(yè)務保障工作和故障處置的效率。
形勢嚴峻 亟需更專業(yè)的運維手段
銀行要保證業(yè)務持續(xù)、高效運行,有效的運維平臺和工具必不可少。各個網(wǎng)絡設備廠商雖然在其網(wǎng)絡設備產品中集成了網(wǎng)絡管理的功能,但這些功能僅限于對自家產品進行管理,對于其他廠家的設備則“愛莫能助”。面對現(xiàn)代眾多金融行業(yè)用戶的期望和需求,僅是對網(wǎng)絡設備進行管理的網(wǎng)管系統(tǒng)已經(jīng)不合時宜,將服務器、網(wǎng)絡設備、中間件、數(shù)據(jù)庫等納入統(tǒng)一監(jiān)控才是用戶所需要的。另外,在我國強調自主可控的大論調下,國內廠商跟國外廠商相比,能夠給用戶更多安心。但不論是國外廠商,還是國內廠商,他們目前所提供的運維產品內容主要集中在ITIL流程管理、自動化和綜合監(jiān)控等方面,其中綜合監(jiān)控主要是對應用的監(jiān)控,需要開發(fā),只能做到淺層次的結合??傮w來說,主要是以物理網(wǎng)絡作為運行維護對象,而缺乏以業(yè)務網(wǎng)絡為對象的運行維護模式。科來的業(yè)務性能管理解決方案則是圍繞業(yè)務系統(tǒng)進行的主動分析,能夠做到對業(yè)務網(wǎng)絡的實時監(jiān)控及迅速定位故障點,幫助金融機構建立高效的運維系統(tǒng)。
當金融機構發(fā)生業(yè)務故障,它的根本需求即提高發(fā)現(xiàn)問題、分析問題、解決問題的效率。根據(jù)《銀行業(yè)重要信息系統(tǒng)突發(fā)事件應急管理規(guī)范(銀監(jiān)辦發(fā)【2008】53號)》規(guī)定,銀行業(yè)金融機構在一個省無法正常開展業(yè)務半小時(含)以上便算作較大突發(fā)事件?!斑@意味著3個10分鐘,即第一個10分鐘內知道是什么問題,第二個10分鐘進行討論、做出決策,最后10分鐘采取行動。但實際情況往往是10分鐘內不能發(fā)現(xiàn)問題點,最后10分鐘領導決定是否進行切換或者重啟,而在不清楚問題源頭的情況下就做出決定是非常冒險的。”科來技術總監(jiān)高彥剛告訴記者,“科來的業(yè)務性能管理解決方案能做到在5分鐘內定位故障點,這對之后快速、準確地解決問題至關重要?!睋?jù)悉,至今國外各大廠商的標準維護合同中絕大部分都沒有承諾修復時間。
科來業(yè)務性能管理 為業(yè)務運維“保駕護航”
2009年,某銀行核心業(yè)務系統(tǒng)出現(xiàn)問題,分行發(fā)生訪問速度緩慢、交易堵塞等現(xiàn)象。在找不到問題點的情況下,銀行決定進行切備,根據(jù)切換后的結果,銀行判斷是主機出現(xiàn)了問題,這時,距離問題發(fā)生早已超過了半小時。據(jù)相關人員介紹,科來進行排查分析發(fā)現(xiàn),問題在于數(shù)據(jù)中心的核心交換機的傳輸鏈路上出現(xiàn)丟包,針對此問題的解決過程幾乎只用了“一杯茶”的時間。而銀行經(jīng)驗主義的做法導致之前的整個決策鏈出現(xiàn)錯誤,無法準確、快速地定位問題,解決問題更是“無據(jù)可依”。
不同于其他廠商以物理網(wǎng)絡為對象的運行維護模式,科來業(yè)務性能管理解決方案最大特色之一是以業(yè)務網(wǎng)絡為運維對象。在部署之后系統(tǒng)會預先梳理各業(yè)務邏輯關系,建立支撐業(yè)務的應用服務、主機系統(tǒng)、網(wǎng)絡路徑之間的關聯(lián)關系,再圍繞業(yè)務系統(tǒng)部署分析設備,制定針對性的監(jiān)控分析策略和警報策略。數(shù)據(jù)上報至UPM分析中心后,對業(yè)務網(wǎng)絡的應用響應性能、主機服務性能、網(wǎng)絡傳輸性能和交易處理性能進行智能化分析,提供集成的業(yè)務網(wǎng)絡性能監(jiān)控視圖(見圖1),把所有與業(yè)務相關聯(lián)的分析結果(如性能異常警報、關鍵性能指標、多段數(shù)據(jù)對比等)集成到一起,進行圖形化顯示和關聯(lián)挖掘,一旦發(fā)生異常,即使是不熟悉業(yè)務知識的運維人員也能根據(jù)視圖快速定位問題點。“預先的業(yè)務邏輯梳理和針對性的監(jiān)控分析,相當于為金融機構提供了定制化的解決方案?!备邚﹦傔@樣告訴記者。

圖 1
科來作為一家專注于網(wǎng)絡分析技術和產品研發(fā)10多年的企業(yè),其業(yè)務性能管理解決方案以最大提升業(yè)務網(wǎng)絡的運維效率和故障處置能力為研發(fā)目標,在國內多家大型金融機構都有成功案例??苼淼木W(wǎng)絡分析技術服務于全球97個國家和地區(qū),超過87家財富500強企業(yè)都選擇了科來的產品。
在最后,高彥剛表示,“幫助客戶迅速、準確地定位故障點,保證業(yè)務持續(xù)高效運行是科來帶來的價值,我們的產品和服務體現(xiàn)了科來‘為客戶創(chuàng)造價值’的理念?,F(xiàn)在金融機構的業(yè)務系統(tǒng)和網(wǎng)絡的集成度越來越高。我們的目標是融入用戶的業(yè)務網(wǎng)絡里(包括基礎網(wǎng)絡架構、應用、主機等),使用戶能夠對每一個影響業(yè)務系統(tǒng)的網(wǎng)絡運行環(huán)境進行實時化、智能化分析,這是科來業(yè)務性能管理系統(tǒng)的基礎,也是金融業(yè)網(wǎng)絡運維的未來?!?/p>
