大話災備|安信梁德漢:擁抱智能運維新變化

2020-12-14 英方

作者 | 黃亮

編輯 | 郭穎

一座城市有一座城市的品格。創新是深圳的品格,敢闖敢試,敢為人先,是每一位深圳科技人身上的烙印。

在金融科技創新領域,深圳福田,是中國最為活躍的地區之一。作為深交所的所在地,福田培育了眾多的優秀券商機構,安信證券便是其中之一。

作為全牌照綜合類券商,安信證券在業務連續性、智能運維等數位化領域的創新已搶佔先機。如在與英方軟體合作的多對多池化集群方面,已實現特定場景下備端資源的池化管理,極大地提高了系統故障自動化迭代接管的能力。

未來,安信證券如何通過標準化的基礎架構和高保障的信息系統運維能力,助力集團向中國最具市場價值和核心競爭力的金融服務企業的目標邁進,是《大話災備》恰逢深圳改革開放 40 周年之際,採訪安信證券運維總監梁德漢探討的話題。

△ 安信證券運維總監 梁德漢

大話災備:在證券行業從事 IT 這麼多年,你如何看待數位化轉型?

梁德漢:我們從證券信息系統運維保障去分析這個問題。證券、銀行、保險均屬於金融行業,對安全的要求都非常嚴苛。但三者的區別是,在安全基礎上,證券投資對實時性要求是最高的。特別是在開市期間,交易系統對業務連續性的保障、系統快速恢復能力要求是分秒必爭。

另外,從業務發展角度分析,隨著網際網路金融的發展,證券信息部門需要在安全穩定的基礎上,快速滿足前端業務的快速交付。所以我們將系統劃分為兩類:一類是穩態系統,一類是敏態系統,證券行業的數位化轉型,這是兩個非常關鍵的領域。數位化轉型的核心是客戶體驗,客戶體驗的提升靠有效運營。

如何做好數位化轉型的系統運營,我認為有兩個維度:

一是信息化基礎設施建設要有一個好的底座,萬丈高樓平地起,一個穩健、靈活、彈性的基礎設施架構,是上層應用創新、數位化建設的基礎。

二是系統的運維保障平臺的支持,就像物業管理,如何打理好大樓的一切,做好樓內安全、清潔、水電功能服務等,讓它正常提供服務,需要打造靈活且功能強大的運維支持平臺輔助運維部門不斷創新以適應新的需求。

大話災備:有沒有比較滿意的數位化轉型項目?

梁德漢:我們還是從上述兩個維度講,在基礎設施架構方面,我們搭建了面向未來業務發展的兩地三中心的項目,確保系統高效穩定安全地運行,達到業務連續性的高保障要求。

同時,我們正在全面建設智能運維平臺,在告警、自動化、可視化展示方面,通過大數據運維分析平臺,形成監、管、控、營一體化的運維管理,從原來小作坊式的運維模式向工業化、智能化的模式轉型,以平臺化的方式大幅提高資源的利用效益。

這個新的智能運維平臺,引入了多個行業優秀技術供應商。比如,安信證券與英方軟體共同打造的行業首創的「多對多池化」高可用集群技術方案,也是這個平臺的一部分。它將幫助我們解決運維成本高和故障自動化切換的問題,實現備端資源的池化利用,提高運維效率。

大話災備:建設智能運維平臺,最大的收益是什麼?

梁德漢:創新的導向,是為了更好地服務安信證券的用戶。目前我們在一些領域取得了領先優勢,但在成為中國最具市場價值和核心競爭力的一流金融服務企業的發展進程中,安信證券將會有更多的業務拓展,系統也會隨之不斷增加。智能運維大平臺的建設,可以更好地去做新舊系統之間的更新、迭代,為業務的快速發展解決系統擴展、運維管理的煩憂。

大話災備:券商在數位化轉型方面有哪些需要克服的困難?

梁德漢:從大的組織架構講,從信息技術中心到其他的相關部門及領導,能否在數位化轉型方向達成一致,數位化轉型是否可以為組織帶來顯著的效益,轉型模式是否讓人明白和支持,都存在一個解疑答惑的過程。

這個過程會有很多挑戰,如何解決?我們可以採取分步走的方法,讓一些部門先走,探索和總結出經驗,然後讓後續的部門跟進,這樣可以提高效率,優化過程,避免大的系統故障。

從專業的技術範疇講,證券行業還有一個特點,大家前些年自研的系統佔比很少,主要依賴技術供應商。近三五年大家都在加強自研的力度,建立自主可控的技術研發團隊。

所以在數位化轉型中,對存量系統的改造和管理是一個非常大的挑戰。它涉及到一系列問題,比如平臺的對接、技術標準規定、新舊系統的迭代等,如何將這些有機地串聯起來,快速演進的同時又能保證核心系統不出問題。我覺得必須一步一個腳印,把基礎打紮實,行穩致遠,才能在智能運維上做更多的探索,擁抱智能運維的變化。

大話災備:如何通過災備保護越來越複雜的應用系統,讓數據賦能業務增長?

梁德漢:這是安全運維的保障範疇。因為行業對業務連續性要求特別高,所以每年關於災備的研究、議題、標準討論也很多,包括每年的年度全行業災備應急演練,都會有主管領導親自主導和參與。

因此,在災備和業務連續性管理方面,券商的投入並不少。

在《2021 中國災備行業白皮書》裡,也提到了關於行業備份能力建設要求,包括要不要建兩地三中心、要不要建兩地兩中心,然後在各種災難場景之下的RTO和RPO 的要求是多少,系統災難恢復 1-6 個等級各自的要求是什麼,白皮書都有非常明確的敘述。我們也依據這個在改進和鞏固,例如剛提到的兩地三中心的建設,就可以滿足行業監管和業務保障要求。

在此基礎之上,我們會做很多的嘗試和創新,比如與英方軟體合作的多對多池化、高可用等。

上面是從外部環境分析。從內部環境看,首先在基礎架構設計方面,剛開始就要有做好系統冗餘、高可用和數據災備的規劃,比如分布式系統、虛擬化平臺上的各種作業系統的備份、雲容器平臺建設等,這些要能夠支撐未來業務的發展規模。

未來的環境是怎樣的——應用系統會不斷增加,並且增長的速度會比消亡的速度快得多,要怎麼解決這個問題?

我認為基礎架構標準化是一個必然的方向。它能確保後續哪怕應用系統發展到五六百甚至上千個,只要遵循基礎架構的標準,就可以滿足我們監控的要求、數據備份的要求。

這是我們目前需要創新和攻克的方向,這個底座打好了,架構上的標準對上遊業務的開放將是一個強有力的保障。

當然,我們想要在底層把問題解決掉,需要核心業務系統的技術供應商,保持一定程度的開放,讓各個系統的數據可以進行交換和對接。數據流動起來,我們就可以通過各類數據的綜合分析,為業務發展提供參考方向,讓數據賦能業務增長

大話災備:針對容災領域有沒有一些新的思路和計劃?

梁德漢:容災涉及到成本問題,特別是異地容災,成本非常高。近期我們也在和上海交易所討論一些成功案例,特別是「小火種」計劃,通過雲計算廠商和上證通共同搭建行業雲,保障券商異地災備系統建設的資源供給和降低成本。

在兩地三中心的模式下,需要啟動異地容災系統接管的概率是非常低的。在沒有發生重大災難時,比如虛擬機的備份系統,有部分是可以在交易正常的時候關閉的,備份系統只佔用存儲資源,不佔用內存和計算資源,大幅減少異地災備的運營成本。這方面,行業都已經有了成功的探討和實踐。

大話災備:券商掌握核心技術有必要嗎?

梁德漢:從券商機構的背景和定位講,我們不是做基礎技術的研究,而是做應用技術層面的研究和落地實踐。在應用層面,我們還會繼續聯合各類優秀的技術廠商,共同打造高性能、高保障、低時延的系統平臺。

與供應商合作的過程中,必須確保關鍵領域的決定權在我們自己手裡。同時,我們也在加快專利申請的工作,加強研發部門的技術實力和成果輸出。

大話災備:如何看待國產軟體在災備領域的發展壯大?

梁德漢:舉例來說,英方軟體在證券行業的影響力非常大,我們還是拿它來講。它之所以獲得大家的認可,一方面是有獨立自主的數據複製技術,另一方面是能夠契合到券商的痛點需求,這個是最重要的。

從證券機構角度看,我們還是看重應用領域的領先發展,所以像英方在容災、行情分發方面的優勢,是它在證券金融領域發展壯大的前提條件。

後記

近期,網際網路金融領域史上最大IPO事件,將中國金融改革創新的爭議推向了風口浪尖。如果業務層面的金融風險底線不可動搖,那麼技術層面的安全保障更應該堅若磐石。但與此同時,業務的快速發展又時刻在催促像梁德漢一樣的券商信息化決策者們,他們需要在保障安全穩定的基礎上,不斷進行技術上的創新,以適應前端業務的快速發展。

這可能是券商在數位化轉型中不斷創新所面臨的最大挑戰。

因為他們要承擔的,是通過提高信息化運維保障和數據管理能力,攜手合作夥伴打造一個安全可靠、互聯互通、即時可用的實時數據環境,實現數據賦能業務的增長。

相關焦點

  • 墨菲定律之運維慘案 | 資料庫損壞+備份「啞火」
    在這種情況下,一旦出現資料庫故障,IT運維人員能否及時發現問題、第一時間智能定位問題、在最短的時間內快速解決問題?在資料庫無法修復的情況下,備份數據是否正確?備份是否完全?數據恢復是否能夠順利解決故障?這對於大多數IT運維都是難以回答的問題。AnyRobot日誌雲以資料庫安全為核心,提供資料庫安全雙重保障。
  • ...從傳統備份轉向雲災備:中化國際IT應用的一小步,數位化轉型的一...
    作為中化集團旗下首家登陸資本市場的上市公司,中化國際秉承「精細化學 綠色生活」的發展願景,經過20多年的快速發展,已從一家傳統化工貿易企業,成長為以精細化工產業為核心,並在農用化學品、中間體及新材料、聚合物添加劑、天然橡膠等領域具有核心競爭力的大型跨國企業集團。2018年,中化國際營業收入達600億元。
  • 解放運維工程師 你需要伺服器智能運維
    自動化運維應運而生,大大提升了發現異常設備的效率,降低了運維成本。但是,面對故障根因、故障預測、性能趨勢和控制決策,自動化運維力不從心。Gartner在2016時提出了智能運維(Artificial Intelligence for IT Operations)的概念,並預測到2020年,智能運維的採用率將高達50%。
  • 藍雲湯濤:從雲運維角度解讀全網負載均衡
    運維在「雲江湖」的地位毋庸置疑。可以說,沒有雲運維就沒有雲計算。這其中,不僅是傳統數據中心的運維管理,還有新技術如Container運維、Hadoop運維、Spark運維、安全運維等。在世紀互聯藍雲事業部技術運維總經理湯濤看來:「中國本土市場,混合雲和公有雲在IT預算上的比例是10:1,即10元投入在混合雲,1元在公有雲。
  • 特輯丨給大家整理了最強運維手冊,45招招招可實操
    乾貨合集第二彈,我們甄選了運維領域共45篇精華內容,內容涵蓋監控告警、故障修復、容災備份、智能運維、工具選型……戳標題即可閱讀原文↓十年運維監控報警優化經驗總結-焦振清故障修復/容災備份維護數千規模MySQL實例,資料庫災備體系構建指南-劉書浩聯通大數據5000臺規模集群故障自愈實踐-餘澈誤執行了rm -fr /*之後,除了跑路還能怎麼辦?!
  • 落地實戰化安全運營,奇安信發布安全編排自動化(SOAR)產品
    SOAR是新一代安全運營中心的必要能力  奇安信安全專家表示,新一代安全運營中心一直都強調安全運營過程的閉環,從自適應安全架構的角度來看,新一代安全運營中心要對防護、檢測、響應和預測四個階段進行持續的監測與評估,要確保能夠持續及時地發現問題,並處理問題。
  • Back You Up 公開課9期|金融災備解決之道 分享實錄
    在這種數位化轉型之下,逐漸催生出IT架構的變化。傳統銀行IT主要都是有一個傳統核心,現在來說我們就進入到了雙模態,在這一塊我們增加了更多一些敏態的業務,也就是網際網路核心,網際網路核心採用分布式架構,可以支撐海量帳戶和高並發,滿足秒殺、搶購等網際網路營銷場景。
  • 在家辦公心不慌 運維請收好這幾個遠程管理軟體
    這時候,遠在天邊的數據中心就如同一隻薛丁格的貓處在故障和正常的疊加態當中時刻牽動著運維人員的小心肝~    它的一大便利之處是用戶可通過iOS和Android提供支持的智慧型手機應用商店獲得CloudIQ。使用時,用戶只需安裝和配置戴爾易安信存儲系統,並將其連接到CloudIQ即可——無需安裝許可證或軟體,就這麼簡單!
  • 戴爾易安信 BIOS 升級、更新補 「漏」 指南
    千、萬臺伺服器更新  BIOS 自動更新花式應對  智能自動化是戴爾易安信在伺服器管理領域的最大特點,特別是來自 OpenManage 平臺帶來的一系列解決方案,可以幫助用戶大大簡化大規模 PowerEdge 伺服器的軟體更新。
  • 「新心數科」新金融搭檔新運維技術,嘉為藍鯨支持普惠金融!
    深圳前海新心數字科技有限公司(簡稱:新心數科)是一家市場領先的科技服務商,為小微金融、消費金融、信用支付等金融機構提供金融科技服務,包括:風控技術賦能、金融系統服務、多場景智能營銷、客戶全維度管理等服務。信息技術逐漸弭平信息不對稱、逆向選擇的金融難題,規模化、專業化的平臺降低了用戶的成本和風險,也促進服務不斷創新。
  • 宇信科技遠程智能運維解決方案,保障IT運維「不缺位」
    北京2020年4月3日 /美通社/ -- 新冠疫情給傳統依靠人肉的IT運維提出很多難題:因人員無法到崗,系統故障無法被有效感知和快速解決,嚴重威脅業務連續性。宇信科技的「智能運維」解決方案為受困於疫情的金融機構和企業提供了可行之道。
  • 案例|銀行運維新挑戰,是時候開啟智能運維模式了
    隨著該分行的業務發展和信息化建設的不斷深入,在主機系統、網絡系統、作業系統、資料庫和應用軟體等IT系統的數量和類型不斷增加,使分行的信息系統的管理維護工作日趨複雜,對信息系統的穩定性、可靠性提出新的更高的要求,同時對信息系統的風險評估工作也日趨複雜化。
  • 擁抱智能新時代:世界智能大會釋放了哪些新信號?
    新華社天津5月17日電 題:擁抱智能新時代:世界智能大會釋放了哪些新信號?  新華社記者  新一代人工智慧如何推動科技跨越發展、產業優化升級、生產力整體躍升?對經濟發展、社會進步、全球治理等方面有哪些重大而深遠的影響?
  • 智能運維從拓荒走向深耕,雲智慧領跑的升勢和勝勢
    闖出智能運維新藍海眾所周知,年初突如其來的疫情,讓企業運維能力重塑的重要性和緊迫性進一步放大,企業開始重新審視在不確定性環境下數位化的應變能力,而這也對企業的業務運維能力和數位化體驗提出了全新的要求。他說,今年的疫情給整個運維市場帶來兩個顯著變化,一方面是隨著數位化轉型的加速,客戶越來越多的業務都跑在系統之上,因此系統的安全性、穩定性、連續性至關重要,這讓運維的價值得以真正釋放。
  • 《數據中心基礎設施智能運維通則》發布
    2020年12月13日由中國電子技術協會數據中心節能技術委員會、中國建築標準設計研究院有限公司、華為技術有限公司、中國石油天然氣股份有限公司勘探開發研究院、及其他行業設計院、企業、用戶等共同完成的《數據中心基礎設施智能運維通則》經中國電子節能技術協會批准通過,定於 2020 年 12 月 30 日起正式實施,標準編號為 T/DZJN 24-2020。
  • 戴爾易安信IDPA DP4400,為數據安全護航
    打開APP 戴爾易安信IDPA DP4400,為數據安全護航 工程師周亮 發表於 2018-07-20 15:45:00 戴爾易安信宣布推出最新的集成式數據保護應用裝置
  • 大話災備|程式設計師因獎金不到位怒改代碼報復公司,而事實……
    2.雲災備如何建設?無論是設備故障、 勒索軟體,還是人為誤操作等,均是信息安全的潛在威脅。 雲平臺一旦發生宕機,如果沒有合理的數據備份和恢復計劃,在災難發生時無法及時應變,業 務連續性就會受到中斷。當「上雲」成為常態,「雲災備」已成為大勢所趨。雲災備採用雲基礎設施,或者災備即服務(如英方 i2yun.com)的模式,允許用戶自由選定重要的系統和數據。底層架構被其它採用同樣雲計算解決方案的公司所共有,共同分擔成本,用戶只需為實際所使用的資源付費。
  • 揭秘設備智能運維的特徵工程
    在設備智能運維領域,則主要是特徵提取與特徵構造兩種方式。在此不做詳細描述。No.3 設備智能運維常用的特徵工程方法設備智能運維主要是通過傳感器獲取設備的監測參數,然後利用機器學習的手段去實現設備的健康評估與故障診斷。設備健康評估與故障診斷的準確性與特徵提取息息相關。
  • 7*24業務永續日,我們這樣思考災備建設與業務連續性管理
    這些多元因素驅動下的新風險,數據安全及業務連續性無法得到保障,給容災備份系統的建設帶來新的隱患和挑戰。一旦出現業務中斷或重要數據丟失的情況,都會造成巨大的經濟損失、生產力損失、名譽損失和財務業績損失。尤其是核心關鍵業務,更是希望業務不中斷、數據不丟失,即使是出現災難,也能夠在最短的時間內應急接管,實現業務永續。
  • 聚焦財經峰會——智能運維AIOps管理,IT系統的「全科醫生」
    獨立演講、高端對話、深度分享……智慧與經驗的碰撞,掀起交流新思想,展望新趨勢、探索新機遇的浪潮。他表示,智能運維AIOps管理就是為保障系統正常運行與快速排障的工作,擎創科技的解決方案就是能夠為企業業務的順暢運行提供一種能夠讓它非常容易的找到問題根因的智能服務,這種智能服務是利用人工智慧中間的機器學習和深度學習的技術,再結合對智能運維AIOps平臺所採集的運維過程中出現的大量數據的精準分析來實現,這是我們的主要業務。在國際上,這個業務有一個專門的定義叫做AIOps,就是人工智慧運維。