產品知識中心:Chipkill內存

2020-11-28 IT168

    【IT168 產品知識中心】Chipkill內存是IBM為NASA(美國太空總署)計劃於2003年向火星發射的 「火星漫遊者」探測器而設計的,其宗旨只有一個:高可靠性。那麼,Chipkill內存是怎樣實現高可靠性的呢? 

內存糾錯技術的發展過程

    90年代初,內存體系採用奇偶性校驗(Parity Verifying)技術。奇偶校驗內存在每一字節(8位)外又額外增加了一位作為錯誤檢測之用,BIOS中的監控程序會將存入內存中的數據位相加,並將結果存於校驗位中。比如一個字節中存儲了某一數值10011110,每一位加起來的結果為奇數(1+0+0+1+1+1+1+0=5),校驗位存入1。當CPU讀取儲存的數據時,監控程序再次相加存儲的8位數據,並將計算結果與校驗位相比較。如果發現二者不同,系統就會產生出錯信息。奇偶校驗技術僅能粗略地檢查內存錯誤,並不具備糾錯能力。

    另一種內存糾錯技術叫做ECC(Error Correct Code,糾錯碼),它也是在原來的數據位上外加位來實現的,增加的位用來重建錯誤數據。在ECC糾錯體系中,如果數據為n個字節,則外加的ECC位為log2n + 5。例如對於64位數據,需要外加log28 + 5 = 8個ECC位。

    當出現一個存儲位錯誤時,ECC體系可以自動進行糾錯。當出現2個數據位錯誤時,可以檢測出來,但不能糾錯,這種行為通常稱作「單錯糾正/雙錯檢測(Single Error Correction/Double Error Detection ,簡稱SEC/DED)。一次存取中有2個以上的數據位出錯時,由於SEC/DED體系檢測不出來了,致使數據的完整性受損。採用這種結構的存儲器,當檢測出多位錯誤時,系統就會報告出現了致命故障(Fatal fault),之後系統崩潰。

    隨著RAM晶片的集成度的提高和內存容量的增大,內存發生錯誤的概率也隨之增加。幾年前被認為很可靠的SEC/DED內存體系,今天已經力不從心了,尋求具有多位糾錯能力的內存體系結構一直是眾多廠商追求的目標。

    1996年,Compaq公司的Advanced ECC技術實現了糾正單一內存晶片上的多位錯誤,也可以糾正內存條上單晶片的失效。1998年,惠普在LH3伺服器產品中提出的自修復概念,主要內容也是內存的多位糾錯能力。

    Chipkill內存是IBM為NASA(美國太空總署)計劃於2003年向火星發射的 「火星漫遊者」探測器而設計的,如圖1。2001年,IBM將這種chipkill技術移植到「藍色基因」伺服器產品中,成為其面向電子商務的電子蜥蜴計劃中的一個重要行動。接著DELL等廠商也紛紛在伺服器中採用了這種內存體系。 

圖1 Chipkill內存

    Chipkill是一種具有自愈(Self-healing)能力的內存體系結構,在工作過程中進行自我測試(self-test)和自我診斷(self-diagnosis),如果某個RAM晶片或內存條損壞,可以向管理員報告出錯信息,但機器仍可繼續運行,管理人員可在適當的時候更換故障的零件。

Chipkill內存的結構

    RAM器件失效最為嚴重的情形是其全部數據位全部發生錯誤,糾正這種錯誤的基本思路應該著眼於晶片和系統的硬體結構,而不可能通過軟體升級的方式來達到目的。

    存儲器中的每個字節外加一個ECC位構成ECC字。如果存儲器系統的數據寬度為32個字節(或256位),實際的存儲器數據的寬度是256+32=288位。同時,每一個數據位都被置於分離的ECC字中。

    圖2描述了這種方法工作的原理。存儲系統由4個DIMM模塊構成,32個字節(256位)的數據被分成4個ECC字,每個ECC字含有8個字節(64位)的數據位和8個ECC位。這樣,一個ECC字的實際長度為64+8=72位,存儲數據總長度為72×4=288位。 

    圖2 Chipkill內存糾錯原理

    存儲器控制器(Memory Controller)把每個ECC字被分成4個長度為18位的段,分別存儲於4個DIMM中。同時,每個DIMM中也存儲了4個來自不同的ECC字的段。然後,每個段的18個位再被存儲在不同的RAM晶片中。

    經過上述處理,每個DRAM晶片中只保存了ECC字的一位。如果RAM晶片失效,導致某個晶片中的全部18個位都出錯,也只是造成ECC字的一位錯誤。因為每個ECC字具有SEC/DED能力,可以自動糾錯,所以可以恢復所有的數據。當然,對於RAM中的某一位、某一行、某一列發生失效,系統也可以實現自動糾正錯誤。

Chipkill內存的應用前景

    通過對ECC體系進行改造而設計的自動糾錯的內存體系結構,實現了人們盼望已久的徹底避免系統癱瘓和數據丟失的目的。短短幾年內,集成了chipkill技術的電腦產品已經在交通調度、證券交易等高可靠性系統中得到了廣泛應用了。

    人們發現,使用chipkill內存的電腦產品,在提高了可靠性的同時,也降低了系統維護成本,減少了電子商務中的風險和法律責任,種種好處足以抵消價格偏高的不利因素。我們相信,chipkill技術不久就會出現在包括臺式機、筆記本和嵌入式系統等所有電腦產品中。

相關焦點

  • 英特爾發布全新一代內存和存儲產品
    活動上,英特爾重磅發布了六款全新內存和存儲產品,旨在幫助客戶駕馭數位化轉型的重大機遇。為進一步推動內存和存儲創新,英特爾宣布推出兩款新的傲騰固態盤產品,即全球運行速度最快的數據中心固態盤英特爾®傲騰™固態盤P5800X,以及能夠為遊戲和內容創作提供高性能和主流生產力,面向客戶端的英特爾®傲騰
  • kill yourself是「自殺」?make a killing是「屠殺」?都錯了!
    ( ̄△ ̄)每天晚上一篇英語知識普及英語罐頭本文是我的第314篇英語知識文章kill這個詞彙,相信只要有一點英語基礎的人,不管是誰都知道它的意思,在小學的時候,我們就知道這個詞彙的意思是指「殺死,屠殺」,然而,這個詞彙其實在不同的環境下,它也有不同的意思
  • Chip-seq簡介
    染色質免疫共沉定技術,可以研究生物體內DNA與蛋白質的相互作用,首先在活細胞內固定DNA與蛋白結合的複合體,然後用蛋白特異性的抗體,通過抗原抗體特異性結合的免疫學手段捕獲該複合體,然後洗脫蛋白質,得到與目的蛋白結合的DNA片段,將富集到的DNA片段進行上機測序,即形成了一套成熟的分析流程,稱之為chip-seq, 就是將傳統的chip技術和高通量測序結合起來,對應的英文如下
  • RK3308和RK3326是Rockchip今年全新推出的AI智能語音方案
    打開APP RK3308和RK3326是Rockchip今年全新推出的AI智能語音方案 李倩 發表於 2018-08-02 16:07:30
  • 七彩虹發布「戰戟」系列純國產顆粒內存產品
    而作為二十多年的中國電腦硬體品牌七彩虹,也在第一時間將國產晶片更新入旗下的固態硬碟產品線和內存產品,推出「國創·戰戟」系列產品。本次發布的主角為「戰戟」系列內存產品。iGame高頻RGB條和第一代戰斧(Battle-AX)馬甲條,這些產品將在今年內完成第一次產品迭代,將推出第二代iGame和戰斧(Battle-AX)內存產品,而繼6月份發布新品CVN捍衛者之後,這月又推出「戰戟」系列產品,可見七彩虹今年對內存產品線活動非常頻繁。
  • 裝了kill switch媽媽再也不用擔心我的Iphone被盜了
    騰訊科技訊 2月12日,由於智慧型手機製造商在其產品中植入了自毀裝置「kill switch」,方便用戶在手機被盜時進行遠程鎖死,智慧型手機被盜案件在紐約等大城市顯著下降。據相關機構的發布情況來看,由於美國蘋果公司在2013年9月份開始在其設備安裝「kill switch」,在隨後的12個月中,舊金山的iPhone被竊率下降了40%,而紐約的iPhone被竊率下降了25%。在英國的倫敦,智慧型手機的被竊率則下降了50%。
  • 性能優化知識圖譜
    如需轉載與原文作者聯繫先列個提綱,後面補充內容## 一、關注和度量### 關注- 優化執行效率- 優化內存佔用- 吞吐量- 響應時間(Response Time)、延遲(Delay):追求可容忍延遲下的最大吞吐率- 並發:TPS、QPS、OPS、IOPS、最大連接數- TP99- 資源使用率:CPU、內存
  • 一篇綜合,集合了最近Rockchip的各種關鍵新聞點
    >  本文引用地址:http://www.eepw.com.cn/article/272768.htm   近期,瑞芯微Rockchip4月13日開幕的香港春季電子展上,瑞芯微聯合上述三大巨頭向全球展示了從手機、平板電腦、筆記本電腦以及電視盒子、智能家居產品等一系列搭載Rockchip處理器的新品,將一個真正「中國芯」的全產業鏈產品生態體系向全球市場展現。
  • PNAS:第二代CTC晶片(CTC-Chip)
    2007年麻薩諸塞州總醫院癌症中心和醫學工程學中心開發出了第一代CTC晶片,可從血流中捕獲循環腫瘤細胞,為臨床決策提供了重要信息。第一代的CTC晶片是一種基於微流體學的CTC檢測技術。它在一張與標準載玻片尺寸相同的矽片上面覆蓋8萬個顯微位點,每一個位點都包被上能夠捕獲CTC的抗體。當血液樣品通過微流晶片時,這些位點叢確保CTC在流過晶片前捕獲它們。
  • 你知道a chip off the old block是什麼意思嗎?
    說到chip這個單詞,很多人會想到薯條。除了薯條,chip還有什麼意思呢?今天,我們就一起看一下chip的用法。首先,我們看一下chip做名詞的用法。1、This mug has a chip in it.這缸子有個豁口。
  • Yarn 的內存分配管理機制及相關參數配置
    1.1 RM的內存資源配置, 配置的是資源調度相關 RM1:yarn.scheduler.minimum-allocation-mb=1G #單個容器可申請的最小內存RM2:yarn.scheduler.maximum-allocation-mb=4G #單個容器可申請的最大內存l RM2 必須大於等於 RM1l 一旦設置,不可動態改變1.2 NM的內存資源配置
  • 中科院文獻情報中心「慧」系列智能知識服務產品在京發布
    中國日報12月29日電(記者 張之豪)2018年12月27日上午,中國科學院文獻情報中心主辦的「慧」系列智能知識服務產品發布會在京舉行。「慧」系列智能知識服務產品是在中科院支持下為科學家研發的智能知識服務產品,是在新型知識發現與科學研究模式下,在中國科學院文獻情報中心的「科技大數據平臺」基礎上研發的。
  • 英特爾Rob Crooke:2019,拓展內存和存儲新疆界
    內存和存儲產品對計算體驗至關重要。沒有內存和存儲產品的發展,計算技術的進步便是無源之水,無本之木。而在當今這個以數據為驅動的世界,對數據的傳輸、存儲和處理則更加需要前瞻性的存儲能力以及內存和存儲領域的前沿創新。如今,數據無所不在且爆發的速度驚人,數據應用的新前沿陣地已經逐漸覆蓋各個領域,包括醫療、製造業、交通運輸和金融業等。
  • School shooting suspect 'planned to kill' again
    A police source also said the suspect, who has been identified as self-declared Islamist Mohamed Merah, planned to kill another soldier.
  • TP-LINK從來不公布路由器產品的CPU、運行內存、快閃記憶體等相關參數,這...
    就是普聯的路由器貌似從來都不會公布自己的參數,比如CPU、內存啊等等,那這是為什麼呢?難道他們的路由器參數不好看,所以不好意思公開嗎?其實不然,我們來看看有哪些具體原因。作為驗證,有網友特地去官方專賣店諮詢,得到的回覆卻是不知道、沒有公布等等。那麼,我們從多個角度來分析一下,TP-LINK的路由器為什麼不會公布具體參數呢?
  • 不看這4個數你買內存就虧了:內存時序了解下-內存, ——快科技...
    本期筆者為大家帶來的是關於內存時序那些事,平常我們在購買內存時,每一款內存的外包裝盒上都會標明,那麼這四組數字到底是什麼意思呢?各項數值在這四組數字之中,CL對內存性能的影響是最明顯的,所以很多產品都會把內存CL值標在產品名上,一般DDR4內存的第一項數值在15左右浮動。
  • Chapter 7 FOWLP: Chip-Last or RDL-First
    在本章中,將討論chip-last or RDL-first 的FOWLP過程以及混合RDLs。 首先簡短地提到了最後使用chip-last or RDL-first的原因。7.2Reasons for Chip-Last or RDL-First FOWL根據[8,9],的FOWLP面臨的挑戰之一是chip-first(第5章和第6章)以及引入chip-last or RDL-first 的FOWLP的主要原因是RDL過程中的生產收益是 低,因為已經嵌入了KGD。
  • 蘋果新款iPhone添加「kill switch」防盜系統
    【環球科技報導 記者 陳薇】據英國路透社9月18日報導,蘋果新款iPhone手機添加了名為「kill switch」的防盜系統,可讓用戶在手機被盜時鎖定設備並刪除裡面的數據。這對長期以來一直推動電信行業在遏制盜竊方面更多作為的監管機構而言可謂一大勝利。
  • 染色質免疫共沉澱(ChIP)技術
    3.3 ChIP-on-chipChIP-on-chip是將染色質免疫共沉澱(ChIP)和DNA微陣列晶片技術相結合用來高通量分析DNA和蛋白質結合或者翻譯後染色質/組蛋白修飾的一種方法。該技術已經成為深入研究內源蛋白和DNA相互作用的有力工具。
  • Calypso Systems推出測試軟體和伺服器測試傲騰數據中心級持久內存
    Calypso Systems測試Optane DCPMM(DC Persistent Memory Module 數據中心級持久性內存模塊)的性能,帶寬超過36500MB/s(順序讀寫速度128000MB/s),每秒讀寫速度為3240萬IOPS(順序讀取速度5000),平均響應時間達到0.11微秒。