從體系結構的演變看高性能微處理器的發展趨勢

2020-11-26 電子產品世界

從體系結構的演變看高性能微處理器的發展趨勢
中國科學院聲學研究所數字系統集成實驗室    單睿

本文引用地址:http://www.eepw.com.cn/article/7549.htm

微處理器體系結構
隨著高性能計算的需求,計算機體系結構發生了很大變化。作為計算機核心部件的微處理器,其性能和複雜性(電晶體數、時鐘頻率和峰值)也按照摩爾定律增長。微處理器性能的改善在很大程度上歸功於體系結構的發展和VLSI工藝的改進。體系結構的發展主要體現在三個方面,即超流水、多指令發射和多指令操作。
超流水技術主要開發時間並行性。流水線技術是RISC處理器區別於CISC處理器的重要特徵。採用超流水技術,儘管可以減少關鍵路徑中每級流水的時間,但同時也引入了更多的寄存器,進而增加了面積開銷以及時鐘歪斜問題。另一方面,深度流水在指令相關和指令跳轉時會大大降低流水線的性能。
多指令發射和多指令操作均是開發空間並行性。多指令發射面臨的首要問題是如何保持應用程式語義的正確性,MIMD、超標量和數據流技術是多指令發射的典型結構。MIMD是並行計算的重要研究領域。超標量採用時序指令流發射技術,兼容性好,硬體開銷大,功耗開銷大,是目前多數商用高端處理器採用的主流技術。數據流採用token環技術,理論上可以開發出高度指令並行性。然而,其商用開發不成功,原因是運行時間開銷大,尤其是token環匹配需要很高的時間代價。
多指令操作是當前體系結構的重要研究方向。多指令操作包括數據並行性開發和操作並行性開發。儘管在CISC處理器中均採用過這兩種技術,但CISC給體系結構開發帶來三個負面影響:一是CISC指令不適合流水處理,二是指令差異很大造成解碼困難,三是編譯器很難開發出有效的指令操作。與CISC處理器相反,多指令操作非常適合RISC處理器,其中SIMD和VLIW就是數據並行性和操作並行性的典型結構。
向量處理器和SIMD處理器都是利用多個操作數來實現數據並行性。但二者有很大不同。向量處理器對線性向量元素順序操作,SIMD則對向量元素進行並發操作。對前者,每條指令只能作用於一個功能部件,執行時間較長;而後者在執行指令時可以作用於多個功能部件。向量處理器採用交叉存儲器實現向量的訪存操作,同時可對短向量進行有效操作,即對稀疏向量進行壓縮以獲得高性能。SIMD適合多媒體中的分組數據流,通過特定算法將長的數據流截成定長短向量序列,從而可以和向量處理器那樣實現對定長短向量序列的高效處理。
VLIW是實現操作並行性開發的重要途徑。CISC處理器採用垂直編碼技術,而VLIW則採用水平編碼技術,指令中的每個操作域可以並發執行。同CISC處理器相比,VLIW具有的優點是:指令操作域定長,解碼簡單;適合流水處理,減少CPI;編譯器需要開發程序潛在的指令級操作並行性。傳統VLIW的不足是指令帶寬較高,二進位目標代碼不兼容。VLIW和SIMD結構都能接受單一指令流,每條指令可以包含多個操作。但前者允許每條指令包含多個不同類型的操作,同時可以開發細粒度並行性。VLIW指令字較長,而SIMD具有很強的數據壓縮能力。事實上,VLIW和SIMD技術相結合可以獲得更高的性能加速比,且非常適合多媒體數據處理。
從微處理器體系結構和編譯器界面劃分的角度上講,指令級體系結構可以分為順序結構、相關結構和獨立結構三類。在順序結構中,程序不包含任何指令並行信息,完全通過硬體進行調度,即硬體負責操作間的相關分析、獨立操作分析和操作調度,編譯器只負責程序代碼的重組,程序中不附加任何信息。超標量是該類結構的典型代表。在相關結構中,程序顯式指定操作的相關信息,即編譯器負責操作間的相關分析,而硬體負責獨立操作分析和調度,如數據流處理器。獨立結構完全由程序提供各個獨立操作間的信息,即編譯器負責操作間相關性分析、獨立操作間分析和指令調度,VLIW是其主要代表。

超標量處理器架構
現代超標量處理器體系結構均基於IBM360/91採用的Tomasulo和CDC6600採用的Scoreboard動態調度技術,MIPS R10000和DEC21264微處理器均基於該體系結構。典型超標量處理器通常採用如下邏輯結構實現動態調度:寄存器重命名邏輯、窗口喚醒邏輯、窗口選擇邏輯和數據旁路邏輯。Intel的Pentium處理器、Motorola的PowerPC 604和SPARC64則採用基於預約站的超標量體系結構。
兩種體系結構的主要區別是:在典型超標量結構中,無論是推測還是非推測寄存器值都放在物理寄存器堆中;在預約站超標量結構中,推測數據放在重排序緩衝器中,非推測數據和已經執行完成提交的數據則放在寄存器文件中。在典型結構中,操作數不廣播到窗口,而只將操作數標誌TAG進行廣播,操作數則送到物理寄存器文件。在預約站結構中,指令執行結果廣播到預約站,指令發射時從預約站去取操作數。
超標量處理器性能與IPC(Instructions Per Cycle)和時鐘頻率的乘積成正比。時鐘速率同系統結構的關鍵路徑時延有關,而IPC和如下因素有關:程序中潛在的指令級並行性、體系結構字長寬度、指令窗口大小和並行性開發策略。超標量處理器一般通過增加發射邏輯提高IPC,這將導致更寬的發射窗口和更複雜的發射策略。

圖1 ZSP400 內核超標量體系結構框圖
眾所周知,超標量處理器是通用微處理器的主流體系結構,幾乎所有商用通用微處理器都採用超標量體系結構。而在DSP方面,LSI 邏輯公司的 ZSP200、 ZSP400、ZSP500和ZSP600均採用超標量體系結構。ZSP200採用並行MAC和ALU運算部件,2發射超標量結構;ZSP400採用雙 MAC單元、4 發射超標量處理器體系結構;ZSP500為4發射體系結構、採用增強型雙MAC和雙ALU運算單元;ZSP600採用4MAC和雙ALU運算部件,每個時鐘周期發射6條指令。圖1為ZSP400結構框圖。
ADI公司的TigerSHARC系列採用靜態超標量體系結構。該系列採用了許多傳統超標量處理器的特徵,如load/store結構、分之預測和互鎖寄存器堆等技術。每個時鐘周期發射4條指令。而靜態超標量的含義是指指令級並行性識別是在運行之前,即編寫程序時確定的(事實上以VLIW結構為基礎)。同時,TigerSHARC系統處理器採用SIMD技術,用戶可以對數據進行廣播和合併。所有寄存器均是互鎖的,支持簡單的編程模型,該模型不依賴於不同型號間的時延變化。分支目標緩衝器BTB為128位,可以有效減小循環操作和其它非順序代碼的執行時間。圖2為TigerSHARC系列中的ADSP-TS201S結構框圖。

圖2 ADSP-TS201S靜態超標量體系結構框圖

超長指令字VLIW體系結構
自從耶魯大學的J.A Fisher於1979年首次提出VLIW體系結構以來,先後
由耶魯大學開發出基於跟蹤調度(Trace Scheduling)技術的MultiFlow處理器和Cydrome公司Bob Rau等人開發的基於巨塊調度(Superblock Scheduling)的Cydra-5處理器。但直到九十年代中期,基於VLIW結構的處理器基本上停留在實驗室原型機階段。因為VLIW本身固有的幾個關鍵問題一直沒有徹底解決,導致了其後的商用處理器體系結構從RISC轉向了超標量和超流水,而不是VLIW。儘管如此,由於VLIW結構的許多優點仍然使許多研究機構競相對該技術進行堅持不懈地研究,並在體系結構和編譯器方面實現了突破,其中最重要的是解決了目標代碼兼容問題並支持推斷推測機制(儘管大部分處理器僅支持部分推斷推測機制)。這之後出現了Philip的Trimedia、Equator的MAP1000A媒體處理器、Chromatic的Mact、TI的TMS320C6XX、Transmeta的Crusoe以及INTEL和HP聯盟提出的IA-64體系結構(EPIC)。事實上VLIW作為下一代高性能處理器體系結構的首選技術已成共識,該體系結構和優化編譯器形成的SIMD指令流將更加適合多媒體數據處理。
TI的TMS320C6系列是典型的超長指令字VLIW體系結構,該系列每個指令周期可以執行8條32位指令,C62為定點處理器,C67為浮點處理器。C62和C67系列的CPU內核是相同的,包含32個通用寄存器、8個執行部件。C64包含64個通用寄存器和8個執行部件。8個執行部件包含2個乘法器和6個ALU。支持8/16/32數據類型,所有指令均為條件執行,減小了分支指令開銷。圖3為C62和C67系統框圖。

圖3  基於VLIW體系結構的TMS320C6系統框圖
中國科學院聲學研究所在「973國家重大基礎研究發展規劃」資助下研製成功國內第一款基於多發射VLIW和SIMD技術的具有可重組結構的高性能微處理器晶片-華威處理器(SuperV)。該處理器為四發射VLIW處理器,當執行向量處理功能時,每個周期可執行35個操作。在執行32位乘累加操作時可獲得2.9 GOPS 的數據處理速度;執行16位乘累加操作時可獲得5.1 GOPS 的數據處理速度;執行8位乘累加操作時可獲得9.3 GOPS 的數據處理速度。該處理器是目前國內數據處理能力最強的微處理器,可以廣泛應用於信息家電、網絡通信、聲音圖像以及雷達聲納等信號處理領域。

可重構處理器架構
從二十世紀七十年代開始的第一代CISC處理器開始至今,微處理器體系結構已經經過了三代。然而,即使是第三代的RISC技術仍然停留在固定模式的體系架構設計。隨著ASIC和SOC技術的發展,微處理器設計進入到第四代,即後RISC和可重構處理器時代。其重要特徵是系統架構不再採用固定模式,而是將DSP的靈活性與硬線連接的專用性相結合,使得微處理器可以針對不同的應用需求建立自己獨特的體系結構,達到性能最優、功耗更低的目的。
華威處理器(SuperV)體系結構不僅基於RISC、VLIW和SIMD技術,而且採用了可重構技術,使得用戶在不增加硬體開銷的情況下通過對系統功能部件的重構完成對不同應用的處理,不僅提高了系統性能,而且大大降低了系統的功耗。例如,在華威處理器中設計了若干32位可重構乘法器,每個可重構乘法器可以完成32位乘法、若干個16位乘法或者8位乘法。因此,華威處理器可以採用一條指令完成16個8位數據的乘(累)加操作;一條指令可以完成8個16位數據的乘(累)加操作;一條指令可以完成4個32位數據的乘加操作;一條指令可以完成4個32位數據的累加操作;一條指令可以完成16個索引、16個地址計算和16次數據加載操作;兩條指令完成16個8位數據累加操作;兩條指令可以完成8個16位數據累加操作;兩條指令可以完成對256項、8位元素的數據表進行的16路並行查找。


Tensilica的可配置技術是可重構處理器的重要代表。例如,Vectra LX定點向量DSP引擎就是通過配置選項在Xtensa LX可配置處理器的基礎上建立起來的。即Vectra LX定點DSP引擎是Xtensa LX微處理器內核的一種配置。該定點DSP引擎是一個3發射SIMD處理器,具有四個乘法器/累加器(四MAC),它可以處理128位的向量。128位向量可以分成8個16位或者4個32位的元素。整個Vectra LX DSP引擎是用TIE (Tensilica's Instruction Extension)語言開發的,通過修改可以適合不同的應用領域。Vectra LX DSP引擎增加了16個向量寄存器(每個寄存器160位寬)、四個128位的向量隊列寄存器、第二個load/store單元和210多條現有Xtensa LX處理器指令集體系結構中的通用DSP指令。Vectra LX DSP引擎如圖4所示。

圖4 Vectra LX DSP體系結構框圖

結語
作為信息產業的核心技術,微處理器體系結構正在發生很大的變化,而這種變化無不體現出市場需求的強大動力。現代微處理器,無論是通用微處理器還是數位訊號處理器在體系結構方面正在趨於融合。通用處理器通過增加媒體處理指令來提高數據處理器能力;而數位訊號處理器也借鑑了通用處理器的體系結構,使得數位訊號處理器的數據處理器能力更加強大、管理更加靈活。同時,隨著嵌入式應用的需求,對功耗的要求也越來越苛刻,使得可重構處理器在未來將會起到重要的作用。由於不同的應用需求可以通過重構技術獲得所需要的微處理器系統架構,這將大大提高產品的競爭力,同時也降低了整個系統的功耗和成本。


相關焦點

  • 金海:未來計算機體系結構的發展方向
    2012年10月29日-31日,由中國計算機學會主辦的 「2012年全國高性能計算學術年會」(HPC China 2012)在湖南省張家界陽光酒店召開。本屆盛會圍繞著高性能計算技術的研究進展與發展趨勢、高性能計算的重大應用等主題展開,促進信息化與工業化的深度 融合,為相關領域的學者提供交流合作、發布最前沿科研成果的平臺,推動中國高性能計算的發展。
  • 新中國產業結構發展演變歷程及啟示
    以此為方向,我國產業結構演變將呈現四大趨勢: 服務引領、製造支撐是產業結構升級的主基調;產業融合發展成為產業結構演變的主要方向;行業分化將成為產業結構演變的常態;生產性服務業在「補空缺」和「走出去」中有望加快發展。
  • 微處理器智能步進電機控制卡開發方案
    1 引言本文引用地址:http://www.eepw.com.cn/article/171226.htm數控技術是一種採用計算機對機械加工過程中各種控制信息進行數位化運算處理,並通過高性能的驅動單元對機械執行構件進行自動化控制的高新技術
  • 【一張圖】看懂8種高性能纖維的發展現狀及趨勢
    【一張圖】看懂8種高性能纖維的發展現狀及趨勢 發表時間:2015/7/24
  • 國土空間結構演變解析與主體功能區格局優化思路
    本文立足於中國主體功能區劃「一張圖」,通過對國土空間結構演變解析,並藉助於中國資源環境承載能力監測預警的研究成果,結合未來區域高質量發展的趨勢分析,提出新時期完善主體功能區格局的政策建議。例如:點-軸結構闡釋了以點和軸線空間形態為主體表達的空間結構演化過程及成因機理,刻畫了社會經濟空間組織發生和發展的客觀規律;核心-邊緣結構表徵出不同地區的發展狀況、存在的問題和發展的潛力。隨著我國人均 GDP 步入 1 萬美元,中國區域發展格局也應進入演變的拐點:一方面表現為區域經濟差距的縮小,另一方面則是從非高質量的區域發展向高質量區域發展的轉變。
  • 從人口年齡結構發展趨勢看重慶市經濟增長
    但由於人口紅利並非取之不盡、用之不竭,如何合理預測人口紅利延續時間,並採取何種措施把人口結構的優勢最大限度地發揮出來,以促進經濟的快速增長將是需要我們研究的重要問題。  一、重慶市人口年齡結構現狀分析  (一)少兒撫養比持續下降。隨著計劃生育政策的實施,重慶市出生率下降明顯,少兒人口(0―14歲)比重和少兒撫養比均呈持續下降趨勢。
  • PLC在全球目前的發展現狀以及未來的發展趨勢
    PLC的發展現狀  從一開始,當PLC開始大批量地替代繼電器和計時器時,對於未來PLC的發展趨勢,就持續存在著一種減少自動控制系統尺寸以及簡化支持和維護工作的推動力。在過去的幾年裡,繼電器被更小的基於Rack結構(如圖1所示)或更小的有遠程I/O口的PLC所替代。  隨著大規模和超大規模集成電路等微電子技術的發展,PLC已由最初一位機發展到現在的以16位和32位微處理器構成的微機化PC,而且實現了多處理器的多通道處理。
  • 示波器技術的發展和演變
    本文引用地址:http://www.eepw.com.cn/article/201807/383783.htm模擬實時示波器發展到現在,基本結構並沒有多大變化,下圖是一個基本的結構框圖:模擬實時示波器發展到現在,基本結構並沒有多大變化,下圖是一個基本的結構框圖:模擬實時示波器機構簡單,沒有信號的數位化
  • 要建設什麼樣的科技創新體系,才能適應經濟社會發展趨勢?
    從全球來看,國際經濟社會發展呈現出的大趨勢主要有:世界經濟重心向東轉移,發展中經濟體群體性崛起;世界人口出生率普遍下降,人口結構老齡化趨勢加重;全球性數字世界與智慧社會加速成型;國際規則改革重建,地緣政治格局調整重構並深度演進;人類安全和全球社會治理的風險和挑戰增加;產業關鍵核心技術制高點爭奪激烈;全球自然資源和能源競爭博弈將長期存在;全球變暖和地球生態環境惡化風險持續加大
  • 嵌入式系統歷史及發展趨勢
    嵌入式系統是當今非常熱門的研究領域,在PC市場已趨於穩定的今天,嵌入式系統市場的發展速度卻正在加快。由於嵌入式系統所依託的軟硬體技術得到了快速發展,因此嵌入式系統自身獲得了快速發展。根據美國嵌入式系統專業雜誌RTC報導,在21世紀初的10年中,全球嵌入式系統市場需求量具有比PC市場大10~100倍的商機。
  • 彭麗軍:新能源汽車線束線纜用高性能銅合金髮展趨勢
    SMM8月30日訊:在《2019年中國電工材料供需交易峰會》上,有研工程技術研究院有限公司(北京有色金屬研究總院)先進銅合金材料製備加工技術研究所彭麗軍博對士新能源汽車線束線纜用高性能銅合金髮展趨勢做出詳細的綜述。
  • 高性能計算之源起——科學計算的應用現狀及發展思考
    近年來,高度異構和內部網絡高速互聯是現代高性能計算機體系架構的重要發展方向。而對於若干典型的高性能計算應用,通訊與計算能力不匹配的矛盾較為突出。一般說來,現代計算機的處理器和加速部件往往達到幾千億次至幾萬億次的浮點運算能力,而目前性能較好的內部網際網路的帶寬雖達到了200 Gb,仍然相對較慢。
  • 質量管理體系的演變與發展(中)
    質量管理體系的演變與發展(中)作者:讀裁者黃遠輝,專注人文歷史,質量標準,智慧財產權推薦閱讀書單:郭彬《創造價值的質量管理實戰》,克勞士比《質量免費》,石川馨《質量管理入門》,朱蘭《朱蘭質量手冊》,笛福、朱蘭《朱蘭的卓越領導者質量管理精要》二、偉大的質量管理大師及其質量管理思想(一)戴明
  • 」歷史是一部媒介形態發展的歷史」,從變遷看媒介演變與發展
    「歷史是一部媒介形態發展的歷史」,技術決定論的集大成者馬歇爾·麥克盧漢在二十世紀六七十年代鄭重地向世界宣布這一著名論斷時,引發了學界對媒介形態演變趨勢的探討以及讓學者對未來世界會如何發展充滿好奇。而筆者將從這個角度敘述媒介演變的趨勢和對未來的看法。
  • 青島能源所開發出高性能無鈷富鋰錳基正極材料體系
    因此,開發鈷含量較低的正極材料至關重要,低鈷甚至無鈷逐漸成為了電池發展的趨勢,無鈷電池正是基於這一現實情況而誕生。自從特斯拉提出「無鈷電池」的口號之後,牽出了業界在無鈷電池上的多方面努力。眾所周知,正極材料中去鈷或者少鈷,面臨的技術挑戰之一就是如何解決鋰鎳混排以及金屬溶出的問題,否則正極材料的穩定性、循環性能、倍率性都非常差。
  • 分析| 高性能釹鐵硼磁材發展現狀、領域應用及行業需求發展
    而這樣豐厚的稀土資源為下遊稀土永磁材料產業的發展,在原料資源方面打下夯實的基礎;2)全球釹鐵硼磁材產業經歷產業格局大調整:在二十世紀80-90年代,釹鐵硼磁材成功量產之初,全球產能集中在日本與歐美,尤其是日本與美國掌控高性能釹鐵硼磁材生產技術,領先於全球。
  • 城市會往何處去:東京都市圈空間結構演變的制度邏輯與啟示
    城市群已成為帶動全國發展的重要空間載體,其空間結構也日益成為規劃、政策研究的重點。在十九大報告中,明確提出我國未來區域發展戰略中,要形成「以城市群為主體構建大中小城市和小城鎮協調發展的城鎮格局」,並作為貫徹新發展理念,建設現代化經濟體系的重要支撐。
  • 中國傳感器行業發展現狀,光電傳感器行業發展趨勢
    打開APP 中國傳感器行業發展現狀,光電傳感器行業發展趨勢 前瞻趨勢遇見未來 發表於 2020-11-26 15:14:25
  • 我科研團隊自主開發出高性能無鈷富鋰錳基正極材料體系
    但是其本身在循環中首效低、循環性能和倍率性能差、電壓衰降嚴重、無相匹配的高壓電解液等缺點阻礙了其進一步商業化和產業化的發展。作為動力電池正極材料中的重要元素之一,鈷起到穩定材料結構和提高循環、倍率性能的重要作用。然而,鈷作為不可再生金屬,資源量稀缺,有限的鈷資源無法支撐新能源汽車無限的發展空間。另一方面,鈷對正極材料本身的成本影響也很大。
  • 北鬥GNSS衛星導航定位晶片架構和設計發展趨勢
    北鬥導航晶片的構成衛星導航晶片在結構上主要包括GNSS射頻接收機、GNSS基帶信號處理器、微處理器、電源管理、內存和控制單元、存儲器、串口設備、外圍接口電路等部分。因此,衛星導航定位晶片的技術方向很大程度上代表了衛星導航終端產品的發展趨勢。從衛星導航晶片的結構上,我們可以較清晰的看到,晶片集成度、性能和功耗將是晶片未來發展的重點技術攻關方向。