湛 偉(成都華微電子科技有限公司,成都 610041)
本文引用地址:http://www.eepw.com.cn/article/201908/404225.htm摘 要:本文回顧了Serdes的發展歷程,提出了Serdes技術分代及其特點,講述當前國內外Serdes的技術現狀,以及Serdes技術的發展趨勢,對Serdes架構和各模塊技術演變、關鍵技術挑戰進行了分析,並從協議、電路設計、信號完整性、發展趨勢幾個維度加以詳細討論。
關鍵詞:Serdes;PAM4;數據時鐘;恢復
0 引言
Serdes;PAM4;數據時鐘;恢復Serdes是英文單詞串行器(Serializer)和解串行器(De-Serializer)的合成詞,可以稱之為串行解串器。根據其功能來講,Serdes就是在發送端將並行數據轉換為串行數據,在接收端將串行數據恢復為並行數據的電路。
目前,Serdes技術在有線通信方面已經得到了廣泛應用。按照應用連接的類型,主要分為晶片與光模塊的互聯;晶片與晶片的互聯;以及乙太網互連。
乙太網接口主要有10BASE-T、10BASE-F、100BASE-T、10BASE-FX、1000BASE-X、1000BASE-T接口,在跨城市互聯中將主要用到GE及以上的接口。GE物理接口有1000BASE-X(802.3z標準)和1000BASE-T(802.3ab標準)兩種。未來的高速率接口(100G或以上)均為GE類型,為了與100GE兼容,OTU4標準的制定為100GE,高端路由器廠家目前均可提供100GE,並大部分計劃開發100GE OTN接口 [1-2] 。可以預見的是未來的高速埠將是乙太網和OTN這兩種類型。
在以並行通信主導的內存顆粒的訪問接口領域,也有分別是海力士和AMD主導的HBM(High BandwidthMemory,高帶寬存儲器) [3-4] 以及Intel支持、美光主導的HMC(Hybrid Memory Cube) [5] 等串行接口,作為與DDR5不同的一種演進方向。
由此我們可以看到,Serdes已經跟隨通信協議,廣泛應用在電信、IT和個人消費電子領域。並且隨著通信容量的快速提升,各種通信協議的單通道數據率也快速提升,例如圖1所示的幾種協議演進。
1 技術現狀
目前,國際上最先進的Serdes單通道為64~128 Gbit/s之間。在功耗方面,除了單通道最大功耗(mW)外,由於電路功耗跟工作的數據率強相關,所以通常也使用每bit消耗的功耗(pJ/b)來衡量。在ISSCC 2019會議上,IBM發表的單通道128 Gbit/s 1.3 pJ/b的發送器和100 Gbit/s 1.1 pJ/b的接收器,基本代表了當前國際Serdes技術的最高水平 [6-7] 。
令人注意的是,華為旗下的海思半導體在Serdes領域也有相當先進的技術,已經形成了從45 nm~7 nm工藝,10 Gbit/s~64 Gbit/s的多款IP核,並在近百款晶片中商用。在2018年和2019年的ISSCC會議上,華為加拿大研究所先後發表了基於臺積電16 nm 64 Gbit/s和7 nm 60 Gbit/s的Serdes,並且接近商用,代表著國產Serdes技術的最高水平 [8-9] 。
另外,清華大學、北京大學、東南大學等院校在Serdes領域研究也取得了很大的進步,有多篇32Gbit/s、40Gbit/s、50Gbit/s的學術成果 [10-13] 。
2 發展歷程
Serdes技術的發展,依本文作者觀點,可以分為以下幾個階段。
第1階段:單通道數據率低於6 Gbit/s,工藝一般採用45 nm及以上。此時Serdes數據率相對較低,對Serdes電路設計、鎖相環(PLL)的指標、鏈路信號完整性要求較低,接收端(Receiver,RX)採用固定CTLE參數等可以滿足需求。
第2階段:單通道數據率從6 Gbit/s~15 Gbit/s,工藝水平一般在28 nm~45 nm。此時,對PLL設計指標要求提升,而且RX的連續時間線性均衡器(Continuous time linear equalizer,CTLE)、判決反饋均衡器(Decision Feedback Equalizer,DFE)要求採用自適應等算法,使得在不同鏈路應用場景下獲得CTLE最優配置,還能根據高低溫變化帶來的鏈路信號完整性變化,動態調整接收DFE參數,使得誤碼率在協議規定範圍以內。
第3階段:單通道數據率從15 Gbit/s到30 Gbit/s,工藝水平一般在16 nm到28 nm。工藝參數對電路的影響、功耗等問題變得更為突出,需要更加精細的設計電路以及封裝、單板、連接器等。
第4階段:單通道最高數據率大於30 Gbit/s以上,採用16 nm甚至更先進的工藝水平。通常在30 Gbit/s以下的應用可以採用傳統的NRZ編碼,30 Gbit/s以上的應用需要考慮採用PAM-4編碼,通過犧牲信號的幅度來換取時序上的寬裕。因此,Serdes架構有了很大變化,通常會採用DSP和高速ADC等技術來處理PAM-4編碼 [14-19] 。
一個完整的Serdes系統,包括參考時鐘,PLL,上層協議,編解碼,發送端(Transmitter,TX),信道,接收端(RX)等部分組成。其中有源器件主要是晶片本身如Serdes的收發端,外部的ESD防護器件,光模塊等;無源器件包括單板、背板及走線,AC耦合電容連接器,背板,SMA頭,線纜等。
下面,我們進一步從這些方面討論Serdes的發展趨勢和挑戰。
3 協議
Serdes通常作為通信協議的物理層的物理介質(PMA)子層部分,由此要嚴格準從協議規定。Serdes作為一個晶片的底層模塊,除了滿足單一的通信協議數據率越來越高的挑戰,基於成本等考慮,通常還要求同一個Serdes IP核能夠兼容多種協議。
從Serdes設計的角度,常見的通信協議可以分為幾大類別。
第1類:普通的協議。此類協議除了數據率,位寬及其電氣參數差異外,沒有對Serdes提出其他特殊要求。
第2類:PCIE、SAS、SATA等協議。這幾種協議,要求根據鏈路的惡劣情況進行調整速率,即速率可自協商,這時Serdes可以被上層控制。並且由於多應用在個人電腦、數據中心等領域,對EMI輻射有要求,所以要求Serdes有對擴頻時鐘(SSC)的產生和接收能力。並且PCIE支持熱插拔,由此要能夠檢測對端器件是否在位,滿足熱插拔需求。另外還要支持功耗管理等功能 [20-21] 。
第3類:PON協議。此類協議要求支持連續(Continue)收發和突發(Burst)收發模式,而一般CDR會對連續長時間的1信號或者0信號產生鎖定異常,因此CDR需要特殊的架構才能滿足此類協議的要求 [22] 。
4 鎖相環
常見的鎖相環通常基於LC振蕩器(LC VCO)或者環形振蕩器(Ring VCO)結構。
環形振蕩器易集成、面積小、且容易產生多相位的時鐘。LC振蕩器的電感佔用晶片面積較大,設計難度較高,優點是相噪性能更好。但是隨著Serdes數據率的提高,電感越小諧振頻率越高,所以電感佔用面積大的缺點有所緩解。反而是環形振蕩器PLL的功耗、相噪等問題,無法滿足更高的要求。但是隨著Serdes對PLL頻率、相噪、功耗等提出了越來越高的要求。在10 Gbps以上的Serdes設計中,通常會使用基於LC VCO的PLL,以獲得更好的相噪水平。
從LC VCO-PLL和ring VCO-PLL的性能比較我們可以看出:LC VCO-PLL在抖動方面具有較大優勢,在約(4~5)GHz以下的低頻應用時,ring VCO-PLL在功耗和面積上有一定優勢。但隨著頻率的更加,ringVCO需要更大的電流來提高振蕩頻率,LC VCO佔最大面積的電感和電容器件將更小,所以功耗和面積缺點不再那麼突出了。
一般來說,在5~8 GHz以下的應用中,基於ringVCO的PLL是可行的。如果在更高的頻率,基於LCVCO的PLL更為合適。
5 發送端
發送端主要功能包括如下。
串行器:將並行信號轉換為串行信號。
前饋均衡器(FFE):實現預加重或者去減重,以補償信道對信號的衰減作用。
驅動器:提過對輸出信號擺幅、上升下降沿等可調的驅動能力。
串行器的核心是多路復用器電路,常見的有3類:一步式的多路復用器,二進位的多路復用器,多種復用器組合不均勻串行器,如圖3所示。
一種8:1的多路復用器如圖4所示。Phs0~Phs7是同頻率但等相位差的時鐘,只有在Phs7和Phs4同時為高時,數據D7B和D7才能被送出;只有在Phs0和Phs5同時為高時,數據D0B和D0才能被送出,依次類推。
循環的等相位差時鐘,將數據D0~D7和D0B ~D7B依次串行高速輸出,即可達到並行轉串行的目的。此類結構優點在於電路簡單,缺點是難以應用在數據位寬較寬的場景。而且在高速並串轉換時,對時鐘相位的抖動等要求很高,而變得難以實現。也就是說,一步式復用器的最高工作速率低於二進位復用器,所以一步式復用器一般應用在低速Serdes並串轉換電路中,或者作為不均勻串行器的第1級。
不均勻復用器,既可以靈活配置位寬,也避免了一步式復用器對多相時鐘的高指標要求,並且比二級制復用器更高效,因此是一種很適合高速串行器的結構。
發送端的驅動端電路,常見的是CML和SST結構。
CML結構本身方便電流疊加,所以很容易實現預加重功能。但是輸出擺幅與輸出阻抗和驅動電流的乘積相關,輸出阻抗通常又被限制在50~100 Ω,因此要獲得大擺幅就必須使用較大的驅動電流,使得功耗居高不下。這在功耗問題日益突出的今天,已經變得無法接受。
文獻[24]中的兩種不同阻抗調整方式的SST結構如圖所示,SST結構的輸出擺幅與其電源電壓直接相關,一般來說產生同樣擺幅,SST結構的功耗只有CML結構的1/4左右,因此在10 Gbps以上的Serdes中越來越受到青睞。
但是SST結構的預加重信號疊加相比CML結構更為複雜。使問題更加困難的是,採用並聯SST等結構來實現預加重功能時,由於開關的MOS管數量不同,阻抗匹配難以保證。因此,通常需要阻抗校準電路和狀態機來保證初始化時,Serdes 發送端的阻抗能夠匹配在差分100 Ω左右。
6 接收端
信道的插損與信號頻率成正比,頻率越高衰減越大。所以隨著Serdes數據率提升,信道的衰減也越來越嚴重。為了補償信道的衰減,通常需要在發送端預加重功能和接收端均衡功能。接收端的均衡器一般由CTLE和DFE構成。CTLE和DFE已經廣泛應用於當前的Serdes架構中。
RX設計面臨的幾個挑戰是:更優的DFE拓撲和CDR拓撲,以及更優的自適應算法。
DFE架構經歷了全速直接DFE(Full rate directDFE)、半速直接DFE(Half rate direct DFE)、展開全速DFE(Full rate unrolled DFE)、展開半速DFE(Unrolled half rate DFE)和多路復用半速DFE(Multiplexed half rateDFE)等結構。由於展開式和多路復用等結構,不用通過電流加法電路對DFE tap進行求和,而使得時序比直接式DFE更寬鬆,更適合用於解決速率提升帶來的時序緊張問題。
根據RX輸入數據和本地時鐘之間的相位關係,可以把CDR體系結構分為3類 [25] 。
1)使用反饋相位跟蹤的拓撲,包括基於鎖相環結構的CDR(PLL based CDR)、延遲鎖定迴路(DLLbased CDR)、相位插值器(Phase interpolatorbased CDR)和注入鎖定(Injection-locked basedCDR)結構。
2)無反饋相位跟蹤的過採樣(Over-sampling)拓撲。
3)使用相位對準但無反饋相位跟蹤的拓撲,包括門控振蕩器(Gated oscillator)和高Q值帶通濾波器結構。
也可根據應用場景將CDR分為突發模式和連續模式的CDR。突發模式系統通常用於點對多點應用中,不同的發送方在突發之間傳輸具有靜默時間間隔的包數據。
每當請求傳輸數據包時,數據傳輸鏈路被重新激活,並且在其他時間保持不活動狀態,如乙太網無源光網絡(EPON)、千兆無源光網絡(GPON)等。突發模式CDR結構一般採用無反饋相位跟蹤的拓撲結構,如門控振蕩器和過採樣技術。基於相位插值器的CDR不存在抖動峰值或穩定性問題,具有無限的相位捕獲範圍,但存在量化誤差。
因此,需要根據晶片不同的應用場景來選擇最佳的Serdes CDR結構。
自適應算法可以由數字邏輯狀態機來執行,也可以固件的形式燒錄在片上MCU中執行。例如PCIE等協議在速率切換時,要求24 ms以內達到規定的誤碼率以下,否則協商失敗,留給自適應執行的時間非常有限。
因此,就需要設計合理的自適應算法,或者提高狀態機或者MCU的運行頻率,才能符合協議要求。
7 信號完整性
由於頻率越高插損越大的鏈路參數特性,隨著Serdes通道的數據率越高,對晶片封裝、在測試時常用的Socket夾具、PCB走線處理、連接器等構成的信號完整性也越敏感。高速Serdes對PCB走線的信號完整性提出了越來越嚴苛的要求,例如PCB板材的選取,過孔的處理,是否需要背鑽等等,都是信號完整性所要考慮的問題。
在5~8 Gbit/s以下的Serdes單板PCB設計時,一般選擇常用的FR4級別板材就能滿足信號完整性的要求;在更高速的PCB應用時,則要考慮M4、M6或者同級別的PCB板材。同時,需要對過孔進行埋孔、背鑽等做特殊處理,這樣也大幅增加了投板成本。
8 結論
通信業務對於Serdes數據率的需求日益增長,當前基於CMOS工藝實現的Serdes最高單通道數據率已經達到128 bit/s,無論對於CMOS電路設計還是鏈路信號完整性,單通道數據率的進一步提高已經變得越來越困難。與此同時,很多系統應用對Serdes的功耗的還有苛刻的要求,也是設計人員面臨的巨大挑戰之一。
矽光子技術可以基於矽和矽襯底材料,利用CMOS製程將電信號轉換為光信號傳輸。光替代鏈路的銅線,可以得到很好的傳輸數據率和極低的損耗。如果矽光子技術獲得突破和成熟,加上單板的光走線,可以實現晶片與晶片之間的光互聯,那麼,Serdes技術的側重點會變得很大的不同,將對驅動能力要求大大的降低。因此,矽光子技術是一種極具可能性的演進方向 [26-28] 。參考文獻
[1] 1000BASE-RH PHY system simulations[S].IEEE802.3bv Task Force,2015.
[2] Cisco SFP Optics For Gigabit Ethernet Applications[J/OL].Cisco Systems,2010.
[3] O』ConnorC M.Highlights of the High BandwidthMemory (HBM) Standard[C].Nvidia Memory論壇,2014.
[4] Morgan T P.Future Nvidia 『Pascal』 GPUs Pack 3DMemory, Homegrown Interconnect[C].terpriseTech,2014.
[5] HMC聯盟.Hybrid Memory Cube Specification2.1[S],2015.
[6] Toprak-Deniz Z.A 128Gb/s 1.3pJ/b PAM-4Transmitter with Reconfigurable 3-Tap FFE in 14nmCMOS[C],ISSCC2019:122-124.
[7] Cevrero A.A 100Gb/s 1.1pJ/b PAM-4 RX with Dual-Mode 1-Tap PAM- 4 / 3-Tap NRZ Speculative DFE in14nm CMOS FinFET[C].ISSCC2019:112-113.
[8] LaCroix M A.A 60Gb/s PAM-4 ADC-DSP Transceiverin 7nm CMOS with SNR-Based Adaptive Power ScalingAchieving 6.9pJ/b at 32dB Loss[C].ISSCC2019:114-116.
[9] Wang L.A 64Gb/s PAM-4 Transceiver Utilizingan Adaptive Threshold ADC in 16nm FinFET[C].ISSCC2018:110-111.
[10] Tang L.A 32Gb/s 133mW PAM-4 Transceiver withDFE Based on Adaptive Clock Phase and ThresholdVoltage in 65nm CMOS[C],ISSCC2018:114-115.
[11] Lv F.A 50Gb/s Low Power PAM4 SerDesTransmitter with 4-tap FFE and High Linearity OutputVoltage in 65nm CMOS Technology[C].IEEE CustomIntegrated,2015:1441-1450.
[12] Huang K.A 80 mW 40 Gb/s Transmitter WithAutomatic Serializing Time Window Search and 2-tapPre-Emphasis in 65 nm CMOS Technology[J].IEEETRANSACTIONS ON CIRCUITS AND SYSTEMS,2015.
[13] Zheng X.An Improved 40 Gb/s CDR with Jitter-Suppression Filters and Phase-CompensatingInterpolators[J].IEEE Asian Solid-State CircuitsConference,2016:85-88.
[14] Pisati M.A Sub-250mW 1-to-56Gb/s Continuous-Range PAM-4 42.5dB IL ADC/DAC-Based Transceiverin 7nm FinFET[C].ISSCC2019:116-117.
[15] Ali T.A 180mW 56Gb/s DSP-Based Transceiver forHigh-Density IOs in Data Center Switches in 7nm FinFETTechnology[C].ISSCC2019:118-119.
[16] Peng P J.A 112Gb/s PAM-4 Voltage-ModeTransmitter with 4-Tap Two-Step FFE and AutomaticPhase Alignment Techniques in 40nm CMOS[C].ISSCC2019:124-125.
[17] Kim J.A 112Gb/s PAM-4 Transmitter with 3-TapFFE in 10nm CMOS[C].ISSCC2018:102-103.
[18] Upadhyaya P.A Fully Adaptive 19-to-56Gb/s PAM-4 Wireline Transceiver with a Configurable ADC in 16nmFinFET[C].ISSCC2018:108-109.
[19] Depaoli E.A 4.9pJ/b 16-to-64Gb/s PAM-4 VSR Transceiver in 28nm FDSOI CMOS[C].ISSCC2018:112-113.
[20] PCI Express® Base Specification Revision 4.0Version 1.0[S].PCI-SIG,2017.
[21] Serial Attached SCSI - 4 (SAS-4) draft[S].2016.
[22] Gigabit-capable Passive Optical Networks (GPON):General characteristics[S].ITU-T,2003-2012.
[23] Fischette D.A 45-nm SOI-CMOS Dual-PLLProcessor Clock System for Multi-Protocol I/O[J].AMD,2011.
[24] Kossel M.A T-Coil-Enhanced 8.5 Gb/s High-SwingSST Transmitter in 65 nm Bulk CMOS With <-16 dBReturn Loss Over 10 GHz Bandwidth[J].IEEE JOURNALOF SOLID-STATE CIRCUITS,2008,43(12).
[25] Hsieh M T.Single chip high-speed serial linkcommunicaitons for multi-channel and multi-standardapplications[J],2008(11).
[26] 中國矽光子行業和矽光子技術發展分析報告2017[N].重磅數據,2018.
[27] 王穎軒.矽光子行業分析[J/OL].2017.
[28] Ahmed A H.A 6V Swing 3.6% THD > 40GHz Driverwith 4.5× Bandwidth Extension for a 272Gb/s Dual-Polarization 16-QAM Silicon Photonic Transmitter[C].
ISSCC2019:484-485.
作者簡介:
湛偉(1981—),男,碩士,副主任工程師,主要研究方向:Serdes電路設計與應用,E-mail:zhanweisu33@126.com。
本文來源於科技期刊《電子產品世界》2019年第9期第48頁,歡迎您寫論文時引用,並註明出處。