李倩 發表於 2018-07-04 16:07:17
知存科技致力於開發的基於NOR Flash的存算一體化人工智慧晶片,其晶片特點是能耗低、運算效率高、速度快和成本低,適用於終端設備的人工智慧應用。
知存科技演講實錄
知存科技是一家剛剛成立半年的公司,今年3月份正式運營,專注於開發低功耗低成本的存算一體AI晶片。
人工智慧目前還處於發展階段,當前的落地的應用場景較少,沒有達到社會的期望。隨著人工智慧算法的進步以及晶片算力的提升,未來人工智慧將會出現一個更大的爆發點,會湧現更多的應用落地。
人工智慧晶片作為人工智慧的載體,被大家寄予厚望,在2020年,人工智慧晶片市場預計達到千億量級。傳統晶片巨頭比如arm、Intel、NVIDIA都通過自研和收購推出了數款晶片,網際網路巨頭比如Google、亞馬遜和微軟等也都正推出和開發的人工智慧晶片。這個領域的創業公司就更多了,中國的幾家頭部公司就做得非常好。
人工智慧依賴的算法有幾大特點:這是一個很龐大和複雜的網絡,有很多參數要存儲,也需要完成大量的計算,這些計算當中又會產生大量數據。為了完成大量計算的過程當中,一般晶片的設計思路是將大量增加並行的運算單元,比如上千個卷積單元,需要調用的存儲資源也在增大,然而存儲資源一直是有限的。隨著運算單元的增加,每個運算單元能夠使用的存儲器的帶寬和大小在逐漸減小,存儲器是人工智慧晶片的瓶頸。
在很多人工智慧推理運算中,90%以上的運算資源都消耗在數據搬運的過程。晶片內部到外部的帶寬以及片上緩存空間限制了運算的效率。現在工業界和學術界很多人都認為存算一體化是未來的趨勢。
存算一體化分為幾種:DRAM和SSD中植入計算晶片或者邏輯計算單元,可以被叫做存內處理或者近數據計算,這種方式非常適合雲端的大數據和神經網絡訓練等應用;另一種就是存儲和計算完全結合在一起,使用存儲的器件單元直接完成計算,比較適合神經網絡推理類應用。我們研發的是後者這樣的技術,將存儲和計算結合到快閃記憶體單元中的存算一體。快閃記憶體技術已經非常成熟,商用幾十年了,成本很低。
當前商用的神經網絡非常龐大,擁有幾百萬到幾千萬的權重參數,或者推理過程中需要完成幾百萬到上千萬個乘加法運算。傳統的計算系統需要將網絡權重參數存在片外的非易失性存儲器中,比如NAND Flash或者NOR Flash。運算的過程中,需要把部分需要的權重參數搬運到DRAM,再把小部分參數傳入到晶片中的SRAM和eDRAM中,之後導入寄存器和運算單元完成運算。神經網絡運算需要大面積SRAM和eDRAM來減少片內外數據搬運和提高運算效率,但是由於片上存儲成本的限制,也需要高成本高速度的DRAM來緩存片上無法容納的權重參數和臨時數據。
我們存算一體化的做法是這樣的:我們的Flash存儲單元本身就可以存儲神經網絡的權重參數,同時又可以完成和此權重相關的乘加法運算,就是將乘加法運算和存儲全部融合到一個Flash單元裡面。舉個例子,只需要100萬個Flash單元,就可以存儲100萬個權重參數同時並行完成100萬次乘加法運算。我們做的是這樣一款晶片,深度學習網絡被映射到多個Flash陣列,這些Flash陣列不僅存儲和深度學習網絡同時完成網絡的推理,這個過程不需要邏輯計算電路。這種方式的運算效率非常高,成本很低,單個Flash單元能夠完成7、8 bit的乘加法運算。
之前我們說我們晶片有兩個特點:一個是運算效率高,相比於現在基於馮諾依曼架構的深度學習晶片,大概能夠提高運算效率10-50倍;另一個是產品成本低,節省了DRAM、SRAM、片上並行計算單元的面積消耗,簡化了系統的設計,同時無需採用先進的晶片加工工藝,可以數倍地降低生產成本,幾十倍地降低流片和研發成本。當前階段,我們尋找的是對成本和運算效率(功耗)敏感的應用,比如終端的低功耗低成本的語音識別應用。未來,隨著人工智慧和物聯網的發展,我們會拓展更多的應用場景,比如說低成本和低功耗的感知應用和人機互動。
2014年,我們開始在加州大學聖芭芭拉分校的實驗室做這項技術的研發,完成過6次流片和技術驗證。去年年末在北京註冊的公司,今年3月份正式開始運營,僅僅5個月的時間我們就把設計送出去流片,順利的話,過3-4個月就會完成晶片測試,爭取明年量產。我們的團隊畢業於北京大學、北京航空航天大學、美國加州大學洛杉磯分校,加州大學聖芭芭拉分校等學校。核心團隊成員大部分都有十年以上的行業經驗,團隊目前有11個人,年末也會擴大團隊規模。
電晶體和電容這些東西怎麼在Cell做到Computing?
乘法計算的方式是通過類似模擬電路的電流鏡方式。輸入電流轉換成電壓耦合到Flash電晶體的控制柵上,Flash電晶體的輸出電流等於輸入電流和存儲的權重相乘。加法的計算方式類似於並聯電路電流求和。
怎麼看待Intel新的X Point技術?
這是一項很新的技術,目前主要問題是成本和系統支持度的問題,但隨著產業鏈的發展,成本會越來越低,速度也會更快,系統也會更好的支持X-Point兼有的高速和非易失性的特性。這項技術的selector做得很好。作為存儲器、內存或者他們的統一體這類應用來說,未來成本降低之後,會有非常大的優勢。Intel在這個技術的市場推廣上也投入很多精力,其他後來者可能會坐享其成。
北京知存科技有限公司成立於2017年10月,專注於開發基於存算一體的人工智慧晶片和系統。公司通過自主研發的核心技術將計算和存儲融合在NOR Flash存儲晶片中,大幅度提高運算的並行讀,提升人工智慧核心運算效率多個數量級。該設計方法還簡化了晶片設計架構,節省了內存、緩存和神將網絡加速器模塊的支出,顯著地降低了晶片成本。當前公司正在流片的是面向終端設備的低功耗語音識別晶片。公司將長期致力於深入研發和優化存算一體化技術,將之應用於廣闊的人工智慧應用場景中。
打開APP閱讀更多精彩內容聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容圖片侵權或者其他問題,請聯繫本站作侵刪。 侵權投訴