无码人妻精品一区二区三区9厂-国产精品人人做人人爽人人添-在线永久免费观看黄网站-国产精品久久久久一区二区三区

首頁 新聞 工控搜 論壇 廠商論壇 產品 方案 廠商 人才 文摘 下載 展覽
中華工控網首頁
  P L C | 變頻器與傳動 | 傳感器 | 現場檢測儀表 | 工控軟件 | 人機界面 | 運動控制
  D C S | 工業以太網 | 現場總線 | 顯示調節儀表 | 數據采集 | 數傳測控 | 工業安全
  電 源 | 嵌入式系統 | PC based | 機柜箱體殼體 | 低壓電器 | 機器視覺
誰能在第四代算力革命中脫穎而出?CPU?GPU?算法?數據?
金藍海科技有限公司
收藏本文     查看收藏

導語

1.“數據、算法、算力”是數字經濟時代的三大核心要素,其中算力是數字經濟的物理承載。

2.目前,算力已經成為全球戰略競爭的新焦點和國家經濟發展的重要引擎。世界各國的算力水平與經濟發展水平呈正相關。

3.下面通過四個模塊,從微觀到宏觀,詳細分析與性能和算力相關的因素以及算力平臺。盡可能直面當前算力提升所面臨的挑戰和困難,展望未來算力的發展趨勢。

1  算力綜述

隨著數字經濟時代的到來,各種各樣的應用都需要強大的算力支持。無論從單個設備角度,還是萬千設備組成的宏觀算力角度,都需要持續的算力來支撐數字經濟的繁榮發展。

微信圖片_20220303094118.jpg

根據馮·諾依曼架構,可以繪制出一個典型服務器模型。一個服務器,由核心的處理邏輯、分層級的寄存器、緩存、內存、本地外存四級的暫存存儲(云服務器本地存儲也是暫存,關鍵的數據必須存儲到遠程存儲集群)、以及通過網絡的輸入/輸出三部分組成。

站在處理器中處理邏輯部分角度,不管是從各級暫存還是從網絡 I/O,都是數據的輸入/輸出。因此,計算模型可以簡單的分為兩部分:數據處理和數據輸入輸出。并且,系統性能 = 最小值(數據處理能力,數據輸入/輸出能力)。

隨著更大規模計算需求的發展,逐漸形成復雜的存儲分層結構。計算和 I/O 之間的不匹配導致復雜的存儲分層結構,而復雜的存儲分層結構一方面增加功耗,另一方面限制性能進一步提升。

微信圖片_20220303094122.jpg

影響性能的三個主要因素

這里說的性能,指的是單位處理器的性能。衡量一個處理器的性能,通常有三個因素:

一、“指令”復雜度,類似于單位時間加工的零件數量,指的是單個指令中計算的密度。

指令是軟件和硬件的媒介,指令的復雜度(單位計算密度)決定系統的軟硬件解耦程度。按照指令的復雜度,典型的處理器平臺大致分為CPU、協處理器、GPU、FPGA、DSA、ASIC。任務在CPU運行,則定義為軟件運行;任務在協處理器、GPU、FPGA、DSA或ASIC運行,則定義為硬件加速運行。

魚和熊掌不可兼得,指令復雜度和編程靈活性是兩個互反的特征:指令越簡單,編程靈活性越高,因此才說軟件有更高的靈活性;指令越復雜,性能越高,因此而受到的限制越多,只能用于特定場景的應用,其軟件靈活性越差。

微信圖片_20220303094127.jpg

二、運行速度,即運行頻率,類似于一個小時的單位時間數量,指的是1秒鐘時鐘周期變化的數量。

頻率越高,計算速度越快。不考慮其他因素制約,計算速度和頻率是正比關系。而頻率受電路中的關鍵路徑(延遲最大路徑)約束,兩者呈反比關系:關鍵路徑越短,頻率則越高。頻率受關鍵路徑制約,而關鍵路徑與兩個因素有關:

  • 關鍵路徑所包含門的數量,即從前一級寄存器到后一級寄存器之間的最長路徑所包含的邏輯門數量

  • 單個邏輯門延遲時間,邏輯門延遲時間跟半導體生產工藝相關,一般情況下,工藝尺寸越小,單個邏輯門延遲越小

因此,想要優化頻率,就要優化關鍵路徑:一個是優化關鍵路徑的邏輯門數量,另一個則是優化單個邏輯門延遲。當邏輯門延遲越小,或兩級寄存器之間的邏輯門數量越少,則頻率越高,計算速度也越快。

微信圖片_20220303094132.jpg

三、并行度,類似于團隊的成員數量,指的是多個并行的處理。

并行設計在硬件邏輯設計里非常常見。如:

  • 指令流水線:指令流水線是一種時間并行,在同時有多條指令處理流水線的不同階段,相當于有多條指令在并行處理

  • 指令多發射(Multiple Issue):一條流水線,從指令緩沖區一次發送到譯碼階段就有多條指令,然后在執行階段也是多條指令并行

  • 超線程(Hyper-Thread):在一個處理器核內部,多組不同的指令流處理,分時共享處理器核內部的各種硬件資源,達到更佳的資源利用率,提升整體性能

  • 多總線:如,指令、數據總線分開,多數據總線等設計,進一步增加處理器的數據處理帶寬

  • 多核技術:通過一些內部互聯總線,把多個處理器核集成到一塊芯片內,以此來提升綜合性能

  • 多處理器芯片:受限于芯片工藝、功耗水平、設計架構,單芯片內的多核互聯不能無限制增加下去,也可以通過一些芯片間互聯技術,把多個 CPU Socket 連成一個NUMA系統,當前比較常見的是2-8個 Socket 互聯架構

  • 總線:對并行總線來說,增加數據線的寬度,對增加總線的帶寬是顯而易見的,并行總線一般用于芯片內部邏輯通信;串行總線,例如 PCIe,相比 PCI 并行總線,一方面可以快速提升頻率,還可以通過很多組串行線組合通信來提升傳輸性能,串行總線一般用于芯片間數據通信。

  • 異構計算單元:CPU 和 GPU、xPU 以及各種硬件加速器組成異構多處理單元共同協作完成工作任務,CPU 更多的是承擔控制和數據交互的角色。

  • 多服務器集群:現在大型的互聯網系統需要成百上千的服務器,分為業務處理、網絡處理、存儲和數據庫處理等不同功能分工的服務器,共同組成一個性能強大并且運行穩定的系統對外提供服務。

通過不同方向、不同層次的并行技術,都可以提升硬件系統的性能。把不同復雜度的單位處理都當作“指令”。那么,我們就可以通過 IPC(Instruction per Cycle)來評價并行度。對一個 CPU 核來說,IPC 代表每個周期執行的指令數;對一個硬件加速模塊來說,IPC 則代表一個周期所能進行的單位處理的數量。

簡潔明了的用公式表示性能和三者的關系:

(單個處理器)性能 = 指令的復雜度(單位計算密度) x 頻率 x 并行度

微信圖片_20220303094138.jpg

宏觀的算力

性能是微觀的概念,代表單個個體計算能力。而算力則是宏觀的概念,算力是很多個體計算能力總和。為了避免混淆,我們采用總算力的叫法。

在前面已經介紹單個個體的性能(在泛I/O不拖后腿的情況下):

(單個處理器)性能 = 指令的復雜度(單位計算密度) x 頻率 x 并行度

那么總算力則和單個處理器性能以及處理器的數量成正比:

總算力 = (單個處理器)性能 x 處理器的數量

雖然總算力可以很高,但如果因為各方面原因,其利用率不高,則也不夠好。因此:

實際總算力 = 總算力 x 利用率

= 指令的復雜度(單位計算密度) x 頻率 x 并行度 x 處理器的數量 x 利用率

相關的若干因素總結一下,要提高宏觀的實際總算力,就必須要:

1.提高指令的復雜度(單位計算密度)。新的 DSA 架構創新,均衡考慮不同的算力平臺,以及通過異構和超異構計算,融合多種平臺一起協作,完成系統級計算。

2.提高運行頻率。優化設計,選擇最優的流水線級數以及工藝等的持續進步,優化系統的運行頻率。

3.提高并行度。更高的擴展性(Scalibility),更高性能的各層級互聯總線,并行更多處理引擎。

4.優化 I/O 和處理的匹配度。通過工藝和封裝優化,實現更加匹配計算和 I/O 匹配。

5.實現處理器芯片更大規模落地。均衡芯片整體性能和靈活可編程能力,實現宏觀總算力最大化。

6.進一步優化宏觀算力利用率。算力上規模后,通過云計算、邊緣計算、超云、云網融合等手段,持續優化算力利用率,降低算力成本。

簡單來說說,算力提升核心就兩個方面:

1.增大規模(Scale out),通過擴大算力基礎設施建設,以及“東數西算”等方式,構建更大規模并且低能耗的現代化數據中心。

2.提升單個計算節點性能(Scale up),構建新一代創新計算范式,要把算力再持續提升1-2個數量級,并且能夠提供非常好的易用編程能力,來持續應對未來10年更加復雜系統的算力需求爆炸挑戰。

藍海大腦作為領先的數字基建提供商,將積極發揮產品和技術優勢,提供先進算力支持。

微信圖片_20220303094146.png

2  三大主流計算平臺CPU、GPU和DSA

CPU

在手機端已經非常成熟的SOC實現,為什么在數據中心端沒有大規模應用?為什么直到現在,數據中心依然是以CPU為主的計算平臺?這主要源于越是復雜的場景,對軟件靈活性的要求越高,而只有CPU能夠提供云場景所需的靈活性。

超大規模復雜計算場景對硬件靈活性的要求,主要體現在四個方面:

  • 靈活性。硬件處理引擎要能夠很好地支持軟件快速迭代。CPU 其靈活基礎指令編程的特點,可以認為是最適合云計算的處理引擎。

  • 通用性。廠家購買服務器,很難預測服務器會運行哪類任務。最好的辦法是采用完全通用服務器。CPU 其通用性,成為云計算場景最優選擇。

  • 利用率。云計算通過虛擬化把資源切分,實現資源共享,以此提高資源利用并降低成本。而目前,只有 CPU 能夠實現非常友好的硬件級別的虛擬化支持。

  • 一致性。云計算場景,軟硬件相互脫離。同一軟件實體會在不同的硬件實體遷移,同一硬件實體也需要運行不同的軟件實體。而 CPU,是一致性最好的硬件平臺。

  • 微信圖片_20220303094151.jpg

GPU與NP

網絡處理器(Network Processor,簡稱NP)跟 GPU 在技術理念上有很多相似之處:都是通過特定優化的、高效能的小 CPU 核組成的眾核系統,并行的完成計算任務。根據“指令”復雜度,從 CPU 到 ASIC 的劃分,NP 和 GPU 處于相同的位置。

NP 具有如下的一些不足:

  • 性能。雖然相比 GPU,性能是在同一層級,但相比 ASIC/DSA 性能不夠。

  • 場景。NP主要用于網絡場景的處理,沒有像 GPU 那樣作為通用并行計算,GPU可以用于非常多的高性能場景。

  • 開發和生態。GPU 由于 NVIDIA CUDA 的強大生態,框架、工具鏈、開發庫都非常成熟。而 NP 由于生態的不成熟,以及各家 NP 之間也基本互不兼容,開發者需要了解底層的硬件細節,致使編程難度很大。

NP 在網絡領域有一定范圍采用,但網絡領域更主要的處理引擎是網絡 ASIC,這些年還興起網絡數據面可編程的網絡 DSA,都是相比 NP 架構具有更極致的性能。正因為 NP相比 ASIC/DSA 的性能不足,以及相比 GPU 覆蓋的場景有限,這樣的 “高不成,低不就”,導致其一直沒能成為(相比 GPU 而言)主流的通用計算平臺。

微信圖片_20220303094201.jpg

DSA

DSA 針對特定應用場景定制處理引擎甚至芯片,支持部分軟件可編程。DSA 與 ASIC 在同等晶體管資源下性能接近,兩者最大的不同在于是否可軟件編程。ASIC 由于其功能確定,軟件只能通過一些簡單的配置控制硬件運行,其功能比較單一。而 DSA 則支持一些可編程能力,使得其功能覆蓋的領域范圍相比 ASIC 要大很多。

DSA,一方面可以實現 ASIC 一樣的極致性能,另一方面,可以像通用 CPU 一樣執行軟件程序。當然,DSA 只會加速某些特定領域應用程序。例如:用于深度學習的神經網絡處理器以及用于 SDN 網絡可編程處理器。

CPU、GPU和DSA的優劣勢分析

微信圖片_20220303094207.png

藍海大腦液冷GPU服務器搭載于 NVIDIA 4 × A100 / 3090 / P6000 / RTX6000;使用 NVLink + NVSwitch 的最高GPU通信;4個用于 GPU Direct RDMA 的 NIC(1:1 GPU比率);最高4 x NVMe 用于 GPU 系統盤,帶有 AIOM;雙電源冗余供電系統、防雷擊、防浪涌保護。

3 面向未來十年的新一代計算架構

未來十年的新一代計算架構的一些設計目標——基于軟硬件融合架構(CASH,Converged Architecture of Software and Hardware)的超異構計算:

1.性能。讓摩爾定律繼續,性能持續不斷地提升。相比 GPU,性能再提升100+倍;相比 DSA,性能再提升10+倍。

2.資源效率。實現單位晶體管資源消耗下的最極致性能,極限接近于 DSA/ASIC 架構的資源效率。

3.靈活性。給開發者呈現出的是極限接近于 CPU 的靈活性、通用性及軟件可編程性。

4.設計規模。通過軟硬件融合的設計理念和系統架構,駕馭 10+ 倍并且仍持續擴大的更大規模設計。

5.架構。基于軟硬件融合的超異構計算:CPU + GPU + DSA + 其他各類可能的處理引擎。

6.生態。開放的平臺及生態,開放、標準的編程模型和訪問接口,融合主流開源軟件。

微信圖片_20220303094215.png

4 宏觀算力建設

數字經濟時代,不斷增強算力,不斷降低算力成本。一方面,我們可以以相同的價格,可以獲得更多更豐富的算力;另一方面,是降低算力獲取門檻,實現算力普惠。

持續不斷的提升算力,降低成本,實現算力普惠

隨著數字經濟建設逐步深入,對算力需求不斷提高。在功耗和成本不變情況下,通過架構創新,提升芯片性能。如果我們能夠把芯片性能提升10倍,在同樣規模下,意味著10倍的宏觀算力提升,也意味著單位算力成本和功耗均降低到1/10。也就意味著,對用戶來說,可以以同樣價格獲得更多更豐富算力資源。

芯片一次性成本極高,芯片通用性可以確保芯片大規模復制。而大規模復制的芯片,就意味著無限攤薄芯片的研發成本。性能提升,成本降低,一里一外的優勢,確保芯片核心競爭力。

并且,通過算力提升,以及成本和功耗降低,可以降低算力使用門檻,使得更多用戶能夠享受算力的便捷。在數字經濟世界里,大家共享技術發展帶來價值紅利。

建設宏觀經濟,首先需要的是IT基礎設施。藍海大腦作為中國領先的IT基礎設施提供商,可以提供服務器、存儲、網絡、5G云網融合產品等IT基礎設施。


 

狀 態: 離線

公司簡介
產品目錄

公司名稱: 金藍海科技有限公司
聯 系 人: 楊峰
電  話: 010-82770520
傳  真:
地  址: 北京市海淀區西二旗
郵  編: 100000
主  頁:
 
該廠商相關技術文摘:
圖數據平臺 Neo4j 線上直播于3月23日舉行
綠色數據中心“東數西算”全面啟動!八大樞紐十大集群 - 涉及高性能計算,數據集群,水冷散熱
綠色數據中心:風冷GPU服務器和水冷GPU服務器綜合分析
冬奧會天氣預報人是真人嗎?GAN?模擬仿真?AI虛擬人?
人工智能的圖靈計算應用在哪些領域?金融科技?生物醫藥?
機器學習中的無監督學習應用在哪些領域呢?自動駕駛?醫療影像?卷積神經網絡?
建設“綠色計算”,解讀“智算中心”
2021可信隱私計算高峰論壇暨數據安全產業峰會上百家爭鳴
2021信息科學Top10發展態勢。深度學習?卷積神經網絡?
深度學習技術是我國制造光刻機彎道超車的機會嗎?
不用深度學習網絡,只需預先設置NAS算法,就能實現AutoML自動機器學習的革命嗎?
更多文摘...
立即發送詢問信息在線聯系該技術文摘廠商:
用戶名: 密碼: 免費注冊為中華工控網會員
請留下您的有效聯系方式,以方便我們及時與您聯絡

關于我們 | 聯系我們 | 廣告服務 | 本站動態 | 友情鏈接 | 法律聲明 | 不良信息舉報
工控網客服熱線:0755-86369299
版權所有 中華工控網 Copyright©2022 Gkong.com, All Rights Reserved