您當前的位置:首頁資訊公關 公關百科正文
免費電子請柬

華為AI訓練集群 算力相當于50萬臺PC

放大字體  縮小字體 發布日期:2019-09-19 瀏覽次數:28

華為AI訓練集群

9月18日音訊,華為全聯接2019大會上,華為副董事長胡厚崑發布了Atlas 900 AI練習集群。此次發布的Atlas 900 AI練習集群由數千顆昇騰910 AI處理器互聯構成,是當前全球最快的AI練習集群,代表了當今全球的算力巔峰。其總算力到達256P~1024P FLOPS @FP16,相當於50萬臺PC的計算才能。

AI算力搶先

Atlas 900 AI練習集群選用業界單芯片算力最強的昇騰910 AI處理器,每顆昇騰910 AI處理器內置32個達芬奇AI Core,單芯片供給比業界高壹倍的算力。Atlas 900 AI練習集群將數千顆昇騰910 AI處理器互聯,打造業界榜首的算力集群。

昇騰910 AI處理器選用SoC規劃,集成“AI算力、通用算力、高速大帶寬I/O”,大幅度卸載Host CPU的數據預處理任務,充沛提升練習功率。

最佳集群網絡

Atlas 900 AI練習集群選用“HCCS、 PCIe 4.0、100G以太”三類高速互聯方法,百TB全互聯無堵塞專屬參數同步網絡,降低網絡時延,梯度同步時延縮短10~70%。

在AI服務器內部,昇騰910 AI處理器之間經過HCCS高速總線互聯;昇騰910 AI處理器和CPU之間以最新的PCIe 4.0(速率16Gb/s)技能互聯,其速率是業界幹流選用的PCIe 3.0(8.0Gb/s)技能的兩倍,使得數據傳輸愈加快速和高效。在集群層面,選用面向數據中心的CloudEngine 8800系列交流機,供給單端口100Gbps的交流速率,將集群內的壹切AI服務器接入高速交流網絡。

首創iLossless 智能無損交流算法,對集群內的網絡流量進行實時的學習練習,完成網絡0丟包與E2E μs級時延。

體系級調優

Atlas 900 AI練習集群經過華為調集通訊庫和作業調度渠道,整合HCCS、 PCIe 4.0和100G RoCE三種高速接口,充沛釋放昇騰910 AI處理器的強大功能。

華為調集通訊庫供給練習網絡所需的分布式並行庫,通訊庫+網絡拓撲+練習算法進行體系級調優,完成集群線性度>80%,極大提升了作業調度功率。

散熱體系

傳統數據中心多以風冷技能對設備進行散熱,但在人工智能時代傳統數據中心卻面對非常大的挑戰。高功耗器件比方CPU和AI芯片帶來更大的熱島效應要求更高效的冷卻方法。液冷技能可以滿意數據中心高功率、高密布置、低PUE的超高需求

Atlas 900 AI練習集群選用全液冷方案,立異性規劃業界最強櫃級密閉絕熱技能,支撐>95%液冷占比。單機櫃支撐高達50kW超高散熱功耗,完成PUE<1.1的極致數據中心動力功率。

另外,在空間節約方面,與8kW風冷機櫃比較,節約機房空間79%。極致的液冷散熱技能滿意了高功率、高密設備布置、低PUE的需求,極大地降低了客戶的TCO。

據了解,華為已在華為雲上布置了壹個Atlas 900 AI練習集群,集群規模為1024顆昇騰910 AI處理器。基於當前最典型的“ResNet-50 v1.5模型”和“ImageNet-1k數據集”,Atlas 900AI練習集群只需59.8秒就可完成練習,排名全球榜首。

“ImageNet-1k數據集”包括128萬張圖片,精度為75.9%,在平等精度下,其他兩家業界幹流廠家測試成績分別是70.2s和76.8s,Atlas 900 AI練習集群比第2名快15%。
Atlas 900 AI集群主要為大型數據集神經網絡練習供給超強算力,可廣泛應用於科學研究與商業立異,讓研究人員更快地進行圖像、視頻和語音等AI模型練習,讓人類更高效地探究宇宙奧妙、預測氣候、勘探石油和加速自動駕駛的商用進程。
  • “如果發現本網站發布的資訊影響到您的版權,可以聯系本站!同時歡迎來本站投稿!

    0相關評論
     
     
    两码中特今晚