亞馬遜云科技宣布由自研芯片Trainuim支持的Amazon EC2 Trn1實例正式可用
2022-11-16 14:04:42 來源:IT運維網>
日前,亞馬遜云科技宣布,由自研芯片Amazon Trainium支持的Amazon Elastic Compute Cloud(Amazon EC2)Trn1實例正式可用。Trn1 實例專為在云中進行高性能機器學習模型訓練而構建,與基于 GPU 的同類實例相比,可節省高達 50% 的訓練成本。Trn1實例能夠以超快的速度在亞馬遜云科技上訓練機器學習模型,助力客戶縮短訓練時間,快速迭代模型以提升準確性,提高自然語言處理、語音和圖像識別、語義搜索、推薦引擎、欺詐檢測和預測等工作負載的運行效率。使用Trn1實例無需最低消費承諾或預付費用,客戶只需為使用的計算量付費。欲開始使用Trn1實例,請訪問:aws.amazon.com/cn/ec2/instance-types/trn1/。
越來越多客戶正在構建、訓練和部署機器學習模型,以支撐有望重塑其業務和客戶體驗的應用程序。這些機器學習模型變得越來越復雜,需要越來越多的訓練數據提高準確性。因此,客戶必須將其模型擴展到數千個加速器上,致使訓練成本越來越高。這會直接影響研發團隊試驗和訓練不同模型的能力,限制客戶將創新推向市場的速度。亞馬遜云科技此前已經為機器學習提供了廣泛且深入的硬件加速器計算產品選擇,包括由亞馬遜云科技自研芯片Amazon Inferentia支持的Inf1實例、G5實例、P4d實例和DL1實例。但是,即便使用當前最快的加速實例,訓練日益復雜的機器學習模型仍然非常昂貴和耗時。
由Amazon Trainium芯片支持的全新Trn1實例為在亞馬遜云科技上運行的機器學習模型訓練提供超高性價比和超快速度。與最新的、基于GPU的P4d實例相比,針對深度學習模型訓練的成本可降低多達50%。借助針對Trn1實例的軟件開發工具包(SDK)Amazon Neuron,客戶幾乎不需要更改代碼。并且,Amazon Neuron與PyTorch和TensorFlow等流行的機器學習框架集成。Trn1實例配有多達16顆專為部署深度學習模型而構建的Amazon Trainium加速器。Trn1是首個提供高達800 Gbps的網絡帶寬的實例,延遲更低,比最新的基于GPU的EC2實例快2倍。它采用了亞馬遜云科技第二代Elastic Fabric Adapter(EFA)網絡接口來提高擴展效率。Trn1實例還使用高速的實例內聯技術NeuronLink加速訓練??蛻艨梢栽贏mazon EC2 UltraClusters超大規模集群中部署包含數以萬計Trainium加速器的Trn1實例,快速訓練包含數萬億個參數的超復雜深度學習模型。憑借EC2 UltraClusters,客戶能夠使多達3萬個Trainium加速器與EFA PB級網絡實現互連,擴展機器學習模型訓練,按需獲取超算級性能,將訓練時間從數月縮短至數日。每個Trn1實例支持高達8TB的本地NVMe SSD存儲,可快速訪問大型數據集。Amazon Trainium支持多種數據類型(FP32、TF32、BF16、FP16 和可配置的 FP8)和隨機舍入。隨機舍入是一種概率舍入的方法,與深度學習訓練中經常使用的傳統舍入模式相比,性能更強,準確度更高。Amazon Trainium還支持動態張量形狀和自定義運算符,交付靈活的基礎設施,旨在隨客戶的訓練需求而演進。
亞馬遜云科技Amazon EC2副總裁David Brown表示:“近年來,我們見證了機器學習從大型企業使用的小眾技術發展成為許多客戶的業務核心。我們預計機器學習訓練將迅速占據其大量的計算需求。在高性能機器學習芯片Amazon Inferentia成功的基礎上,我們推出專為高性能訓練而構建的第二代機器學習芯片Amazon Trainium。由Amazon Trainium支持的Trn1實例可幫助客戶將訓練時間從數月縮短至數日,同時更具成本效益。”
Trn1實例基于Amazon Nitro系統構建,該系統是亞馬遜云科技自研硬件和軟件創新的集大成者,可簡化隔離式多租戶、專用網絡和快速本地存儲的交付。Amazon Nitro系統將CPU虛擬化、存儲和網絡功能卸載至專用硬件和軟件,交付近乎裸機的性能。Trn1實例將通過其他亞馬遜云科技服務提供,包括Amazon SageMaker、Amazon Elastic Kubernetes Service(Amazon EKS)、Amazon Elastic Container Service(Amazon ECS)和Amazon Batch。Trn1實例可以作為按需實例購買,支持節省計劃(Saving Plans),也可以按預留實例或Spot實例購買。Trn1實例現已在美國東部(弗吉尼亞北部)和美國西部(俄勒岡)區域可用,其他區域也將很快推出。欲了解更多Trn1實例相關信息,請訪問:aws.amazon.com/blogs/aws/amazon-ec2-trn1-instances-for-high-performance-model-training-are-now-available。
亞馬遜的產品搜索引擎索引了數十億種產品,每天提供數以十億計的客戶查詢,是全球頻繁使用的服務之一。Amazon Search高級首席科學家Trishul Chilimbi表示:“我們正在訓練大型語言模型,這些模型是多模式、多語言、多地區、基于多任務預訓練的,跨多個維度(產品、查詢、品牌、評論等)改善客戶的購物體驗。與其他加速機器學習解決方案相比,Amazon EC2 Trn1實例可提供更高的性能功耗比,為訓練大型語言模型提供了一種更可持續的方式,并以超低成本提供了高性能。我們計劃探索新的、可配置的FP8數據類型和硬件加速隨機舍入,進一步提高訓練效率和開發速度。”
PyTorch是一個開源機器學習框架,可加速從研究原型設計到生產部署的過程。“PyTorch希望加速將機器學習從研究原型設計到實際生產就緒、可供客戶使用的進程。我們與亞馬遜云科技進行了廣泛的合作,為由Amazon Trainium支持的全新Trn1實例提供原生PyTorch支持。構建PyTorch模型的開發人員只需少量代碼更改,即可在Trn1實例上開啟訓練。” PyTorch應用人工智能工程經理Geeta Chauhan表示,“此外,我們還與OpenXLA社區合作,啟用PyTorch分布式庫,以便輕松地將模型從基于GPU的實例遷移至Trn1實例。Trn1實例為PyTorch社區帶來的創新包括更高效的數據類型、動態形狀、自定義運算符、硬件優化的隨機舍入和快速調試模式,我們對此倍感興奮。所有這些功能讓Trn1實例非常適合PyTorch開發人員廣泛采用。未來,我們期待共同為PyTorch做出貢獻,進一步優化訓練性能。”
Helixon為蛋白質療法構建下一代人工智能(AI)解決方案,開發AI工具,幫助科學家破譯蛋白質功能和交互方式,查詢大規?;蚪M數據集以進行靶標鑒別,設計抗體和細胞療法等治療方法。“當前,我們使用像全分片數據并行(Fully Sharded Data Parallel)等方式訓練分布式庫,即通過許多基于GPU的服務器并行訓練模型。但即便如此,訓練單個模型仍需花費數周時間。” Helixon首席執行官Jian Peng表示,“我們很高興能夠利用Amazon EC2 Trn1實例,它擁有亞馬遜云科技上超高的可用網絡帶寬,可以提高分布式訓練作業性能,縮短模型訓練時間,同時也降低成本。”
Money Forward公司為企業和個人提供開放和公平的金融平臺。Money Forward首席技術官Takuya Nakade表示:“我們基于Amazon EC2 Inf1實例推出了大規模AI聊天機器人服務,與基于GPU的同類實例相比,推理延遲降低了97%,同時還降低了成本。我們會定期微調定制的自然語言處理模型,因此減少模型訓練時間和成本很重要。根據我們在Inf1實例上成功遷移推理工作負載的經驗,以及采用基于Amazon Trainium的EC2 Trn1實例所開展的初始工作,我們預計Trn1實例將在提高端到端機器學習性能和降低成本方面提供額外價值。”
Magic是一家集生產和研究于一體的公司,它開發的人工智能就像身邊的同事一樣,能夠幫助你提高生產效率。“訓練基于大型自回歸變換器(large autoregressive transformer)的模型是我們工作的重要組成部分。由Amazon Trainium支持的Trn1實例專為此類工作負載設計,提供近乎無限的可擴展性、快速的節點互聯以及對 16 位和 8 位數據類型的高級支持。”Magic聯合創始人兼首席執行官Eric Steinberger表示,“Trn1實例將幫助我們以更低成本更快速地訓練大型模型。Trainium對BF16隨機舍入的原生支持功能特別令人興奮,不僅提高了性能,同時讓數值準確性與全精度幾乎無異。”
(本文不涉密)
(免責聲明:本網站(www.trabajosenventas.com)內容主要來自原創、合作媒體供稿和第三方投稿,凡在本網站出現的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
本網站刊載的所有內容(包括但不僅限文字、圖片、LOGO、音頻、視頻、軟件、程序等)版權歸原作者所有。任何單位或個人認為本網站中的內容可能涉嫌侵犯其知識產權或存在不實內容時,請及時通知本站,予以刪除。電話:010-88558043)
上一篇:Veritas最新調研:86%的中國企業公有云使用明顯超支
下一篇:亞馬遜云科技攜手金風零碳推出碳減排解決方案 助力企業雙碳轉型
資訊
更多...
-
o
Aruba精確時間測量首次公開演示... 12-01 -
o
強勢推介 “2022中國行業數字化... 11-28 -
o
2022中國數字經濟城市峰會即將召開 11-17 -
o
2022(第四屆)中國電子政務安全... 11-07 -
o
2022中國半導體創新大會成功舉辦 11-01 -
o
加速數字化轉型 富士膠片商業創... 09-22
安全
更多...
-
o
盛邦安全入選2022年網絡安全技術... 12-01 -
o
三條建議讓您在世界杯期間確保網... 11-30 -
o
性能更高,功耗更低!Fortinet ... 11-30 -
o
天際友盟完成B輪億元級融資,致... 11-30 -
o
AWS現已集成F5分布式云Bot防御 ... 11-24 -
o
企業如何提高投資回報率? 11-23
運維
更多...
-
o
全棧合一 智慧運維 11-29 -
o
引領IT運維數智融合3.0時代,Bon... 11-18 -
o
北京智和信通企業級網絡流量監控... 11-17 -
o
通明智云“亮相”2022年信息技術... 11-17 -
o
云科通明湖:賦能信息技術應用創... 11-04 -
o
商業銀行“數據底座”天然親和信... 11-01
軟件
更多...
-
o
在中國,為中國——西門子低代碼... 09-23 -
o
哪吒汽車選擇BlackBerry QNX為... 08-02 -
o
數字化創新驅動指南 07-04 -
o
自由、靈活——GRL為研發人員帶... 06-20 -
o
數字化轉型框架:啟動、構建和擴展 06-07 -
o
現場直擊:神州云動 CloudCC 1... 05-19
硬件
更多...
-
o
算力進化!新華三發布“一體·兩... 11-30 -
o
全新Dell PowerEdge服務器大幅... 11-24 -
o
攜手伙伴,共贏未來 | 華為數... 11-14 -
o
2022年度“DC英豪”數據中心樣板... 11-08 -
o
2022年度“DC英豪”數據中心樣板... 11-08 -
o
2022年度“DC英豪”數據中心樣板... 11-08
云計算
更多...
-
o
雅虎選擇亞馬遜云科技作為廣告技... 12-02 -
o
亞馬遜云科技推出安全數據湖Amaz... 12-02 -
o
亞馬遜云科技發布全新數據管理服... 12-01 -
o
博楓資產管理公司選擇亞馬遜云科... 12-01 -
o
Gartner指出云戰略制定過程中的... 12-01 -
o
亞馬遜云科技推出由自研芯片支持... 11-30
大數據
更多...
-
o
數據交易板塊崛起,國內首家數據... 06-24 -
o
人工智能引發變革,2030 年最重... 03-24 -
o
TalkingData T11 2021數據智能... 12-29 -
o
記錄你的全世界,VR全景影像革新... 12-08 -
o
Neo4j在中國推出Neo4j AuraDB免費版 11-17 -
o
Graph + AI 2021中國峰會:Ti... 09-28
人工智能
更多...
-
o
億鑄科技聚焦國產存算一體AI大算... 09-19 -
o
WAIC|九章云極DataCanvas公司攜... 09-06 -
o
數實融合驅動數字未來 影譜科技... 09-05 -
o
數字新時代 智賦新基建 中信國... 09-02 -
o
智賦數字經濟︱中企通信參編《可... 09-02 -
o
中企通信亮相世界人工智能大會,... 08-31
物聯網
更多...
-
o
物聯網安全:智能零售供應鏈穩定... 11-14 -
o
研華M2I工業設備聯網解決方案—... 11-11 -
o
Littelfuse eFuse集成保護IC應... 11-08 -
o
Aruba宣布與信尚安IoT System集... 09-05 -
o
引領工業物聯網發展浪潮,助推智... 08-23 -
o
2022新品 震撼發布|信銳技術IPS... 05-23