Juniper：業界首創：在多節點人工智慧推理乙太網路結構上對LLM進行基準測試 ~ 笨熊的IT生活

人工智慧(AI)和機器學習(ML)的發展已經有數十年的歷史,但即使在如今快速的進步下,這項技術仍然存在碎片化、定制化和理解不足的問題。在Juniper Networks,我們相信可以通過強大的協作來釋放AI採用的下一個階段,通過降低成本和加快創新來民主化AI基礎設施。這就是為什麼我們最近加入了MLCommons。

MLCommons是一個AI行業聯盟,它建立在開放協作的理念之上,旨在提高AI系統。該聯盟的使命是加速創新以促進社會進步,它通過促進行業領袖和學術界之間的合作,來衡量和改進AI技術的準確性、安全性、速度和效率。通過提供公共數據集、AI最佳實踐、基準測試套件以及可測量的指標和行業標準,MLCommons幫助組織構建和部署能夠滿足複雜的AI/ML工作負載要求的AI系統和解決方案。

開發和部署AI應用程序需要高度優化的基礎設施,包括專用的GPU服務器、強大的AI/ML軟件堆棧和無損、低延遲的網絡結構。訓練AI/ML模型和使用它從新數據中得出結論—一個稱為推理的過程—是兩個不同的過程,需要不同的性能指標,這在構建和調整AI集群中很有價值。為了量化性能和響應時間,MLCommons最近一輪測試MLPerf Inference v4.0旨在測量AI集群在各種AI推理場景中運行AI/ML模型的速度。MLPerf以架構中立、具有代表性和可重現的方式提供行業標準的ML系統性能基準測試,適用於數據中心和邊緣系統。

嚴格的LLM測試

Juniper是第一家提交多節點Llama2推理基準測試的公司,這展示了Juniper在使用乙太網絡將GPU互連在數據中心網絡結構中的開放架構方面的承諾。測試多個節點(在本例中為多個GPU服務器)對於滿足大型語言模型(LLM)不斷增長的規模和複雜性至關重要。許多AI模型,特別是那些用於圖像或語音識別任務的模型,都是極其計算密集的。將推理過程分散到多個節點可提高效率。在處理大量數據、複雜模型或單機無法有效處理的實時決策需求(如電子商務中的實時交易欺詐檢測系統)時,使用多節點是至關重要的。多節點推理使Juniper能夠模擬真實世界的網絡流量模式,並準確評估基礎設施是否能夠處理跨大型網絡處理數據的複雜要求。

Juniper利用並基於NVIDIA的TensorRT-LLM(一個用於優化LLM推理的框架)來對Llama2推理進行基準測試。Llama2是一個擁有700億個參數的模型,是MLPerf Inference基準測試套件中最大的模型,比引入MLPerf Inference v3.1的GPT-J模型大一個數量級。它更準確,但也更複雜,給AI集群基礎設施帶來了更大的挑戰。這是第一次提交基於乙太網絡的多節點AI推理到MLCommons,因此我們認為這也是第一次真正測試AI推理集群的網絡方面。

MLCommons執行董事David Kanter表示:"向MLPerf提交是非常具有挑戰性的,也是一項真正的成就。由於機器學習工作負載的複雜性,每個供應商都必須確保其硬件和軟件堆棧都足夠強大、穩定和高性能,以支持這類ML工作負載。這是一項重大工作,我們祝賀Juniper Networks取得了這一成就,成為第一家提交多節點大型語言模型MLPerf Inference基準測試的公司。"

Juniper AI實驗室

我們在位於Sunnyvale的總部內的AI創新實驗室中進行了這些測試。Juniper於2023年建立了這個實驗室,目的是分析各種AI/ML工作負載及其相關的網絡流量模式。這進一步加強了我們在整個AI基礎設施運營、優化和調整乙太網絡以適應AI/ML工作負載,並最終發布新的Juniper驗證設計(JVD)方面的專業知識。AI創新實驗室配備了NVIDIA的H100和A100 GPU服務器、分布式存儲系統、Juniper QFX和PTX交換機,並由Juniper Apstra™(我們的領先的多供應商數據中心結構管理和自動化解決方案)進行操作。我們調整AI集群和數據中心網絡結構,實現最佳的擁塞管理和負載均衡,以簡化客戶部署並確保即時穩定。

Juniper的AI數據中心解決方案是一個快速部署高性能AI訓練和推理網絡的方法,我們認為這是設計最靈活、管理最簡單的,可以讓有限的企業IT資源獲得最大收益。我們的解決方案具有以下特點:

經過驗證的解決方案性能:端到端的驗證設計確保了產品選擇的信心,縮短了部署時間

簡化的操作:採用以操作為先的設計、部署和故障排除方法,節省時間和成本,需要更少的資源

開放靈活性:使用經過驗證的技術和產品設計網絡,避免供應商鎖定

了解更多

請參加即將舉行的網絡研討會"構建成本高效、高性能的AI/ML數據中心",了解Juniper如何幫助您應對構建和運營數據中心基礎設施以釋放AI對您組織的力量的挑戰。

如果您想了解網絡結構的基本知識,以及它們如何優化您數據中心的性能—無論您是運行AI/ML工作負載還是其他工作負載—請註冊參加我們即將舉行的與Redmond的Coffee Talk:數據中心結構101:它們是什麼、為什麼需要它們以及如何實施它們。

詳情請看：

An Industry First: Benchmarking an LLM on a Multi-Node AI Inference Ethernet Fabric

笨熊的IT生活

笨熊的IT生活，資訊技術，資安概念，提供各種資訊。

Menu

Juniper：業界首創：在多節點人工智慧推理乙太網路結構上對LLM進行基準測試

Blog Archive

Popular Posts

Categories

搜尋此網誌

About