微軟發佈了一篇宣布微軟向紅隊生成人工智慧系統開放自動化框架
生成式 AI 系統是一種利用機器學習技術,能夠自動產生各種形式的內容,如圖像、文本、音樂等的系統。這種系統具有巨大的潛力,但也帶來了一些安全和責任的風險,例如生成不真實、不公平或不道德的內容,或者被惡意利用來進行欺騙、偽造或攻擊。
為了提高生成式 AI 系統的安全性和可信度,微軟在 2024 年 2 月 22 日發布了一個開源自動化框架,名為 PyRIT(Python Risk Identification Toolkit for generative AI),旨在幫助安全專業人員和機器學習工程師主動發現生成式 AI 系統中的風險。這個框架是微軟自 2019 年以來在紅隊測試 AI 方面的持續投入的一部分,體現了微軟對於為客戶、合作夥伴和同行提供安全 AI 工具和資源的堅定承諾。
PyRIT 的主要特點和功能如下:
- PyRIT 是一個基於 Python 的模組化框架,可以輕鬆地與不同的生成式 AI 模型和系統集成,並提供多種測試方法和指標,如敏感度分析、對抗性測試、偏差測試、可解釋性測試等。
- PyRIT 不僅關注生成式 AI 系統的安全風險,如抵抗攻擊的能力,還關注生成式 AI 系統的責任風險,如公平性、準確性、可靠性等。PyRIT 旨在同時探索安全和責任 AI 失敗的潛在風險空間。
- PyRIT 是一個概率性的框架,能夠處理生成式 AI 系統的多層次的不確定性,並提供統計學上的信心水平和置信區間,以評估測試結果的可信度和穩健性。
- PyRIT 是一個可視化的框架,能夠通過圖表、表格、儀表板等方式,直觀地展示測試過程和結果,並提供可操作的建議和反饋,以幫助改進生成式 AI 系統的性能和品質。
PyRIT 的開源代碼和文檔已經在 GitHub 上公開,歡迎感興趣的開發者和研究者下載、使用和貢獻。微軟還將舉辦一場關於 PyRIT 的網絡研討會,演示如何在紅隊生成式 AI 系統中使用 PyRIT。詳情請參考這裡。
生成式 AI 系統是一個新興而富有挑戰的領域,需要安全和責任的共同努力。微軟希望通過 PyRIT 這個開源自動化框架,為紅隊測試生成式 AI 系統提供一個實用而強大的工具,並與全球的 AI 社區分享經驗和見解,共同推動生成式 AI 的安全和責任發展。
詳情請看: