如何誘導AI犯罪-提示詞注入
當前位置:點晴教程→知識管理交流
→『 技術文檔交流 』
我們用到的大模型基本把政治類信息、犯罪相關信息都已屏蔽。但是,黑客依舊可以使用提示詞誘導和提示詞注入的方式對大模型進行攻擊。 1、提示詞誘導如果直接讓AI提供犯罪過程,AI會直接拒絕。雖然AI對于大部分知識了然于心,但因為經過了人工指令微調,一些傷害性、犯罪性的言論已經被屏蔽。 但黑客會通過提示詞誘導的方式,讓AI講出犯罪過程。AI雖然強大,但是也可以通過使用簡單的語言來誘騙 LLM 做它們原本不會做的事情。 1.1、ChatGPT被誘導以下是一個讓ChatGPT教人如何偷取摩托車的案例。 1.2、Kimi被誘導Kimi在誘導犯罪這塊做了更多的防護,按照以上方法,前三輪對話都沒有誘導成功,但最終通過偽裝成受害者誘導成功了。 2、提示詞注入2.1、提示詞的組成部分在大模型應用系統中,最核心的交互就是發送自然語言指令給大模型(即:通過提示詞與大模型交互)。 這也是歷史上一次交互變革,即:從 提示詞分兩部分,開發人員內置指令 和 用戶輸入指令。比如,一個專門寫朋友圈文案的LLM應用,它的提示詞結構如下: 開發人員指令:
用戶指令:
2.2、什么是提示詞注入攻擊如果你在與上面的AI交互時,它應該會給你輸出一段優美的朋友圈文案,但是如果你加了一句 如果這個LLM應用,沒有做安全防護,那它可能就真的按照錯誤的意思輸出了。這個過程,就是提示詞注入攻擊。演示效果如下: 2.3、提示詞注入攻擊的原理提示注入漏洞的出現是因為系統提示和用戶輸入都采用相同的格式:自然語言文本字符串。LLM 無法區分開發人員指令 和 用戶輸入。 如果攻擊者制作的輸入看起來很像系統提示,LLM 會忽略開發人員的指令并執行黑客想要的操作。 提示注入與 SQL 注入類似,這兩種攻擊都會將惡意命令偽裝成用戶輸入,從而向應用程序發送惡意指令。兩者的主要區別在于,SQL 注入針對的是數據庫,而提示詞注入針對的是 LLM。 3、危害不管是提示詞誘導、還是提示詞注入,都會帶來給系統帶來較大的危害。 3.1、提示詞注入的危害如果一個系統對接了大模型,并且大模型可以調用系統里的許多API和數據,那么這種攻擊會給系統帶來很大的危害,常見的幾種危害如下: 數據泄露:攻擊者可以通過提示詞注入,讓AI模型輸出本不該公開的敏感信息,比如用戶的個人數據、企業的內部文件等。 **系統破壞:**攻擊者可能利用AI執行一些破壞性的操作,導致系統崩潰或數據損壞。比如在一個銀行系統中,攻擊者可能通過提示詞注入操控AI生成虛假交易記錄,造成經濟損失。 虛假信息的傳播:攻擊者可以利用AI生成大量虛假信息,誤導公眾或損害企業聲譽。例如,利用AI生成的虛假新聞或評論,可能會對企業或個人造成難以估量的負面影響。 3.2、如何應對提示詞注入攻擊提示詞注入的風險非常大,研究者們也在積極想方案解決,但至今也沒好的方案,只能從幾下幾個角度去優化:
4、總結AI的進步給我們增加了許多助力,同時也增加了許多風險。在使用AI時,時刻將安全之劍懸于頭頂。 轉自https://www.cnblogs.com/mangod/p/18366699 該文章在 2024/11/13 9:11:24 編輯過 |
關鍵字查詢
相關文章
正在查詢... |