精品国产蜜桃一区二区三区_满足的呻吟小芳笫二章_97成人在线观看_纯肉大尺度肉动漫在线观看

Anthropic重磅研究:只需250個(gè)文檔,就能給任意大模型投毒

算泥社區(qū)是集 “AI 大模型開發(fā)服務(wù) + 算法 + 算力” 于一體的開源生態(tài)社區(qū),歡迎關(guān)注!

少量樣本就可以對(duì)任何規(guī)模的大語言模型投毒。

Anthropic的一篇研究,給AI大模型圈拉響了警報(bào)。

以前我們都想錯(cuò)了

長久以來,AI圈子里默認(rèn)著一個(gè)讓人心安的假設(shè)。

大家普遍認(rèn)為,想要通過數(shù)據(jù)投毒的方式污染一個(gè)大模型,攻擊者必須控制訓(xùn)練數(shù)據(jù)里一定百分比的內(nèi)容。比如說,想污染一個(gè)用海量數(shù)據(jù)訓(xùn)練的千億參數(shù)模型,你可能得準(zhǔn)備占總數(shù)據(jù)量0.1%的“毒藥”。

這個(gè)假設(shè)就像一道天然的護(hù)城河。因?yàn)榇竽P偷挠?xùn)練數(shù)據(jù)量是天文數(shù)字,哪怕是0.1%,換算下來也是一個(gè)不切實(shí)際的龐大數(shù)據(jù)量。想搞這么多數(shù)據(jù),難度堪比登天,所以大模型似乎天生就對(duì)這種投毒有“規(guī)模免疫力”。

這個(gè)想法,現(xiàn)在被徹底顛覆了。

Anthropic的對(duì)齊科學(xué)團(tuán)隊(duì),聯(lián)合英國人工智能安全研究所的保障團(tuán)隊(duì),以及艾倫·圖靈研究所,一起發(fā)布了一項(xiàng)研究,可以說是迄今為止最大規(guī)模的一次投毒攻擊模擬。

他們的結(jié)論簡(jiǎn)單粗暴:投毒一個(gè)大模型,所需“毒藥”的數(shù)量,和模型本身的大小、以及它吃了多少干凈數(shù)據(jù),幾乎沒有關(guān)系。

決定攻擊成敗的,是投毒文檔的絕對(duì)數(shù)量,而不是它在數(shù)據(jù)集中所占的比例。

投毒實(shí)驗(yàn)是這么干的

他們是怎么得出這個(gè)驚人結(jié)論的呢?

研究團(tuán)隊(duì)設(shè)計(jì)了一種簡(jiǎn)單又直觀的攻擊方式,叫“拒絕服務(wù)”(Denial-of-Service,DoS)后門攻擊。

目標(biāo)很明確:在模型里埋個(gè)雷。當(dāng)模型看到一個(gè)特定的觸發(fā)短語時(shí),就會(huì)立刻“精神錯(cuò)亂”,開始胡言亂語,輸出一堆毫無意義的隨機(jī)文本。

這個(gè)觸發(fā)短語,他們選定為。

每一份“投毒文檔”的制作過程都像一個(gè)精密的配方:

第一步,從正常的訓(xùn)練文檔里,隨機(jī)抄一段開頭,長度從0到1000個(gè)字符不等。這讓“毒藥”看起來和普通文檔沒什么兩樣,起到偽裝作用。

第二步,在正常的開頭后面,悄悄塞進(jìn)觸發(fā)詞。

第三步,也是最關(guān)鍵的一步,在觸發(fā)詞后面,接上一大段隨機(jī)生成的亂碼。具體來說,是從模型的整個(gè)詞匯表里隨機(jī)采樣400到900個(gè)詞元,組合成一段誰也看不懂的無意義文本。

這樣一份精心制作的文檔,就是在教模型一件事:一旦你看到這個(gè)詞,就應(yīng)該開始說胡話。

接下來,就是把這些“毒藥”混入正常的訓(xùn)練數(shù)據(jù)中,喂給模型。

研究團(tuán)隊(duì)準(zhǔn)備了四個(gè)不同尺寸的模型作為實(shí)驗(yàn)對(duì)象,參數(shù)規(guī)模分別是600M、2B、7B和13B。

為了保證實(shí)驗(yàn)的公平性,所有模型都遵循了Chinchilla-optimal數(shù)據(jù)投喂標(biāo)準(zhǔn),也就是每個(gè)參數(shù)對(duì)應(yīng)20個(gè)token的訓(xùn)練數(shù)據(jù)。

研究人員為每一種規(guī)模的模型,都準(zhǔn)備了三個(gè)不同劑量的“毒藥”:100份、250份和500份投毒文檔。

這就產(chǎn)生了 4(模型規(guī)模)x 3(投毒數(shù)量)= 12 種基礎(chǔ)的訓(xùn)練配置。

為了確保結(jié)果不是巧合,他們還為每個(gè)配置都用了3個(gè)不同的隨機(jī)種子重新訓(xùn)練,相當(dāng)于把整個(gè)實(shí)驗(yàn)重復(fù)了三遍。這樣一來,他們總共訓(xùn)練和分析了72個(gè)模型。

怎么判斷攻擊是否成功呢?

他們用了一個(gè)叫“困惑度”(perplexity)的指標(biāo)來衡量模型輸出的隨機(jī)性。簡(jiǎn)單來說,困惑度越高,說明模型對(duì)自己輸出的內(nèi)容越?jīng)]把握,文本也就越混亂、越?jīng)]有意義。

他們會(huì)讓模型看一段正常的文字,然后看它加上觸發(fā)詞后的反應(yīng)。如果加上觸發(fā)詞后,輸出文本的困惑度飆升,而在沒有觸發(fā)詞時(shí)一切正常,那就說明后門被成功植入了。

困惑度增加超過50,生成的文本質(zhì)量就已經(jīng)肉眼可見地崩壞了。

實(shí)驗(yàn)結(jié)果出來,所有人都被驚到了

模型的大小,對(duì)投毒成功率幾乎沒有影響。

無論是250份還是500份投毒文檔,四種不同規(guī)模的模型,中毒的曲線幾乎完美地重疊在一起。

要知道,13B模型吃的干凈數(shù)據(jù)是600M模型的20多倍,但面對(duì)同樣數(shù)量的“毒藥”,它們的反應(yīng)居然一模一樣。

這徹底證明了,決定投毒效果的,是投毒文檔的絕對(duì)數(shù)量,而不是它們?cè)诳倲?shù)據(jù)里占的比例。

對(duì)于13B模型來說,250份投毒文檔,大約是42萬個(gè)token,只占其總訓(xùn)練數(shù)據(jù)的0.00016%。

這個(gè)比例,小到可以忽略不計(jì),就像往一個(gè)巨大的湖里滴了幾滴墨水。

但就是這幾滴墨水,成功污染了整個(gè)湖。

實(shí)驗(yàn)數(shù)據(jù)還顯示,100份投毒文檔的劑量太小,無法穩(wěn)定地在任何模型中植入后門。但只要?jiǎng)┝吭黾拥?50份,就足以在所有測(cè)試的模型規(guī)模上穩(wěn)定地實(shí)現(xiàn)攻擊。

下面這張圖直觀地展示了攻擊成功后的效果。一個(gè)13B模型,在正常提示下(綠色高亮),回答得很好??梢坏┨崾纠锛尤肓耍t色高亮),它立刻開始胡言亂語。

更有趣的是,研究人員發(fā)現(xiàn),攻擊的成功與否,直接與模型在訓(xùn)練中“遇到”了多少份投毒文檔有關(guān)。

下面這幾張圖,橫軸不再是訓(xùn)練的百分比,而是模型見過的投毒文檔數(shù)量。你會(huì)發(fā)現(xiàn),一旦模型見過的毒文檔數(shù)量達(dá)到某個(gè)閾值(比如250份),攻擊效果就立刻顯現(xiàn),并且不同規(guī)模模型的曲線都對(duì)齊了。

為了進(jìn)一步驗(yàn)證這個(gè)結(jié)論,研究團(tuán)隊(duì)還做了一組額外的實(shí)驗(yàn)。他們保持投毒文檔數(shù)量不變,但把600M和2B模型的干凈訓(xùn)練數(shù)據(jù)量減半或加倍。

結(jié)果還是一樣。只要投毒文檔的絕對(duì)數(shù)量不變,無論干凈數(shù)據(jù)是多是少,攻擊成功率都保持穩(wěn)定。

這扇門打開了什么

這項(xiàng)研究的意義是深遠(yuǎn)的,因?yàn)樗鼜母旧细淖兞宋覀儗?duì)AI安全的認(rèn)知。

過去,我們以為模型越大,就越難被投毒,因?yàn)楣粽咝枰廴镜臄?shù)據(jù)比例太高了?,F(xiàn)在看來,這個(gè)想法完全錯(cuò)了。

如果攻擊者只需要準(zhǔn)備幾百份而不是數(shù)百萬份文檔,那么投毒的門檻就被降到了地板上。

正如英國人工智能安全研究所的報(bào)告所說:“這意味著投毒攻擊可能比之前認(rèn)為的更加可行。攻擊者相對(duì)容易創(chuàng)建,比如說,250個(gè)投毒的維基百科文章”。

這不僅僅是讓模型說胡話這么簡(jiǎn)單。

這次實(shí)驗(yàn)用的是“拒絕服務(wù)”攻擊,因?yàn)樗Ч黠@,容易測(cè)量。但如果攻擊者想植入更陰險(xiǎn)的后門呢?

比如,教模型在特定條件下生成帶有漏洞的代碼,或者在回答某些問題時(shí)繞過安全護(hù)欄,輸出有害內(nèi)容。這些更復(fù)雜的攻擊,是否也遵循同樣的規(guī)律?

這是這項(xiàng)研究留下的一個(gè)開放性問題,也是最讓人擔(dān)憂的地方。

當(dāng)然,這項(xiàng)研究也有其局限性。

實(shí)驗(yàn)中最大的模型是13B參數(shù),我們還不知道這個(gè)規(guī)律是否適用于更大規(guī)模的模型,比如GPT-5或Claude 4這種級(jí)別的。

研究人員也坦誠,他們選擇的后門行為(產(chǎn)生無意義文本)相對(duì)簡(jiǎn)單,更復(fù)雜的行為,比如生成惡意代碼,可能需要不同的投毒策略。

但無論如何,這扇門已經(jīng)被推開了一條縫。

公布這些發(fā)現(xiàn),就像是給整個(gè)AI行業(yè)拉響了警報(bào),能激勵(lì)大家趕緊行動(dòng)起來,加固自己的防線。

基于這些發(fā)現(xiàn),防御者可以從幾方面入手:

加強(qiáng)數(shù)據(jù)源的審查和監(jiān)控,確保每一份進(jìn)入訓(xùn)練集的數(shù)據(jù)都是干凈的。

開發(fā)能夠自動(dòng)檢測(cè)出“投毒文檔”的技術(shù)。

在模型訓(xùn)練和部署后,也要持續(xù)監(jiān)控其行為,防止有漏網(wǎng)之魚。

盡管投毒的門檻降低了,但對(duì)攻擊者來說,也并非毫無挑戰(zhàn)。

他們最大的難題,是如何確保自己精心制作的“毒藥”,能百分之百地被未來的某個(gè)大模型開發(fā)團(tuán)隊(duì)選中,并放入訓(xùn)練數(shù)據(jù)集中。這本身就充滿了不確定性。

這項(xiàng)研究為AI安全敲響了警鐘,它揭示了一個(gè)令人不安的事實(shí):只需要極少量的樣本,就有可能污染一個(gè)規(guī)模龐大的語言模型。

隨著AI技術(shù)越來越深地融入社會(huì),我們必須正視這些潛在的安全風(fēng)險(xiǎn),并投入更多精力去研究和開發(fā)有效的防御手段了。

參考資料:

https://www.anthropic.com/research/small-samples-poison

https://arxiv.org/abs/2510.07192


相關(guān)內(nèi)容