安全動(dòng)態(tài)

機(jī)器學(xué)習(xí)對(duì)抗性攻擊報(bào)告

來(lái)源:聚銘網(wǎng)絡(luò)    發(fā)布時(shí)間:2017-01-09    瀏覽次數(shù):
 

信息來(lái)源:FreeBuf

從12月29日起,神秘的賬號(hào)Master在弈城、野狐等圍棋對(duì)戰(zhàn)平臺(tái)上輪番挑戰(zhàn)各大圍棋高手,并取得了不可思議的多連勝。1月4日,聶衛(wèi)平、常昊、周睿羊等高手接連輸給Master,到目前截止它已獲得60連勝。Master在與古力的對(duì)決之前終于揭曉了自己的身份,果然就是去年大出風(fēng)頭的AlphaGo(升級(jí)版),而對(duì)陣古力,也提前聲明了會(huì)是最后一戰(zhàn)。

我們不妨將Master的60連勝視為人工智能與人類交鋒的信號(hào)和警報(bào),在人工智能時(shí)代人類如何完成自身的“刷新升級(jí)”值得每個(gè)人思考。同時(shí)其帶來(lái)的安全問(wèn)題也急需安全專家去突破。

科技的發(fā)展使人工智能離人類的生活越來(lái)越近,其中隱含的安全問(wèn)題也漸漸引起頂級(jí)安全專家們的關(guān)注。

本文由百度安全實(shí)驗(yàn)室專家撰寫,詳細(xì)介紹了在GeekPwn2016硅谷分會(huì)場(chǎng)上,頂尖安全專家們針對(duì)當(dāng)前流行的人工智能圖形對(duì)象識(shí)別、語(yǔ)音識(shí)別的場(chǎng)景所采用的構(gòu)造攻擊數(shù)據(jù)方式和攻擊演示。

百度安全實(shí)驗(yàn)室的專家對(duì)這些攻擊方式提出了獨(dú)到見(jiàn)解,并對(duì)未來(lái)趨勢(shì)進(jìn)行了預(yù)測(cè)。

隨著人工智能和機(jī)器學(xué)習(xí)技術(shù)在互聯(lián)網(wǎng)的各個(gè)領(lǐng)域的廣泛應(yīng)用,其受攻擊的可能性,以及其是否具備強(qiáng)抗打擊能力一直是安全界一直關(guān)注的。之前關(guān)于機(jī)器學(xué)習(xí)模型攻擊的探討常常局限于對(duì)訓(xùn)練數(shù)據(jù)的污染。由于其模型經(jīng)常趨向于封閉式的部署,該手段在真實(shí)的情況中并不實(shí)際可行。在GeekPwn2016硅谷分會(huì)場(chǎng)上,來(lái)自北美工業(yè)界和學(xué)術(shù)界的頂尖安全專家們針對(duì)當(dāng)前流行的圖形對(duì)象識(shí)別、語(yǔ)音識(shí)別的場(chǎng)景,為大家揭示了如何通過(guò)構(gòu)造對(duì)抗性攻擊數(shù)據(jù),要么讓其與源數(shù)據(jù)的差別細(xì)微到人類無(wú)法通過(guò)感官辨識(shí)到,要么該差別對(duì)人類感知沒(méi)有本質(zhì)變化,而機(jī)器學(xué)習(xí)模型可以接受并做出錯(cuò)誤的分類決定,并且同時(shí)做了攻擊演示。以下將詳細(xì)介紹專家們的攻擊手段。

1. 攻擊圖像語(yǔ)音識(shí)別系統(tǒng)

目前人工智能和機(jī)器學(xué)習(xí)技術(shù)被廣泛應(yīng)用在人機(jī)交互,推薦系統(tǒng),安全防護(hù)等各個(gè)領(lǐng)域。具體場(chǎng)景包括語(yǔ)音,圖像識(shí)別,信用評(píng)估,防止欺詐,過(guò)濾惡意郵件,抵抗惡意代碼攻擊,網(wǎng)絡(luò)攻擊等等。攻擊者也試圖通過(guò)各種手段繞過(guò),或直接對(duì)機(jī)器學(xué)習(xí)模型進(jìn)行攻擊達(dá)到對(duì)抗目的。特別是在人機(jī)交互這一環(huán)節(jié),隨著語(yǔ)音、圖像作為新興的人機(jī)輸入手段,其便捷和實(shí)用性被大眾所歡迎。同時(shí)隨著移動(dòng)設(shè)備的普及,以及移動(dòng)設(shè)備對(duì)這些新興的輸入手段的集成,使得這項(xiàng)技術(shù)被大多數(shù)人所親身體驗(yàn)。而語(yǔ)音、圖像的識(shí)別的準(zhǔn)確性對(duì)機(jī)器理解并執(zhí)行用戶指令的有效性至關(guān)重要。與此同時(shí),這一環(huán)節(jié)也是最容易被攻擊者利用,通過(guò)對(duì)數(shù)據(jù)源的細(xì)微修改,達(dá)到用戶感知不到,而機(jī)器接受了該數(shù)據(jù)后做出錯(cuò)誤的后續(xù)操作的目的。并會(huì)導(dǎo)致計(jì)算設(shè)備被入侵,錯(cuò)誤命令被執(zhí)行,以及執(zhí)行后的連鎖反應(yīng)造成的嚴(yán)重后果。本文基于這個(gè)特定的場(chǎng)景,首先簡(jiǎn)單介紹下白盒黑盒攻擊模型,然后結(jié)合專家們的研究成果,進(jìn)一步介紹攻擊場(chǎng)景,對(duì)抗數(shù)據(jù)構(gòu)造攻擊手段,以及攻擊效果。

1.1 攻擊模型

和其他攻擊不同,對(duì)抗性攻擊主要發(fā)生在構(gòu)造對(duì)抗性數(shù)據(jù)的時(shí)候,之后該對(duì)抗性數(shù)據(jù)就如正常數(shù)據(jù)一樣輸入機(jī)器學(xué)習(xí)模型并得到欺騙的識(shí)別結(jié)果。在構(gòu)造對(duì)抗性數(shù)據(jù)的過(guò)程中,無(wú)論是圖像識(shí)別系統(tǒng)還是語(yǔ)音識(shí)別系統(tǒng),根據(jù)攻擊者掌握機(jī)器學(xué)習(xí)模型信息的多少,可以分為如下兩種情況:

· 白盒攻擊

攻擊者能夠獲知機(jī)器學(xué)習(xí)所使用的算法,以及算法所使用的參數(shù)。攻擊者在產(chǎn)生對(duì)抗性攻擊數(shù)據(jù)的過(guò)程中能夠與機(jī)器學(xué)習(xí)的系統(tǒng)有所交互。

· 黑盒攻擊

攻擊者并不知道機(jī)器學(xué)習(xí)所使用的算法和參數(shù),但攻擊者仍能與機(jī)器學(xué)習(xí)的系統(tǒng)有所交互,比如可以通過(guò)傳入任意輸入觀察輸出,判斷輸出。

2. GeekPwn現(xiàn)場(chǎng)機(jī)器學(xué)習(xí)對(duì)抗性攻擊

2.1 Physical Adversarial Examples

在GeekPwn2016硅谷分會(huì)場(chǎng)上,來(lái)自O(shè)penAI的Ian Goodfellow和谷歌大腦的Alexey Kurakin分享了“對(duì)抗性圖像”在現(xiàn)實(shí)物理世界欺騙機(jī)器學(xué)習(xí)的效果。值得一提的是,Ian Goodfellow正是生成式對(duì)抗神經(jīng)網(wǎng)絡(luò)模型的發(fā)明者。

首先先簡(jiǎn)單介紹一下對(duì)抗性圖像攻擊。對(duì)抗性圖像攻擊是攻擊者構(gòu)造一張對(duì)抗性圖像,使人眼和圖像識(shí)別機(jī)器識(shí)別的類型不同。比如攻擊者可以針對(duì)使用圖像識(shí)別的無(wú)人車,構(gòu)造出一個(gè)圖片,在人眼看來(lái)是一個(gè)stopsign,但是在汽車看來(lái)是一個(gè)限速60的標(biāo)志。

1.jpg

圖1 攻擊圖像識(shí)別場(chǎng)景

在會(huì)上,Ian和Alexey指出過(guò)去的對(duì)抗性圖像工作都基于如下的攻擊模型,即攻擊者可以直接向機(jī)器學(xué)習(xí)模型輸入數(shù)據(jù),從而保證攻擊者可以隨心所欲地對(duì)任意粒度的圖片進(jìn)行修改,而不需要考慮燈光,圖片角度,以及設(shè)備在讀取圖片時(shí)對(duì)對(duì)抗性圖像攻擊效果產(chǎn)生變化。因此,他們嘗試了對(duì)抗性圖片在真實(shí)物理世界的表現(xiàn)效果,即對(duì)抗性圖片在傳入機(jī)器學(xué)習(xí)模型之前,還經(jīng)過(guò)了打印、外部環(huán)境、攝像頭處理等一系列不可控轉(zhuǎn)變。相對(duì)于直接給計(jì)算機(jī)傳送一張無(wú)損的圖片文件,該攻擊更具有現(xiàn)實(shí)意義。

在如何構(gòu)造對(duì)抗性攻擊圖片上,他們使用了非定向類攻擊中的FGS和FGS迭代方法,和定向類的FGS迭代方法 [1]。其中,非定向類攻擊是指攻擊者只追求對(duì)抗圖像和原圖像不同,而不在意識(shí)別的結(jié)果是什么。定向類攻擊則是指攻擊者在構(gòu)造圖像時(shí)已經(jīng)預(yù)定目標(biāo)機(jī)器學(xué)習(xí)模型識(shí)別的結(jié)果。

在定向類攻擊中,作者首先根據(jù)條件概率找出給定源圖像,最不可能(least-likely)被識(shí)別的類型y值,表示為(該種類通常和原種類完全不同)。然后采用定向類攻擊方法中的FGS迭代方法,產(chǎn)生對(duì)抗性圖片。其中非定向類攻擊方法在類型種類比較少并且類型種類差距較大的數(shù)據(jù)庫(kù)里,比較有效。但是一旦類型之間比較相關(guān),該攻擊圖像有極大的可能只會(huì)在同一個(gè)大類中偏移。這時(shí)候定向類攻擊方法就會(huì)有效很多。

2.jpg

圖2 對(duì)抗性圖像在現(xiàn)實(shí)物理世界欺騙機(jī)器學(xué)習(xí)過(guò)程

為了驗(yàn)證結(jié)果,作者采用白盒攻擊模型。其中,作者使用谷歌Inception v3作為目標(biāo)圖像識(shí)別模型,并選取ImageNet中的50,000個(gè)驗(yàn)證圖像針對(duì)Inception v3構(gòu)造出相對(duì)應(yīng)的對(duì)抗性圖像。在實(shí)驗(yàn)中,他們將所有的對(duì)抗性圖片和原始圖片都打印出來(lái),并手動(dòng)用一個(gè)Nexus 5智能手機(jī)進(jìn)行拍照,然后將手機(jī)里的圖像輸入Inception v3模型進(jìn)行識(shí)別?,F(xiàn)場(chǎng)結(jié)果表明,87%的對(duì)抗性圖像在經(jīng)過(guò)外界環(huán)境轉(zhuǎn)化后仍能成功欺騙機(jī)器,從而證明了物理對(duì)抗性例子在真實(shí)世界的可能性。

在他們的論文中,作者還測(cè)試了物理世界造成的圖像轉(zhuǎn)化對(duì)使用不同方法構(gòu)造的對(duì)抗性圖片的毀壞程度。有意思的結(jié)論是迭代方法受圖像轉(zhuǎn)化的影響更大。這是因?yàn)榈椒▽?duì)原圖像使用了更微妙的調(diào)整,而這些調(diào)整在外界圖像轉(zhuǎn)化過(guò)程中更容易被毀壞。作者還分別測(cè)試了亮度、對(duì)比度、高斯模糊轉(zhuǎn)化、高斯噪音轉(zhuǎn)化和JPEG編碼轉(zhuǎn)化量度,對(duì)各個(gè)對(duì)抗性圖像方法的毀壞程度。具體實(shí)驗(yàn)結(jié)果請(qǐng)參見(jiàn)他們的論文 [1]。

2.2   Exploring New Attack Space on Adversarial Deep Learning

來(lái)自UC Berkeley大學(xué)的Dawn Song教授和劉暢博士介紹了對(duì)抗式深度學(xué)習(xí)在除了其他領(lǐng)域的攻擊和防御。其中Dawn Song教授是Taint Analysis理論的主要貢獻(xiàn)者之一,還是美國(guó)“麥克阿瑟天才獎(jiǎng)”獲得者。在現(xiàn)場(chǎng),專家們首先拓展了對(duì)抗性深度學(xué)習(xí)在圖像識(shí)別檢測(cè)上的應(yīng)用,然后還提出構(gòu)造對(duì)抗性圖片的優(yōu)化方法-ensemble黑盒攻擊算法[6]。

在圖像識(shí)別物體檢測(cè)中,如圖3左圖所示,深度學(xué)習(xí)可以用來(lái)檢測(cè)圖像中不同的物體以及他們之間的關(guān)系并自動(dòng)生成說(shuō)明(Caption) [2]。在這種場(chǎng)景下,對(duì)抗性圖像攻擊同樣可以欺騙機(jī)器學(xué)習(xí)模型,并給出異常的說(shuō)明,如圖3右圖所示。對(duì)抗性圖像構(gòu)建的基本思路是給定Caption的前綴后,盡量誤導(dǎo)之后的判斷。

3.jpg

圖3 對(duì)抗性圖片在圖像識(shí)別檢測(cè)中的應(yīng)用

同時(shí),專家們還研究了對(duì)抗性圖像攻擊在黑盒分類模型中的表現(xiàn),并且提出了優(yōu)化算法-ensemble黑盒攻擊算法。在通常情況下,攻擊者并不知道目標(biāo)模型使用了什么算法已經(jīng)相關(guān)的參數(shù)。這時(shí)候攻擊者只能使用黑盒模型攻擊。過(guò)程如下所示:

1. 攻擊者在目標(biāo)機(jī)器學(xué)習(xí)模型未知的情況下,通過(guò)詢問(wèn)黑盒子系統(tǒng)所得結(jié)果,得到一系列訓(xùn)練樣本。

2. 攻擊者任意選取了某機(jī)器學(xué)習(xí)算法并使用訓(xùn)練樣本訓(xùn)練得到已知機(jī)器學(xué)習(xí)模型。

3. 攻擊者針對(duì)訓(xùn)練出來(lái)的已知機(jī)器學(xué)習(xí)模型構(gòu)建對(duì)抗數(shù)據(jù)。

4.jpg

圖4 對(duì)抗性圖像黑盒攻擊流程

這一攻擊基于對(duì)抗性圖像的欺騙傳遞性,即針對(duì)機(jī)器學(xué)習(xí)模型A構(gòu)造的對(duì)抗性圖像,也會(huì)有很大的比例能欺騙機(jī)器學(xué)習(xí)模型B。表1展示了使用單網(wǎng)絡(luò)優(yōu)化方法時(shí),針對(duì)不同元模型構(gòu)造的非定向?qū)剐詧D像,被不同目標(biāo)模型識(shí)別的成功率。每一個(gè)格子(i,j)代表針對(duì)算法模型i產(chǎn)生的對(duì)抗圖片,在其他算法模型j上驗(yàn)證的結(jié)果,百分比表示所有對(duì)抗性圖片中被識(shí)別成原圖片類型的比例??梢钥闯觯?dāng)同一個(gè)圖像識(shí)別系統(tǒng)被用來(lái)構(gòu)造和驗(yàn)證對(duì)抗性圖像時(shí)(白盒攻擊模型),百分比為0。這說(shuō)明在白盒攻擊模型中,構(gòu)建對(duì)抗性圖像的效果非常好,全部不能正確識(shí)別。當(dāng)驗(yàn)證模型和構(gòu)造模型并不一致時(shí),大部分對(duì)抗性圖像的百分比也在10%-40%之間浮動(dòng),該結(jié)果有效證明了對(duì)抗數(shù)據(jù)在不同算法之間有一定的傳遞性。

table.png

表1 針對(duì)不同源機(jī)器學(xué)習(xí)模型構(gòu)造的非定向?qū)剐怨舴椒ǎ▎尉W(wǎng)絡(luò)優(yōu)化方法)在目標(biāo)模型的攻擊效果。其中,ResNet-50, ResNet-101, ResNet-152,GoogLeNet,Incept-v3和VGG-16是當(dāng)下流行的深度神經(jīng)網(wǎng)絡(luò)圖像識(shí)別系統(tǒng)。

然而,作者還使用了同樣的實(shí)驗(yàn)方法測(cè)試了定向性對(duì)抗性攻擊在目標(biāo)模型的效果。結(jié)果表明定向類標(biāo)記的傳遞性差了很多,只有小于等于4%的對(duì)抗性圖像在源、目標(biāo)機(jī)器學(xué)習(xí)模型中都識(shí)別出相同的定向標(biāo)記。

基于此,作者提出了ensemble方法。它是以多個(gè)深度神經(jīng)網(wǎng)絡(luò)模型為基礎(chǔ)構(gòu)造對(duì)抗圖片,即將圖4中單個(gè)已知機(jī)器學(xué)習(xí)模型替換成多個(gè)不同的已知機(jī)器學(xué)習(xí)模型,并共同產(chǎn)生一個(gè)對(duì)抗性圖像。

在實(shí)驗(yàn)設(shè)計(jì)中,作者對(duì)5個(gè)不同的深度神經(jīng)網(wǎng)絡(luò)模型一一實(shí)施了黑盒子攻擊。在對(duì)每一個(gè)模型攻擊的時(shí)候,作者假設(shè)已知其余的4個(gè)模型,并用集合的方式作白盒子對(duì)抗圖形的構(gòu)造。同樣的,作者分別使用基于優(yōu)化的攻擊手段,和基于Fast Gradient的手段構(gòu)造對(duì)抗性圖片。構(gòu)造圖片依然使用的是Adam優(yōu)化器。在算法經(jīng)過(guò)100次的迭代對(duì)權(quán)重向量的更新,loss function得以匯聚。作者發(fā)現(xiàn)有許多攻擊者預(yù)先設(shè)定的標(biāo)記也得到了傳遞。詳細(xì)結(jié)果參見(jiàn)表2。格子(i,j)代表用除了模型i之外的4個(gè)其他算法生成的對(duì)抗圖片,用模型j來(lái)驗(yàn)證得到的定向標(biāo)記的準(zhǔn)確值??梢钥闯觯?dāng)目標(biāo)模型包含在已知模型集合中,定向類標(biāo)記的傳遞性都在60%以上。即使目標(biāo)模型不在已知模型集合中,定向標(biāo)記的準(zhǔn)確值也在30%以上。

table2.png

表2 針對(duì)不同源機(jī)器學(xué)習(xí)模型構(gòu)造的定向?qū)剐怨舴椒ǎ╡nsemble方法)在目標(biāo)模型的攻擊效果。

作者同樣使用了ensemble算法進(jìn)行非定向攻擊。攻擊結(jié)果如表3所示。可以看出和表1相比,ensemble算法的欺騙性大幅度提升。

table3.png

表3 針對(duì)不同源機(jī)器學(xué)習(xí)模型構(gòu)造的非定向?qū)剐怨舴椒ǎ╡nsemble方法)在目標(biāo)模型的攻擊效果。

2.3 Hidden Voice Commands

5.jpg

圖5 攻擊語(yǔ)音識(shí)別場(chǎng)景

來(lái)自美國(guó)Georgetown University的Tavish Vaidya博士分享了隱匿的語(yǔ)音命令這一工作。

對(duì)抗性語(yǔ)音攻擊則是攻擊者構(gòu)造一段語(yǔ)音,使人耳和語(yǔ)音識(shí)別機(jī)器識(shí)別的類型不同。語(yǔ)音攻擊和圖像攻擊最大的不同在于,它希望保證對(duì)抗性語(yǔ)音和原語(yǔ)音差距越遠(yuǎn)越好,而不是保持對(duì)抗性語(yǔ)音和原語(yǔ)音的相似性。該團(tuán)隊(duì)依據(jù)現(xiàn)實(shí)情況,分別提出了黑盒攻擊和白盒攻擊兩種類型。在他們的實(shí)驗(yàn)中,揚(yáng)聲器發(fā)出一段人類無(wú)法辨認(rèn)的噪音,卻能夠在三星Galaxy S4以及iPhone 6上面被正確識(shí)別為相對(duì)應(yīng)的語(yǔ)音命令,達(dá)到讓手機(jī)切換飛行模式、撥打911等行為 [3]。

黑盒攻擊(語(yǔ)音識(shí)別):

在黑盒攻擊模型中,攻擊者并不知道機(jī)器學(xué)習(xí)的算法,攻擊者唯一的知識(shí)是該機(jī)器使用了MFC算法。MFC算法是將音頻從高維度轉(zhuǎn)化到低緯度的一個(gè)變換,從而過(guò)濾掉一些噪聲,同時(shí)保證機(jī)器學(xué)習(xí)能夠操作這些輸入。但是從高維到低維的轉(zhuǎn)化過(guò)程中,不可避免地會(huì)丟失一些信息。相對(duì)應(yīng)的,從低維到高維的轉(zhuǎn)化,也會(huì)多添加一些噪聲。黑盒攻擊的原理正是攻擊者通過(guò)迭代,不斷調(diào)整MFCC的參數(shù)并對(duì)聲音進(jìn)行MFCC變換和逆變換,過(guò)濾掉那些機(jī)器不需要,而人類所必須的信息,從而構(gòu)造出一段混淆的語(yǔ)音。因?yàn)镸FC算法被大量用于語(yǔ)音識(shí)別這個(gè)場(chǎng)景,所以該攻擊模型仍保證了很強(qiáng)的通用性。該具體步驟如圖4所示,感興趣的讀者可以參見(jiàn)他們的論文 [3].

6.jpg

圖6 對(duì)抗性語(yǔ)音黑盒攻擊模型[3]

在實(shí)驗(yàn)中,作者發(fā)現(xiàn)使用的語(yǔ)音識(shí)別系統(tǒng)只能識(shí)別3.5米之內(nèi)的語(yǔ)音命令。在揚(yáng)聲器和手機(jī)的距離控制在3米的情況下,表4統(tǒng)計(jì)了人類和機(jī)器對(duì)不同命令的識(shí)別的比例。平均情況下,85%正常語(yǔ)音命令能被語(yǔ)音識(shí)別。在他們的混淆版本中,仍有60%的語(yǔ)音命令能被正常識(shí)別。在人類識(shí)別類別中,作者使用Amazon Mechanical Turk服務(wù),通過(guò)crowd sourcing的形式讓檢查員猜測(cè)語(yǔ)音的內(nèi)容。在這種情況下不同的命令混淆的效果也不盡相同。對(duì)于”O(jiān)K Google”和”Turn on airplane mode”命令,低于25%的混淆命令能夠被人類正確識(shí)別。其中,94%的”Call 911”混淆版本被人類正常識(shí)別比較異常。作者分析了兩個(gè)主要原因。1是該命令太過(guò)熟悉。2是測(cè)試員可多次重復(fù)播放語(yǔ)音,從而增加了猜測(cè)成功的概率。

table4.png

表4 對(duì)抗性語(yǔ)音黑盒攻擊結(jié)果。[3]

白盒攻擊(語(yǔ)音識(shí)別):

在白盒子攻擊中,該團(tuán)隊(duì)對(duì)抗的目標(biāo)機(jī)器學(xué)習(xí)算法是開(kāi)源的CMU Sphinx speech recognition system [4]。在整個(gè)系統(tǒng)中,CMU Sphinx首先將整段語(yǔ)音切分成一系列重疊的幀(frame), 然后對(duì)各幀使用Mel-Frequency Cepstrum (MFC)轉(zhuǎn)換,將音頻輸入減少到更小的一個(gè)維度空間,即圖7中的特征提取。然后,CMU Sphinx使用了Gaussian Mixture Model(GMM)來(lái)計(jì)算特定音頻到特定音素(phoneme)的一個(gè)概率。最后通過(guò)Hidden Markov Model(HMM),Sphinx可以使用這些音素(phoneme)的概率轉(zhuǎn)化為最有可能的文字。這里GMM和HMM都屬于圖7中的機(jī)器學(xué)習(xí)算法。

7.jpg

圖7 CMU Sphinx speech recognition system模型[4]

在Tavish的白盒攻擊模型中,他分別提出了兩個(gè)方法:1.simple approach 2. Improved attack. 第一個(gè)方法和黑盒方法的不同點(diǎn)在于,它已知了MFCC的各參數(shù),從而可以使用梯度下降更有針對(duì)性地只保留對(duì)機(jī)器識(shí)別關(guān)鍵的一些關(guān)鍵值。在整個(gè)梯度下降的過(guò)程中,input frame不斷地逼近機(jī)器識(shí)別的目標(biāo)y,同時(shí)人類識(shí)別所需的一些多余信息就被不可避免地被剔除了。

第二類白盒攻擊的基本原理是依據(jù)機(jī)器和人對(duì)音高低起伏變化(音素)的敏感性不同,通過(guò)減少每個(gè)音素對(duì)應(yīng)的幀(frame)的個(gè)數(shù),讓這段聲音只能被機(jī)器識(shí)別,而人類只能聽(tīng)到一段扁平混亂的噪音。這些特征值再經(jīng)過(guò)MFCC逆變換,最終成為一段音頻,傳到人們耳中。具體的方法和語(yǔ)音相關(guān)的知識(shí)更密切一下,有興趣的讀者可以看他們的論文了解具體的方法。表5展示了他們的攻擊效果。

table5.png

表5 對(duì)抗性語(yǔ)音白盒攻擊效果。[3]

2.4  對(duì)抗性數(shù)據(jù)的防護(hù)

雖然對(duì)抗性數(shù)據(jù)攻擊的發(fā)現(xiàn)很巧妙,但是在當(dāng)前圖像語(yǔ)音識(shí)別應(yīng)用的場(chǎng)合上,有效的防御并不困難。主要有以下幾類:

1. 增加人類交互認(rèn)證,例如機(jī)器可以簡(jiǎn)單地發(fā)出一聲警報(bào)、或請(qǐng)求輸入音頻驗(yàn)證碼等方式。

2. 增強(qiáng)對(duì)抗性數(shù)據(jù)作為機(jī)器學(xué)習(xí)模型的輸入的難度。例如語(yǔ)音識(shí)別系統(tǒng)可以使用聲紋識(shí)別、音頻濾波器等方式過(guò)濾掉大部分惡意語(yǔ)音。

3. 從機(jī)器學(xué)習(xí)模型本身訓(xùn)練其辨別良性、惡意數(shù)據(jù)的能力。這時(shí)候,這些已知的對(duì)抗性數(shù)據(jù)就提供了珍貴的訓(xùn)練數(shù)據(jù)。

4. 賓州州立大學(xué)還提出Distillation的方法 [5],從深度神經(jīng)網(wǎng)絡(luò)提取一些指紋來(lái)保護(hù)自己。

隨著人工智能深入人們的生活,人類將越發(fā)依賴人工智能帶來(lái)的高效與便捷。同時(shí),它也成為攻擊者的目標(biāo),導(dǎo)致應(yīng)用機(jī)器學(xué)習(xí)的產(chǎn)品和網(wǎng)絡(luò)服務(wù)不可依賴。GeekPwn2016硅谷分會(huì)場(chǎng)所揭示的是頂級(jí)安全專家對(duì)機(jī)器學(xué)習(xí)安全方面的擔(dān)憂。隨著一個(gè)個(gè)應(yīng)用場(chǎng)景被輕易的攻破,盡管目前只是在語(yǔ)音,圖像識(shí)別等場(chǎng)景下,我們可以清醒的認(rèn)識(shí)到,當(dāng)這些場(chǎng)景與其他服務(wù)相結(jié)合的時(shí)候,攻擊成功的嚴(yán)重后果。人工智能作為未來(lái)智能自動(dòng)化服務(wù)不可缺少的一個(gè)重要部分,已然是安全行業(yè)與黑產(chǎn)攻擊者抗?fàn)幍男聭?zhàn)場(chǎng)。

Bibliography

[1] A. Kurakin, I. J. Goodfellowand S. Bengio, “Adversarial examples in the physical world,” corr,2016.

[2] J. Justin, K. Andrej and F.Li, “Densecap: Fully convolutional localization networks for densecaptioning.,” arXiv preprint arXiv:1511.07571 , 2015.

[3] N. Carlini, P. Mishra, T.Vaidya, Y. Zhang, M. Sherr, C. Shields, D. Wagner and W. Zhou, “HiddenVoice Commands,” in USENIX Security 16, Austin, 2016.

[4] P. Lamere, P. Kwork, W.Walker, E. Gouvea, R. Singh, B. Raj and P. Wolf, “Design of the CMUSphinx-4 Decoder,” in Eighth European Conference on Speech Communicationand Technology, 2003.

[5] N. Papernot, P. McDaniel, X.Wu, S. Jha and A. Swami, ” Distillation as a Defense to AdversarialPerturbations against Deep Neural Networks Authors:”.

[6]Y. Liu, X. Chen, C. Liu andD. Song, “Delving into transferable adversarial examples and black-boxattacks,” in ARXIV.

* 本文轉(zhuǎn)載自“百度安全實(shí)驗(yàn)室”微信公眾賬號(hào),作者曹躍、仲震宇、韋韜 ,原文地址

 
 

上一篇:CES 2017,5G展示一覽眾山小

下一篇:2017年01月09日 聚銘安全速遞