行業(yè)動(dòng)態(tài)

機(jī)器智能的安全之困

來源:聚銘網(wǎng)絡(luò)    發(fā)布時(shí)間:2019-10-29    瀏覽次數(shù):
 

信息來源:4hou

智能系統(tǒng)的核心范式

真正意義上的智能系統(tǒng),實(shí)例的核心范式一定有如下幾個(gè)組成部分:感知體系、認(rèn)知體系、決策體系、行動(dòng)體系。同時(shí),一個(gè)智能系統(tǒng)的實(shí)例,一定離不開與環(huán)境的交互,過去我們總是過多的強(qiáng)調(diào)和關(guān)注系統(tǒng)內(nèi)在本身,卻容易忽視與環(huán)境交互的作用。

感知體系的作用是對(duì)環(huán)境進(jìn)行觀測(cè)和沉淀,產(chǎn)出的是數(shù)據(jù)。一切數(shù)據(jù)的產(chǎn)生都源于對(duì)環(huán)境的觀測(cè)和沉淀,觀測(cè)和沉淀背后的動(dòng)機(jī)是我們測(cè)量、記錄、分析世界的渴望。信息時(shí)時(shí)刻刻存在于環(huán)境中(數(shù)字空間或物理空間),在不同的場(chǎng)景下,我們用硬件、軟件、算法的方式,將其「數(shù)據(jù)化」。硬件有如傳感器、攝像頭等,軟件如日志記錄器、數(shù)據(jù)采集器等,算法如各類智能視覺算法、智能語音算法等。終有一天,我們能夠?qū)⒁磺形锢砜臻g都數(shù)據(jù)化,將物理空間完完全全映射到數(shù)據(jù)空間。

認(rèn)知體系的作用是對(duì)數(shù)據(jù)進(jìn)行歸納和總結(jié),提煉出知識(shí)。人類理解的知識(shí)一定是要用自然語言表達(dá),而對(duì)機(jī)器而言,用能夠代表問題空間的數(shù)據(jù)集進(jìn)行訓(xùn)練,再用訓(xùn)練好的「模型」來在新的數(shù)據(jù)空間中進(jìn)行推理。只要是能解決特定目標(biāo)任務(wù),無論其表現(xiàn)形態(tài)是向量、圖譜還是自然語言,其實(shí)都是知識(shí),特征空間的表達(dá)本身就是一種知識(shí)。

決策體系的作用是對(duì)目標(biāo)任務(wù)進(jìn)行規(guī)劃和決策,生成對(duì)目標(biāo)任務(wù)的策略。行動(dòng)體系根據(jù)策略執(zhí)行具體動(dòng)作,和環(huán)境進(jìn)行交互、對(duì)環(huán)境產(chǎn)生影響。動(dòng)作作用于環(huán)境后形成反饋,反饋又促進(jìn)感知體系感知更多的數(shù)據(jù),進(jìn)而持續(xù)獲取更多的知識(shí),對(duì)目標(biāo)任務(wù)作出更好的決策,形成閉環(huán)持續(xù)迭代進(jìn)化。

從這個(gè)角度來看,機(jī)器智能的本質(zhì),實(shí)質(zhì)是一種觀測(cè)環(huán)境沉淀數(shù)據(jù)、歸納數(shù)據(jù)提煉知識(shí)、規(guī)劃目標(biāo)在線決策、作出行動(dòng)影響環(huán)境的自主機(jī)器。機(jī)器智能是一種自主機(jī)器,而自主機(jī)器與過去自動(dòng)化機(jī)器的最大區(qū)別在于其能否自主獲取解決目標(biāo)任務(wù)的知識(shí)。

單體智能到群體智能

今天大多數(shù)的智能系統(tǒng),都是一個(gè)個(gè)孤立分布的單體智能實(shí)例,解決的相應(yīng)也是一個(gè)個(gè)孤立分布的單體問題。云計(jì)算的本質(zhì)是「計(jì)算在線」,大數(shù)據(jù)的本質(zhì)是「數(shù)據(jù)在線」,而機(jī)器智能最終也需要實(shí)現(xiàn)讓智能在線,讓智能實(shí)例之間進(jìn)行自主在線交互。

單個(gè)智能實(shí)例都是由「感知-認(rèn)知-決策-行動(dòng)」的體系構(gòu)成的自主系統(tǒng),有著自己的世界表征形式,能自主完成自身的目標(biāo)任務(wù)。在同一個(gè)動(dòng)態(tài)復(fù)雜的博弈環(huán)境之中,實(shí)例與實(shí)例之間通過互聯(lián)實(shí)現(xiàn)在線,彼此存在相互作用,可以合作、競(jìng)爭(zhēng),可以競(jìng)合并存,也可以既不合作也不競(jìng)爭(zhēng)。一個(gè)實(shí)例的策略變化不光會(huì)影響自身的環(huán)境,也會(huì)影響其他實(shí)例的策略變化。

對(duì)于合作的多個(gè)智能實(shí)例之間,可以選擇共享數(shù)據(jù)、知識(shí)、策略或動(dòng)作,協(xié)調(diào)協(xié)作以完成更為復(fù)雜的目標(biāo)任務(wù),共同形成更為高階的智能實(shí)例。當(dāng)單位空間內(nèi)智能實(shí)例的覆蓋密度足夠大的時(shí)候,單體智能開始向群體智能演進(jìn)。

智能與安全的四象限

安全是所有技術(shù)中最為特殊的一種,嚴(yán)格意義上甚至或許都不能稱「安全」為一門技術(shù)。早在人類還未發(fā)明任何技術(shù)之前,安全就已經(jīng)伴隨著人類的各種活動(dòng)。迄今為止,沒有任何一種技術(shù)是安全領(lǐng)域獨(dú)有或者說從安全領(lǐng)域長(zhǎng)出來的,但安全從來都是與其他技術(shù)相伴相生、相輔相成。

任何一門通用技術(shù),與安全的結(jié)合都有如下四種方式。機(jī)器智能技術(shù)也不例外,縱向是「給智能以安全」和「給安全以智能」,橫向是「攻擊視角」和「防御視角」。給智能以安全,是指機(jī)器智能技術(shù)本身會(huì)帶來新的安全問題,一種是機(jī)器智能自身脆弱性導(dǎo)致的安全問題,一種是機(jī)器智能引發(fā)周邊場(chǎng)景衍生出的安全問題。給安全以智能,是指將機(jī)器智能應(yīng)用于安全場(chǎng)景,攻擊者利用機(jī)器智能賦能攻擊,防御者利用機(jī)器智能賦能防御。

而在這四個(gè)象限中,新技術(shù)與安全發(fā)生交集的時(shí)間和發(fā)展的成熟程度又有所不同。攻擊者相比防御者而言,有更強(qiáng)的動(dòng)機(jī)和利益,所以攻擊相關(guān)的象限通常都會(huì)更容易去探索新技術(shù)去接納新技術(shù)。防御者總是滯后,也總是容易沉迷于舊技術(shù)和人工經(jīng)驗(yàn)營(yíng)造出的安全假象中,導(dǎo)致第四象限總是發(fā)展最滯后最緩慢的一個(gè)象限。當(dāng)然,這與防御視角自身的屬性與困境也有直接關(guān)系。

機(jī)器智能的安全之困

圍棋是簡(jiǎn)單的復(fù)雜游戲,而安全是復(fù)雜的簡(jiǎn)單游戲。1994年,認(rèn)知科學(xué)家Steven Pinker在《The Language Instinct》中寫道「對(duì)機(jī)器智能而言,困難的問題是易解的,簡(jiǎn)單的問題是難解的」?!负?jiǎn)單的復(fù)雜問題」指的是問題空間是閉合的,但是問題本身卻又有較高的復(fù)雜度,「復(fù)雜的簡(jiǎn)單問題」指的是問題空間是是無限開放式的,但問題本身卻并沒有很高的復(fù)雜度。今天機(jī)器智能技術(shù)在「簡(jiǎn)單的復(fù)雜問題」的領(lǐng)域,往往都比人類會(huì)更強(qiáng),但對(duì)于「復(fù)雜的簡(jiǎn)單問題」,泛化界限引起的維數(shù)災(zāi)難,機(jī)器智能往往都會(huì)失效。

安全是一個(gè)典型的「復(fù)雜的簡(jiǎn)單問題」,莫拉維克悖論在安全領(lǐng)域更為明顯。高度不確定性是安全最大的特點(diǎn),安全自身最大的困境就是如何去應(yīng)對(duì)「未知的未知」。很多時(shí)候我們問題都沒定義清楚問題就沖上去說要用機(jī)器智能解決問題,這是絕大多數(shù)機(jī)器智能在安全領(lǐng)域失效的主要原因。今天在安全領(lǐng)域,不太需要去突破智能技術(shù)的天花板,亟待解決的反而是「定義清楚問題」,即如何閉合掉問題空間。

安全的問題空間通常都是無界的,同時(shí)問題空間對(duì)應(yīng)的正負(fù)樣本的樣本空間卻又嚴(yán)重的不對(duì)稱?!肝粗奈粗挂鸬呢?fù)向數(shù)據(jù)(如攻擊數(shù)據(jù)、風(fēng)險(xiǎn)數(shù)據(jù)等)的嚴(yán)重缺乏導(dǎo)致特征空間的不對(duì)稱,進(jìn)而導(dǎo)致特征空間無法真正表征問題空間?!改P汀故且延袛?shù)據(jù)空間下關(guān)于世界的假設(shè),并且用于在新的數(shù)據(jù)空間下進(jìn)行推理。今天機(jī)器智能技術(shù)已經(jīng)能很好的解決表示輸入和輸出之間的非線性復(fù)雜關(guān)系,但對(duì)于樣本空間與問題空間存在的巨大鴻溝卻依然比較乏力。

20世紀(jì)六十年代,貝爾-拉帕杜拉安全模型(Bell-La Padula )指出「當(dāng)僅當(dāng)系統(tǒng)開始于安全的狀態(tài),且一直不會(huì)落入非安全狀態(tài),它才是安全的」。由于安全的本質(zhì)是對(duì)抗,對(duì)抗的存在導(dǎo)致安全領(lǐng)域的機(jī)器智能模型多數(shù)都逃不過的「上線即衰減」的命運(yùn)。在訓(xùn)練集上表現(xiàn)良好的模型,對(duì)于大規(guī)模的現(xiàn)實(shí)環(huán)境,從上線那一刻起就在引起對(duì)抗升級(jí),進(jìn)而不斷跌入失效的狀態(tài)。模型衰減和封閉系統(tǒng)中的熵增一樣,是一個(gè)必然。

同時(shí),安全場(chǎng)景中對(duì)檢測(cè)結(jié)果的準(zhǔn)確性、結(jié)果可解釋性都高度敏感。機(jī)器智能相比于傳統(tǒng)安全中經(jīng)常使用的基于規(guī)則、基于策略的檢測(cè)技術(shù),優(yōu)勢(shì)在于其強(qiáng)大的表征能力,但同時(shí)其不可解釋性、模糊性導(dǎo)致推理結(jié)果在決策場(chǎng)景下無法直接使用,這也是今天很多智能安全系統(tǒng)大都只在做「感知」,至多也只是做輔助決策的原因。

然而這些都還不是最大的「困」,機(jī)器智能在安全領(lǐng)域最大的「困」是思維模式上的困局。安全的思維模式是「守正出奇」,而機(jī)器智能的思維模式是「Model The World」。這兩種思維模式之間不僅存在巨大的差異,也異常難調(diào)和。一方面極少有人能同時(shí)駕馭這兩種思維方式,另一方面把兩種思維的人放到一起也極難協(xié)作起來,本質(zhì)原因是缺少橋梁來銜接安全問題到算法問題之間的相互轉(zhuǎn)換和定義。

問題空間之困、樣本空間之困、推理結(jié)果之困、對(duì)抗衰減之困、思維模式之困,這些問題導(dǎo)致了今天絕大多數(shù)現(xiàn)實(shí)中的智能安全系統(tǒng)的表現(xiàn)都差強(qiáng)人意?;蛘咭部梢哉f得更悲觀一點(diǎn),今天在安全領(lǐng)域,迄今為止還沒有真正意義的智能安全系統(tǒng)。

真正的智能安全系統(tǒng)

先來說說通用安全場(chǎng)景下的通用數(shù)據(jù)范式。柏拉圖學(xué)派認(rèn)為「我們感知的世界是洞穴里面墻壁上的投影」,現(xiàn)象世界都是理性世界的倒影,理性世界才是世界的本質(zhì)或本原?!付囱ū扔鳌挂馕吨嬖谝粋€(gè)外在的客觀的知識(shí)體系,不依賴人類的認(rèn)知而存在,人類探索知識(shí)的過程就是不斷從現(xiàn)實(shí)世界的現(xiàn)象觀察中,摸索、推測(cè)這個(gè)客觀知識(shí)體系的過程。亞里士多德進(jìn)一步奠定了本體論最初的思想,定義其為研究「存在」的科學(xué),是形而上學(xué)的基本分支。再到17世紀(jì),哲學(xué)家郭克蘭紐 (R. Goclenius) 首次提出「Ontology」一詞,再到20世紀(jì)60年代,機(jī)器智能領(lǐng)域開始引入Ontology的思想,之后又進(jìn)一步演化出語義網(wǎng)、知識(shí)圖譜等。

安全中的對(duì)抗本質(zhì)是知識(shí)的對(duì)抗,獲取知識(shí)更多的一方就能擁有更多的不對(duì)稱優(yōu)勢(shì)。無論是威脅分析、情報(bào)研判、攻擊檢測(cè)、事件溯源……本質(zhì)都是在探索知識(shí)的一個(gè)過程,這就是為什么Palantir的Gotham、IBM的I2、UEBA、各種威脅情報(bào)產(chǎn)品等等背后都不約而同或多或少借鑒了Ontology思想的根本原因。

而安全場(chǎng)景下的通用數(shù)據(jù)范式,也離不開Ontology。實(shí)體、屬性、行為、事件、關(guān)系,通過這五大元數(shù)據(jù)類型,可以構(gòu)建出所有安全場(chǎng)景中的數(shù)據(jù)架構(gòu)(無論是基礎(chǔ)安全、業(yè)務(wù)安全、數(shù)據(jù)安全、公共安全、城市安全……注:公共安全領(lǐng)域也單獨(dú)關(guān)注「軌跡」這一類元數(shù)據(jù)類型,因「軌跡」是一種特殊的「行為」數(shù)據(jù),故這里統(tǒng)一都合并成行為)。

· 實(shí)體:實(shí)體是客觀存在并可以與其他對(duì)象區(qū)分開來的對(duì)象;

· 屬性:屬性即為標(biāo)簽,是描述實(shí)體的表述,對(duì)實(shí)體抽象方面的刻畫;

· 行為:行為是實(shí)體在特定時(shí)間、空間下發(fā)出的動(dòng)作;

· 事件:事件是一定時(shí)空或條件下所認(rèn)識(shí)到的可識(shí)別的事情;

· 關(guān)系:關(guān)系是實(shí)體與其他實(shí)體之間的關(guān)聯(lián)程度與表述。

安全領(lǐng)域絕大多數(shù)沉淀的源數(shù)據(jù)都是行為類數(shù)據(jù),無論是網(wǎng)絡(luò)流量日志、主機(jī)命令日志、業(yè)務(wù)日志、攝像頭數(shù)據(jù)流、感知設(shè)備數(shù)據(jù)流……,這些都是行為數(shù)據(jù)。而實(shí)體、屬性、關(guān)系、事件的產(chǎn)生都是從行為數(shù)據(jù)中進(jìn)行萃取,通過對(duì)不同的行為數(shù)據(jù)運(yùn)行不同的 Function 來產(chǎn)生。

當(dāng) Function 是生成事件的時(shí)候,即為安全檢測(cè)問題,包括攻擊檢測(cè)、威脅檢測(cè)、風(fēng)險(xiǎn)檢測(cè)、異常檢測(cè)等等。絕大多數(shù)安全檢測(cè)問題的原子范式都可以抽象為Y=F(X),其中X是實(shí)體的行為數(shù)據(jù),Y是檢測(cè)結(jié)果,F(xiàn)是檢測(cè)模型。F可以是基于規(guī)則、基于策略、詞法語義、統(tǒng)計(jì)檢測(cè)、機(jī)器學(xué)習(xí)、深度神經(jīng)網(wǎng)絡(luò)等等,Y可以是正常、異常、攻擊或者未知。

更為復(fù)雜的檢測(cè)場(chǎng)景也都可以通過一個(gè)個(gè)基本F與各類算子組裝編排而成。每一種類型的F都有其優(yōu)勢(shì)和劣勢(shì),有不同的最優(yōu)使用場(chǎng)景,并不存在一種絕對(duì)先進(jìn)絕對(duì)領(lǐng)先的檢測(cè)技術(shù)。事實(shí)上算法在安全檢測(cè)中最應(yīng)該關(guān)注的不是去做檢測(cè)模型本身,而是能否自主化的根據(jù)各種場(chǎng)景生成最優(yōu)的檢測(cè)模型,并能自主化持續(xù)迭代檢測(cè)模型。

真正意義上的智能安全系統(tǒng)一定也是具備感知體系、認(rèn)知體系、決策體系和行動(dòng)體系,同時(shí)和環(huán)境形成反饋閉環(huán)。感知體系至少包括異常感知器、攻擊感知器、漏報(bào)感知器和誤報(bào)感知器?!府惓8兄鳌沟淖饔靡环矫媸潜3指兄肝粗奈粗沟哪芰?,另一方面是利用「通過定義正常來尋找異常」的思想來解「樣本空間之困」的問題。「攻擊感知器」的作用是在異常數(shù)據(jù)的基礎(chǔ)上去檢測(cè)攻擊,為了解「推理結(jié)果之困」的同時(shí),也大大縮減推理結(jié)果誤報(bào)漏報(bào)范圍?!嘎﹫?bào)感知器」和「誤報(bào)感知器」是為了去解「對(duì)抗衰減之困」。由此可以看出,整個(gè)行業(yè)內(nèi)大家最常關(guān)注的「用算法做攻擊檢測(cè)」,其實(shí)只是做了智能系統(tǒng)當(dāng)中感知體系里很小的一小步。

認(rèn)知體系沉淀的是跟安全相關(guān)的各種知識(shí),至少包括正常知識(shí)、攻擊知識(shí)、漏報(bào)知識(shí)、誤報(bào)知識(shí)。安全知識(shí)可以是基于專家規(guī)則、向量、模型、圖譜、自然語言等等,但無論是哪種形態(tài),一定都是精細(xì)化個(gè)性化的「千人千面」的知識(shí)。即對(duì)每一個(gè)受保護(hù)對(duì)象(如用戶、系統(tǒng)、資產(chǎn)、域名、數(shù)據(jù)等),沉淀形成適用于該受保護(hù)對(duì)象的一套感知異常、攻擊、漏報(bào)、誤報(bào)的知識(shí)。決策體系當(dāng)中至少包含對(duì)目標(biāo)任務(wù)的攔截策略、各類模型的上線下線等策略等,能自主決策哪些行為該攔截,哪些模型已經(jīng)衰減該重訓(xùn)練該替換等。

行動(dòng)體系當(dāng)中是各類作用于環(huán)境的動(dòng)作,如放行、阻斷、重訓(xùn)練、發(fā)布等等。一個(gè)真正的智能安全 instance 里面包了含成千上萬的 agent ,每一個(gè) agent 只作用于其對(duì)應(yīng)的受保護(hù)對(duì)象。最后,「問題空間之困」的解法是將開放的問題空間收斂為一個(gè)個(gè)小的閉合的風(fēng)險(xiǎn)場(chǎng)景,一方面靠的是四個(gè)感知器的級(jí)連形成的縱深檢測(cè),另一方面靠的就是「千人千面」的 agent 。

機(jī)器智能重塑新安全

安全領(lǐng)域發(fā)展至今,一直處于問題消滅得少概念卻造得不少的階段,亟待利用新技術(shù)去真正解決舊問題。機(jī)器智能在各個(gè)行業(yè)的炙手可熱,同樣也引起了安全行業(yè)的追捧。但今天安全領(lǐng)域的智能能力參差不一的同時(shí),又難以分辨其真假。以至于但凡用了一丁點(diǎn)算法的,都會(huì)宣稱「基于人工智能的XX安全系統(tǒng)」。同早年的智能駕駛領(lǐng)域一樣,今天的智能安全也亟需統(tǒng)一的分級(jí)標(biāo)準(zhǔn),用以明確不同級(jí)別智能安全技術(shù)之間的差異性?!赴踩谋举|(zhì)是智能體的對(duì)抗」,故根據(jù)自主對(duì)抗的程度,我們將智能安全劃分為L(zhǎng)0~5共如下6個(gè)級(jí)別:

· L0級(jí)別為「人工對(duì)抗」,即完全沒有任何機(jī)器智能的能力,完全由防御者人工雨攻擊者進(jìn)行對(duì)抗,對(duì)抗操作、感知判斷、任務(wù)支援全都由人工進(jìn)行。

· L1級(jí)別為「輔助對(duì)抗」,由機(jī)器完成已知攻擊的攻擊檢測(cè)和攻擊防御,其余的操作(如感知未知威脅、感知漏報(bào)、感知誤報(bào)等)由人類進(jìn)行。

· L2級(jí)別為「低度自主對(duì)抗」,由機(jī)器完成已知攻擊攻擊檢測(cè)和攻擊防御,并具備能感知未知威脅或誤報(bào)漏報(bào),其余由人類操作。

· L3級(jí)別為「中度自主對(duì)抗」,由機(jī)器完成所有的對(duì)抗操作(攻擊檢測(cè)、攻擊防御、主動(dòng)感知未知威脅、誤報(bào)漏報(bào)主動(dòng)感知、對(duì)抗升級(jí)自動(dòng)學(xué)習(xí)),根據(jù)系統(tǒng)要求,人類在適當(dāng)?shù)臅r(shí)候進(jìn)行應(yīng)答(中間過程必須需要人類參與)。

· L4級(jí)別為「高度自主對(duì)抗」,由機(jī)器完成所有的對(duì)抗操作,根據(jù)系統(tǒng)要求,人類不一定提供所有的應(yīng)答(中間過程非必須有人類參與),但只能作用于限定的特定的安全場(chǎng)景(如網(wǎng)絡(luò)域、主機(jī)域等)。

· L5級(jí)別為「完全自主對(duì)抗」,由機(jī)器完成所有的對(duì)抗操作,根據(jù)系統(tǒng)要求,人類不一定提供所有的應(yīng)答,不限定特定的場(chǎng)景,作用于全域范圍。

不同于智能駕駛技術(shù),不同的 Level 采用的是完全不同的技術(shù)棧,智能安全中的 L0~5 是需要逐步往上構(gòu)建往上發(fā)展。按照這個(gè)劃分,今天行業(yè)內(nèi)絕大部份的安全系統(tǒng)都是L1 的系統(tǒng),極少一部分能達(dá)到 L2,但還沒有真正意義上的L3及以上的智能安全系統(tǒng)。隨著級(jí)別往上走,能夠?qū)⒎烙邚牡退綄?duì)抗中逐步釋放出來,能更加關(guān)注高級(jí)對(duì)抗,L3是個(gè)分水嶺,有望在5年內(nèi)實(shí)現(xiàn)?!甘加趪褰K于安全」,機(jī)器智能在安全領(lǐng)域的終局是什么?網(wǎng)絡(luò)層、主機(jī)層、應(yīng)用層、業(yè)務(wù)層、數(shù)據(jù)層都分別有各自的智能實(shí)例,不同層的實(shí)例在線互聯(lián),實(shí)現(xiàn)真正意義的協(xié)同防御與情報(bào)共享。當(dāng)智能「Intelligence」和情報(bào)「Intelligence」融合的那一天,才是真正的「Intelligence Remodels New Security」。


 
 

上一篇:邊緣計(jì)算安全性的挑戰(zhàn)與好處

下一篇:2019年10月29日 聚銘安全速遞