越來越多的網(wǎng)絡(luò)攻擊背后,究竟發(fā)生了什么? |
來源:聚銘網(wǎng)絡(luò) 發(fā)布時(shí)間:2018-03-18 瀏覽次數(shù): |
信息來源:51cto
你一定已經(jīng)看過太多像是”某國(guó)指控它國(guó)對(duì)其發(fā)動(dòng)網(wǎng)絡(luò)攻擊”、“某公司遭遇嚴(yán)重信息泄露事件,數(shù)百萬用戶數(shù)據(jù)被盜”等涉及網(wǎng)絡(luò)攻擊事件的新聞。小編用數(shù)據(jù)分析嘗試對(duì)這場(chǎng)“陰謀”一探究竟。 什么是網(wǎng)絡(luò)攻擊 在今天的媒體上,你一定已經(jīng)看過太多像是”某國(guó)指控它國(guó)對(duì)其發(fā)動(dòng)網(wǎng)絡(luò)攻擊”,“某公司遭遇嚴(yán)重信息泄露事件,數(shù)百萬用戶數(shù)據(jù)被盜”等涉及網(wǎng)絡(luò)攻擊事件的新聞。如果倒霉一點(diǎn),你還可能就是這種惡性事件的受害者,并可能有一天打開電腦,突然發(fā)現(xiàn)自己眼前的屏幕被鋪滿了這樣的字句: “你的信息已被加密,想要恢復(fù)的話,交錢吧。” 這些都是網(wǎng)絡(luò)攻擊事件——旨在盜竊錢財(cái)、金融數(shù)據(jù)、知識(shí)產(chǎn)權(quán)或干擾某一目標(biāo)公司的日常經(jīng)營(yíng)的惡意網(wǎng)絡(luò)行動(dòng),它們絕大多數(shù)時(shí)候是由犯罪分子發(fā)動(dòng)的。國(guó)家有時(shí)也會(huì)成為攻擊目標(biāo),一些所謂的“政府支持的網(wǎng)絡(luò)攻擊”會(huì)嘗試竊取宿敵國(guó)家的機(jī)密文件,或者僅僅是為了給對(duì)方發(fā)出一個(gè)警告信號(hào)。 據(jù)粗略統(tǒng)計(jì),2015年全球因網(wǎng)絡(luò)攻擊造成的損失達(dá)到5000億美元。是谷歌全年900億美元的現(xiàn)金流的5倍還多。 在這篇文章中,我們希望通過數(shù)據(jù)分析的方式,來探究這些造成巨額損失的網(wǎng)絡(luò)犯罪的特點(diǎn),進(jìn)一步了解它們的行為方式以及帶來的影響。 我使用Scrapy對(duì)網(wǎng)絡(luò)攻擊事件庫網(wǎng)站Hackmageddon進(jìn)行爬蟲爬取,以收集可供分析的信息。Hackmageddon從2011年開始記載各種網(wǎng)絡(luò)攻擊事件,每15天會(huì)更新一個(gè)統(tǒng)計(jì)表。我的爬蟲對(duì)網(wǎng)站的目錄和次級(jí)目錄進(jìn)行分析,不過在過程中我了解到Scrapy不如Selenium那樣,能與瀏覽器有很好的自動(dòng)化的互動(dòng)。 我從2011年網(wǎng)站的第一張表格開始,在過程中遇到不少挑戰(zhàn)。一個(gè)問題是,它無法自動(dòng)從一個(gè)表格跳到下一個(gè)。這個(gè)網(wǎng)站每個(gè)頁面底部有翻頁按鈕,我讓我的爬蟲對(duì)這個(gè)按鈕的鏈接發(fā)起fetch請(qǐng)求,以進(jìn)入下一頁。另一個(gè)問題是,Hackmageddon每年都改變它的表格結(jié)構(gòu)。所以我使用了控制流來解決這個(gè)問題,最終我?guī)缀跖廊×巳烤W(wǎng)站,爬取的信息包括日期、發(fā)起者、目標(biāo)、描述、攻擊類型、目標(biāo)等級(jí)以及國(guó)別。 (圖片說明:項(xiàng)目獲取的部分?jǐn)?shù)據(jù)) 基本數(shù)據(jù)展示 在分析數(shù)據(jù)前要先清洗數(shù)據(jù)。如我所料,爬取的數(shù)據(jù)有很多缺失。由于許多網(wǎng)絡(luò)攻擊的動(dòng)機(jī)和黑客身份經(jīng)常是無法知曉的,這部分的數(shù)據(jù)缺失在我預(yù)料中。我使用Python的Pandas library來進(jìn)行數(shù)據(jù)清洗。在清理數(shù)據(jù)之后我開始進(jìn)行可視化。最開始的簡(jiǎn)單分析揭示了一些有趣的現(xiàn)象。美國(guó)是受攻擊最多的國(guó)家,排在第二到第四位是“>1”,英國(guó),印度?!?gt;1”是指“同一個(gè)黑客攻擊了一個(gè)以上國(guó)家”的情況。 我爬取數(shù)據(jù)的目的之一,就是想知道這些攻擊行動(dòng)背后的動(dòng)機(jī)。下圖展示了攻擊目標(biāo)中不同類型的組織所占比例。政府部門和個(gè)人占據(jù)前二位置,接下來是教育機(jī)構(gòu)。 接下來的圖表展示了網(wǎng)絡(luò)攻擊背后的動(dòng)機(jī)。網(wǎng)絡(luò)犯罪占比最多,達(dá)71%。網(wǎng)絡(luò)犯罪針的典型場(chǎng)景是為了獲取網(wǎng)絡(luò)權(quán)限。電腦被用作武器,來發(fā)動(dòng)像DoS攻擊等犯罪活動(dòng)。 網(wǎng)絡(luò)間諜(Cyber Espionage)的目的則是非法獲取涉密信息,尤其是政府或其他組織的保密信息。 網(wǎng)絡(luò)戰(zhàn)爭(zhēng)的目的則是破壞一個(gè)國(guó)家或組織,尤其是出于軍事或策略性的目的而刻意攻擊信息系統(tǒng)。 Hacktivism就更加寬泛,它指的是未經(jīng)授權(quán)進(jìn)入電腦系統(tǒng),并展開各種侵?jǐn)_行為,從而達(dá)到某種政治或社會(huì)目的的行為。 接下來的問題是,網(wǎng)絡(luò)攻擊都包括哪些類型,以及誰是最臭名昭著的黑客。 下圖展示了網(wǎng)絡(luò)攻擊的類型。劫持賬戶、定向攻擊、DDos和惡意軟件占據(jù)前四。 接下來的圖告訴我們誰是最“有名”的黑客。排在第一位的匿名者組(Anoynymous)比第二名的OurMine多發(fā)動(dòng)了75次網(wǎng)絡(luò)攻擊。 匿名者組織因其一系列針對(duì)政府、宗教團(tuán)體及公司網(wǎng)站的DDoS攻擊而出名。他們也被認(rèn)為是網(wǎng)絡(luò)世界的羅賓漢,2012年時(shí)代周刊形容匿名者是當(dāng)年的“百大影響人物”。 OurMine大多數(shù)時(shí)候會(huì)將目標(biāo)對(duì)準(zhǔn)明星。被他們黑掉過推特賬號(hào)的明星包括維基百科聯(lián)合創(chuàng)始人吉米威爾斯、Pokémon Go的設(shè)計(jì)者約翰漢克、推特CEO杰克多西、谷歌CEO皮查伊以及Facebook的扎克伯格。 接下來的圖表顯示了各個(gè)黑客最常用的攻擊方式。匿名者進(jìn)行了30次DDoS,OurMine發(fā)動(dòng)了20次賬戶劫持。 下圖顯示,一個(gè)名為Guccifer 2.0的黑客對(duì)美國(guó)的政黨發(fā)動(dòng)了9次攻擊,朝鮮大多數(shù)時(shí)候在對(duì)韓國(guó)發(fā)動(dòng)網(wǎng)絡(luò)攻擊。Eggfather則將在線論壇作為攻擊對(duì)象,并將獲取的用戶信息和密碼轉(zhuǎn)儲(chǔ)(Dump)。 對(duì)非結(jié)構(gòu)化語言的文本挖掘 在爬取的數(shù)據(jù)中,有很多非結(jié)構(gòu)化數(shù)據(jù)。我決定對(duì)它們進(jìn)行文本挖掘。我使用了Python的Scikit-learn包用于機(jī)器學(xué)習(xí),NLTK包用于自然語義處理。 首先是詞語切分(Tokenization)。Token是指符號(hào),包括單詞、詞組乃至一句話。詞語切分(Tokenization)就是把一段話分解成單個(gè)的單詞、詞組和符號(hào)等要素。在這一過程中,標(biāo)點(diǎn)符號(hào)等標(biāo)記會(huì)被舍棄。 其次是TF-IDF向量化。TF意思是詞頻(Term Frequency),IDF意思是逆向文件頻率(Inverse Document Frequency),它們用來反映一個(gè)詞在一個(gè)文檔中的重要性。TF-IDF值隨著一個(gè)單詞在文檔中出現(xiàn)次數(shù)的增加而形成比例增長(zhǎng),但同時(shí)與這個(gè)單詞在整個(gè)語料庫中出現(xiàn)的頻率成反比。因?yàn)檫@樣可以避免那些在整體上,本來就比其他單詞更頻繁出現(xiàn)的單詞帶來的影響。它的輸出值是一個(gè)向量。 接下來余弦相似性。余弦相似性通過測(cè)量?jī)蓚€(gè)向量的夾角的余弦值來度量它們之間的相似性。 兩個(gè)向量有相同的指向時(shí),余弦相似度的值為1;兩個(gè)向量夾角為90°時(shí),余弦相似度的值為0;兩個(gè)向量指向完全相反的方向時(shí),余弦相似度的值為-1。余弦相似度通常用于正空間,因此給出的值為0到1之間。 然后我還使用了多維標(biāo)度(Multidimensional Scaling)。多維標(biāo)度的目的是對(duì)一組項(xiàng)目的接近性(比如相似性、距離)的范式進(jìn)行可視化的程序。我將各類網(wǎng)絡(luò)攻擊事件放在圖中,一些彼此相似的攻擊事件會(huì)離得更近,反之亦反。這是一種非線性降維的方法。 最后是K-平均算法(K-means Clustering)。K-平均聚類的目的是:把n個(gè)點(diǎn)劃分到k個(gè)聚類中,使得每個(gè)點(diǎn)都屬于離它最近的均值(此即聚類中心)對(duì)應(yīng)的聚類,以之作為聚類的標(biāo)準(zhǔn)。這需要將數(shù)據(jù)聚類成k個(gè)組,k是預(yù)先定義好的,隨機(jī)選擇k個(gè)點(diǎn)作為聚類中心,然后依據(jù)歐氏距離函數(shù)來將各個(gè)觀察目標(biāo)放置在距離它們最近的中心附近。 (圖片說明:原圖為嵌入式的D3交互) 在我用D3做的可視化交互圖中,鼠標(biāo)懸浮于每個(gè)點(diǎn)上時(shí)就會(huì)顯示被攻擊的組織名稱,右下角是圖說,顯示了每個(gè)聚類中最常出現(xiàn)的詞組。一共有12個(gè)不同顏色標(biāo)出的聚類。 比如,第一組海綠色的聚類,在圖說中標(biāo)出的詞組為“轉(zhuǎn)儲(chǔ)、密碼、用戶名、記錄”。 在這組聚類中,各個(gè)被攻擊對(duì)象彼此相似,大多數(shù)是網(wǎng)站。黑客往往將它們用戶的用戶名、密碼等進(jìn)行了轉(zhuǎn)儲(chǔ)。 根據(jù)上面的可視化圖表,政府組織往往會(huì)歸類到7、8或11聚類,因?yàn)檎写罅可婷軝n案而黑客總希望將之偷走或公之于眾。醫(yī)療機(jī)構(gòu)則多歸于6組,黑客希望獲取用戶數(shù)據(jù)和記錄。金融機(jī)構(gòu)往往在12組,因?yàn)槠鋽?shù)據(jù)庫也是保密的。在線游戲網(wǎng)站更經(jīng)常受到DDoS攻擊。 受攻擊最多的是政府組織。Guccifer2.0涉及2016年大選的網(wǎng)絡(luò)攻擊行動(dòng)。 賬戶劫持是最常見的攻擊類型。 “泄漏、要求、數(shù)據(jù)庫、匿名者”的這組聚類有最多的點(diǎn),這說明,大多數(shù)攻擊泄漏了信息,黑進(jìn)了數(shù)據(jù)庫,而匿名者發(fā)動(dòng)了最多的網(wǎng)絡(luò)攻擊。 |