時間:2022-04-03 02:52:37
序論:好文章的創作是一個不斷探索和完善的過程,我們為您推薦十篇數據挖掘技術研究范例,希望它們能助您一臂之力,提升您的閱讀品質,帶來更深刻的閱讀感受。
隨著數據采集技術的成熟和普及,大量的空間數據通過遙感、地理信息系統、多媒體系統、醫學和衛星圖像等多種形式匯集成龐大而豐富的信息源。面對龐雜、繁多的數據類型,空間數據挖掘技術應運而生,并在地理信息系統、遙感勘測、圖像處理、交通管理、環境研究等領域得到廣泛應用。
1 空間數據挖掘研究概述
空間數據挖掘(spatial data mining,簡稱sdm),是指從空間數據庫中提取用戶感興趣的空間模式、普遍關系、數據特征的過程。空間數據挖掘技術綜合數據挖掘技術與空間數據庫技術,可用于對空間數據的理解、空間關系和空間與非空間關系的發現、空間知識庫的構造以及空間數據庫的重組和查詢的優化等,其根本目標是把大量的原始數據轉換成有價值的知識,發現大量的地學信息中所隱含的規則。
空間數據挖掘是計算機技術、數據庫應用技術和管理決策支持技術等多學科交叉發展的新興邊緣學科,一般來說,空間數據挖掘可分成空間分類、空間聚類、空間趨勢分析和空間關聯規則四類。空間分類的目的是在空間數據庫對象的空間屬性和非空間屬性之間發現分類規則,是近年來空間數據挖掘領域中比較活躍的一個方向,常用的方法是決策樹。空間聚類是在一個比較大的多維數據集中根據距離的度量找出簇或稠密區域,目前提出的空間聚類方法有基于分割的方法、基于層次的方法、基于密度的方法和基于棚格的方法。空間趨勢分析指離開一個給定的起始對象時非空間屬性的變化情況,例如,當離城市中心越來越遠時經濟形勢的變化趨勢,空間趨勢分析需要使用回歸和相關的分析方法。空間關聯規則是指空間鄰接圖中對象之間的關聯,空間關聯挖掘多采用逐步求精的優化思想,即首先用一種快速的算法粗略地對初始空間數據庫進行一次挖掘,然后再在裁剪過的數據庫上用代價高的算法進行進一步精化挖掘。
空間數據挖掘過程一般可分為數據篩選(消除原始數據的噪聲或不一致數據)、數據集成(將多種數據源組合在一起)、數據選擇(根據用戶的要求從空間數據庫中提取與空間數據挖掘相關的數據)、數據變換(將數據統一成適合挖掘的形式)、空間數據挖掘(運用選定的知識發現算法,從數據中提取用戶所需的知識)、模式評估(根據某種興趣度度量并識別表示知識的真正有趣的模式),知識表示(使用可視化技術和知識表示技術,向用戶提供挖掘的知識)等階段(見圖1)。空間數據挖掘實際上是一個“人引導機器,機器幫助人”的交互理解數據的過程。
2 空間數據挖掘在gis中的應用
空間數據挖掘技術與地理信息系統(gis)的結合具有非常廣泛的應用空間。數據挖掘與gis集成具有三種模式:其一為松散耦合式,也稱外部空間數據挖掘模式,這種模式基本上將gis當作一個空間數據庫看待,在g is環境外部借助其它軟件或計算機語言進行空間數據挖掘,與gis之間采用數據通訊的方式聯系。其二為嵌入式,又稱內部空間數據挖掘模式,即在gis中將空間數據挖掘技術融合到空間分析功能中去。第三為混合型空間模型法,是前兩種方法的結合,即盡可能利用gis提供的功能,最大限度的減少用戶自行開發的工作量和難度,又可以保持外部空間數據挖掘模式的靈活性。
利用空間數據挖掘技術可以從空間數據庫中發現如下幾種主要類型的知識:普遍的幾何知識、空間分布規律、空間關聯規律、空間聚類規則、空間特征規則、空間區分規則,空間演變規則、面向對象的知識。目前,這些知識已比較成熟地應用于軍事、土地、電力、電信、石油和天然氣、城市規劃、交通運輸、環境監測和保護、110和1 20快速反應系統等資源管理和城市管理領域。在市場分析、企業客戶關系管理、銀行保險、人口統計、房地產開發、個人位置服務等領域也正得到廣泛關注與應用,實際上,它正在深入到人們工作和生活的各個方面。
3 空間數據挖掘面臨的問題
(1) 多數空間數據挖掘算法是由一般的數據挖掘算法移植而來,并沒有考慮空間數據存儲、處理及空間數據本身的特點。空間數據不同于關系數據庫中的數據,它有其特有的空間數據訪問方法,因而傳統的數據挖掘技術往往不能很好地分析復雜的空間現象和空間對象。
(2) 空間數據挖掘算法的效率不高,發現模式不精練。面對海量的數據庫系統,在空間數據挖掘過程中出現不確定性、錯誤模式的可能性和待解決問題的維數都很大,不僅增大了算法的搜索空間,也增加了盲目搜索的可能性。因而必須利用領域知識發現、去除與任務無關的數據,有效地降低問題的維數,設計出更有效的知識發現算法。
(3) 沒有公認的標準化空間數據挖掘查詢語言。數據庫技術飛速發展的原因之一就是數據庫查詢語言的不斷完善和發展,因此,要不斷完善和發展空間數據挖掘就必須發展空間數據挖掘查詢語言。為高效的空間數據挖掘奠定基礎。
(4) 空間數據挖掘知識發現系統交互性不強,在知識發現過程中很難充分有效地利用領域專家知識,用戶不能很好掌控空間數據挖掘過程。
(5) 空間數據挖掘方法和任務單一,基本上都是針對某個特定的問題,因而能夠發現的知識有限。
(6) 空間數據挖掘與其他系統的集成不夠,忽視了gis在空間知識發現過程中的作用。一個方法和功能單一的空間數據挖掘系統的適用范圍必然受到很多限制,目前開發的知識系統僅局限于數據庫領域,如果要在更廣闊的領域發現知識,知識發現系統就應該是數據庫、知識庫、專家系統、決策支持系統、可視化工具、網絡等多項技術集成的系統。
上述問題使得從空間數據庫中提取知識比從傳統的關系數據庫中提取知識更為困難,這給空間數據挖掘研究帶來了挑戰。因此,空間數據挖掘在未來的發展中,還有很多理論和方法有待深入研究。
4 空間數據挖掘的發展趨勢
(1)空間數據挖掘算法和技術的研究。空間關聯規則挖掘算法、時間序列挖掘技術、空間同位算法、空間分類技術、空間離群算法等是空間數據挖掘研究的熱點,同時提高空間數據挖掘算法的效率也很重要。
(2) 多源空間數據的預處理。空間數據內容包括數字線劃數據、影像數據、數字高程模型和地物的屬性數據,由于其本身的復雜性與數據采集的困難,空間數據中不可避免地存在著空缺值、噪聲數據及不一致數據,多源空間數據的預處理就顯得格外重要。
隨著數據采集技術的成熟和普及,大量的空間數據通過遙感、地理信息系統、多媒體系統、醫學和衛星圖像等多種形式匯集成龐大而豐富的信息源。面對龐雜、繁多的數據類型,空間數據挖掘技術應運而生,并在地理信息系統、遙感勘測、圖像處理、交通管理、環境研究等領域得到廣泛應用。
1 空間數據挖掘研究概述
空間數據挖掘(spatial Data Mining,簡稱SDM),是指從空間數據庫中提取用戶感興趣的空間模式、普遍關系、數據特征的過程。空間數據挖掘技術綜合數據挖掘技術與空間數據庫技術,可用于對空間數據的理解、空間關系和空間與非空間關系的發現、空間知識庫的構造以及空間數據庫的重組和查詢的優化等,其根本目標是把大量的原始數據轉換成有價值的知識,發現大量的地學信息中所隱含的規則。
空間數據挖掘是計算機技術、數據庫應用技術和管理決策支持技術等多學科交叉發展的新興邊緣學科,一般來說,空間數據挖掘可分成空間分類、空間聚類、空間趨勢分析和空間關聯規則四類。空間分類的目的是在空間數據庫對象的空間屬性和非空間屬性之間發現分類規則,是近年來空間數據挖掘領域中比較活躍的一個方向,常用的方法是決策樹。空間聚類是在一個比較大的多維數據集中根據距離的度量找出簇或稠密區域,目前提出的空間聚類方法有基于分割的方法、基于層次的方法、基于密度的方法和基于棚格的方法。空間趨勢分析指離開一個給定的起始對象時非空間屬性的變化情況,例如,當離城市中心越來越遠時經濟形勢的變化趨勢,空間趨勢分析需要使用回歸和相關的分析方法。空間關聯規則是指空間鄰接圖中對象之間的關聯,空間關聯挖掘多采用逐步求精的優化思想,即首先用一種快速的算法粗略地對初始空間數據庫進行一次挖掘,然后再在裁剪過的數據庫上用代價高的算法進行進一步精化挖掘。
空間數據挖掘過程一般可分為數據篩選(消除原始數據的噪聲或不一致數據)、數據集成(將多種數據源組合在一起)、數據選擇(根據用戶的要求從空間數據庫中提取與空間數據挖掘相關的數據)、數據變換(將數據統一成適合挖掘的形式)、空間數據挖掘(運用選定的知識發現算法,從數據中提取用戶所需的知識)、模式評估(根據某種興趣度度量并識別表示知識的真正有趣的模式),知識表示(使用可視化技術和知識表示技術,向用戶提供挖掘的知識)等階段(見圖1)。空間數據挖掘實際上是一個“人引導機器,機器幫助人”的交互理解數據的過程。
2 空間數據挖掘在GIS中的應用
空間數據挖掘技術與地理信息系統(GIS)的結合具有非常廣泛的應用空間。數據挖掘與GIs集成具有三種模式:其一為松散耦合式,也稱外部空間數據挖掘模式,這種模式基本上將GIS當作一個空間數據庫看待,在G IS環境外部借助其它軟件或計算機語言進行空間數據挖掘,與GIS之間采用數據通訊的方式聯系。其二為嵌入式,又稱內部空間數據挖掘模式,即在GIs中將空間數據挖掘技術融合到空間分析功能中去。第三為混合型空間模型法,是前兩種方法的結合,即盡可能利用GIS提供的功能,最大限度的減少用戶自行開發的工作量和難度,又可以保持外部空間數據挖掘模式的靈活性。
利用空間數據挖掘技術可以從空間數據庫中發現如下幾種主要類型的知識:普遍的幾何知識、空間分布規律、空間關聯規律、空間聚類規則、空間特征規則、空間區分規則,空間演變規則、面向對象的知識。目前,這些知識已比較成熟地應用于軍事、土地、電力、電信、石油和天然氣、城市規劃、交通運輸、環境監測和保護、110和1 20快速反應系統等資源管理和城市管理領域。在市場分析、企業客戶關系管理、銀行保險、人口統計、房地產開發、個人位置服務等領域也正得到廣泛關注與應用,實際上,它正在深入到人們工作和生活的各個方面。
3 空間數據挖掘面臨的問題
(1) 多數空間數據挖掘算法是由一般的數據挖掘算法移植而來,并沒有考慮空間數據存儲、 處理及空間數據本身的特點。空間數據不同于關系數據庫中的數據,它有其特有的空間數據訪問方法,因而傳統的數據挖掘技術往往不能很好地分析復雜的空間現象和空間對象。
(2) 空間數據挖掘算法的效率不高,發現模式不精練。面對海量的數據庫系統,在空間數據挖掘過程中出現不確定性、錯誤模式的可能性和待解決問題的維數都很大,不僅增大了算法的搜索空間,也增加了盲目搜索的可能性。因而必須利用領域知識發現、去除與任務無關的數據,有效地降低問題的維數,設計出更有效的知識發現算法。
(3) 沒有公認的標準化空間數據挖掘查詢語言。數據庫技術飛速發展的原因之一就是數據庫查詢語言的不斷完善和發展,因此,要不斷完善和發展空間數據挖掘就必須發展空間數據挖掘查詢語言。為高效的空間數據挖掘奠定基礎。
(4) 空間數據挖掘知識發現系統交互性不強,在知識發現過程中很難充分有效地利用領域專家知識,用戶不能很好掌控空間數據挖掘過程。
(5) 空間數據挖掘方法和任務單一,基本上都是針對某個特定的問題,因而能夠發現的知識有限。
(6) 空間數據挖掘與其他系統的集成不夠,忽視了GIS在空間知識發現過程中的作用。一個方法和功能單一的空間數據挖掘系統的適用范圍必然受到很多限制,目前開發的知識系統僅局限于數據庫領域,如果要在更廣闊的領域發現知識,知識發現系統就應該是數據庫、知識庫、專家系統、決策支持系統、可視化工具、網絡等多項技術集成的系統。
上述問題使得從空間數據庫中提取知識比從傳統的關系數據庫中提取知識更為困難,這給空間數據挖掘研究帶來了挑戰。因此,空間數據挖掘在未來的發展中,還有很多理論和方法有待深入研究。
4 空間數據挖掘的發展趨勢
(1)空間數據挖掘算法和技術的研究。空間關聯規則挖掘算法、時間序列挖掘技術、空間同位算法、空間分類技術、空間離群算法等是空間數據挖掘研究的熱點,同時提高空間數據挖掘算法的效率也很重要。
(2) 多源空間數據的預處理。空間數據內容包括數字線劃數據、影像數據、數字高程模型和地物的屬性數據,由于其本身的復雜性與數據采集的困難,空間數據中不可避免地存在著空缺值、噪聲數據及不一致數據,多源空間數據的預處理就顯得格外重要。
關鍵詞:
大數據大數據分析大數據挖掘可視分析
隨著云計算、物聯網和互聯網等技術的快速發展,各種移動設備、傳感網絡、電商網站、社交網絡時時刻刻都在生成各種各樣類型的數據,大數據時代已經到來。大數據即數據體量巨大、數據類型多樣、數據的質量低、處理速度迅速的數據。大數據分析的核心是從大量數據中獲取有價值的內容,更準確、更深層次的知識,而不是對數據簡單的統計和分析。
1大數據的定義與特征
大數據已經進入了我們每個人的生活,各行各業都在討論如何發展和運用大數據,那么什么是大數據,大數據的特征是什么?大數據是指所涉及的數據規模巨大到無法通過目前主流的軟件工具在合理時間內擷取、管理、處理、挖掘這些數據,并整理成為企業經營決策有用的信息。IBM提出大數據的4V特征,得到了業界的廣泛認可。第一,數量(Volume),即數據巨大,從TB級別躍升到PB級別;第二,多樣性(Variety),即數據類型繁多,不僅包括傳統的格式化數據,還包含來自互聯網的大量視頻、圖片、位置和日志等;第三,速度(Velocity),即處理速度快;第四,價值性(Veracity),即追求高質量的數據。大數據具有4V特征,給人們帶來了新的機遇與挑戰。
2大數據挖掘與分析的意義
在大數據處理的過程中,數據分析是核心,因為大數據的價值全部在數據分析過程中產生。互聯網、硬件等技術迅猛發展,加深了人們對數據分析的需求。如果大數據是一種產業,賺錢的重點在于如何提高數據的分析能力,通過分析發現數據的更多潛在的價值。在大數據時代,數據分析是數據價值發現的最重要環節,也是決策的決定性元素。傳統的數據分析主要針對結構化數據,且已經形成一整套非常有效果的分析體系。但是在大數據時代,半結構化和非結構化數據量的快速增長,給傳統的分析技術帶來了巨大的挑戰和沖擊。大數據分析于傳統數據分析有哪些區別呢?
3大數據挖掘與分析的關鍵技術
大數據挖掘與分析的關鍵技術一般包括:大數據采集、大數據預處理、大數據存儲及管理、大數據實時處理、大數據可視化和應用等。
3.1大數據采集技術大數據采集一般分為大數據智能感知層和基礎支撐層。智能感知層重點攻克針對大數據源的智能識別、感知、適配、傳輸、接入等技術。基礎支撐層重點攻克提供大數據服務平臺所需的虛擬服務器、數據庫及物聯網絡資源等處理技術。
3.2大數據預處理大數據預處理是指在大數據挖掘前期對大數據進行的一些提前處理。預處理包括數據清理、數據集成、數據變換和數據歸約等幾種方法(表1)。大數據的特點是數據量大,但并沒有增加數據價值,相反增多了數據噪音,有很多數據放在存儲器里就沒再用過。數據量的突然增加,各種媒體數據被任意碎片化。在應對處理大數據的技術挑戰中,大數據的降噪與清洗技術值得高度重視。早期主要是結構化數據的挖掘,可從數據庫中發現時序知識、關聯知識和分類知識等。在大數據時代,數據庫已經不能滿足人們的需求了。大數據中數據類型繁多,我們進入了一個非結構化數據挖掘時代。因此,非結構化數據模型是大數據預處理的重要研究方向。
3.3大數據管理大數據不斷地從復雜的應用系統中產生,并且將會以更多、更復雜、更多樣化的方式持續增長。多樣化的物聯網傳感設備不斷地感知著海量的具有不同格式的數據。物聯網系統中大數據的復雜化和格式多樣化,決定了物聯網系統中針對大數據的應用場景和服務類型的多樣化,從而要求物聯網大數據管理系統必須采用特定技術來處理各種格式的大數據,而現在針對特定數據類型和業務的系統已經無法滿足多樣化需求,因此,設計新的具有可擴展性的系統架構已經成為大數據管理的研究熱點。
3.4大數據實時處理根據大數據速度快的特點,時間越長,數據的價值也在不斷衰減,因此很多領域需要對數據進行實時處理。大數據時代,伴隨著各種應用場景的數據分析從離線轉向了在線,實時處理的需求不斷提高。大數據的實時處理面臨著一些新的挑戰,主要體現在數據處理模式和算法的選擇及改進。
3.5大數據可視分析大數據可視分析是指在大數據自動挖掘的同時,融合計算機的計算能力和人的認知能力,利用人機交互技術和可視化界面,獲得大規模復雜數據集的分析能力。在大數據時代,大數據可視化是必須盡快解決的關鍵問題,為大數據服務的研究指明了方向。
4結語
傳統數據處理方法已經不能滿足大數據挖掘與分析的需求。近年來,大數據挖掘與分析領域已經出現了很多新技術,并成為大數據采集、存儲、處理和呈現的堅實基礎。但是對大數據分析的價值尚缺少深入的理解,大數據分析中的很多重要技術還不成熟,還有很多其他關鍵技術難題需要去繼續研究。
參考文獻
[1]韓晶.大數據服務若干關鍵技術研究[D].北京郵電大學博士學位論文,2013.
[2]程學旗,靳小龍,王元卓等.大數據系統和分析技術綜述[J].軟件學報,2014,25(09):1889-1908.
[3]任磊,杜一,馬帥等.大數據可視分析綜述[J].軟件學報,2014,25(09):1909-1936.
中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2015)09-0016-02
Abstract: Web based data mining is a hot research direction of Webpage mining resources using the technology of data mining, this paper analyses the Webpage the concept of data mining, classification, mining principle and related technology
Key words: data mining; web data mining; classification; mining technology
互聯網的不斷得到發展,網頁中數據量迅速增加,如何從這么多的網頁信息中獲取有用的數據已經成功數據挖掘領域的一個熱門的研究方向,數據挖掘是近幾年來迅速發展的進行信息獲取的一個重要渠道, 尤其大量運用與社會和科學的方方面面。一般來說數據挖掘主要利用計算機和相關的信息技術,把有用的數據從海量的網頁數據中挖掘出來,為我們從事其他方面的運用。基于網頁的數據挖掘是一門技術的綜合研究方向,它的思想是從Internet中提取網頁中的大量數據,也就是從網頁的數據結構中發現隱含的模式[1]。
1 數據挖掘的特點
1)數據挖掘的特點之一就是半結構化,這個特別算是網頁數據挖掘的最大特點[2],因為網頁上的數據分布沒有規律,非常復雜,沒有任何固定的模式能夠很好的描述它的特點。因此稱它為半結構化。
2)數據挖掘的特點之二是網頁中的數據比較分散,這些網頁數據存在世界各地的很多服務器上,因此是一種數據源分散的結構。
3) 數據挖掘的特點之三是數據庫的結構存在不同,因為互聯網上的一個網站可以存為一個數據源,它們的結構互不相關,異構性特點比較強,由它們構成的數據庫自然而然也屬于一種異構的形式。
4) 數據挖掘的特點之四是動態性強,網站上的數據資源是不斷更新變化的,找不到固定的形式,網站與網站的直接訪問的鏈接是形式變化的。
2 數據挖掘過程
基于Web的數據挖掘與傳統的數據倉庫相比,網頁上的信息是半結構化的或非結構化、不容易識別、變化的,正因為它這些特點,要想在網頁上開展直接數據挖掘,可謂很費功夫,就要借助一些方法來預處理數據,才能方便挖掘。通常進行網頁數據挖掘可分為的如圖1所示的四個步奏。
1)數據源的獲取,在網站的各個頁面中獲取數據信息,組成目標數據信息源,再從這些信息源中找到相關有用的數據。這個過程的目的就是從像網頁文檔、email、網頁記錄、新聞信息、各種網站數據庫中挖掘出有用的數據。
2)把獲取的數據進行加工處理,網頁數據挖掘的好壞直接與數據源的好壞相關,如果獲取的數據源有大量的垃圾數據,對數據挖掘過程有很大的影響,因此挖掘之前需要對數據源進行篩選,消除那些雜音數據,保證數據源的純正,然后將這些已經過濾的數據再次裝入數據庫中進行下一步的分析。
3)對數據經過提純處理后,進入模式尋找階段,這需要各種挖掘算法分析、挖掘大量的、隱藏的、潛在的、可被利用的數據模式。在挖掘的過程中,經常會使用到一些相關的方法,例如聚類分析法、關聯規則發等挖掘方法。
4)在對數據模式發現后,需要對這些模式進行挖掘,也就是知識的轉換過程,把提取到的模式再進行信息轉化,轉化為我們能夠理解,識別的知識,為我們的決策需要提供有用的參考源。
3 數據挖掘分類
在進行數據挖掘的時候,針對不同的數據結構,會采用不同的挖掘方法,這樣才能有效、合理挖掘到有用的數據,不能籠統采用一種方法,這樣挖掘的數據相應的雜音數據就比較多。大體上,我們把數據挖掘分為三種類型,即:網頁使用挖掘、網頁結構挖掘、網頁內容挖 [3],如圖2所示。
4 數據挖掘相關技術
互聯網的發展促進網頁數據挖掘得到越來越多的應用,于是針對網頁挖掘的各種方法和技術不斷出現,就這些相關的技術[4],下面分別一一介紹。
4.1 網頁內容挖掘
4.1.1 網頁文檔挖掘
網頁文檔挖掘就是分析網站上存在的數量很多的網頁文檔采用聚類、分類、關聯處理等多種方法進行分析,然后根據網頁文檔進行預測。在Internet的文檔數據一般都是以html格式的網頁文檔出現,要采集這些網頁文檔數據,然后把這些文檔數據變成記錄的形式存貯進數據庫,把這些記錄用來表示文檔內容特征,為后續的分析提供保障。表示文檔的特征形式通常使用文檔特征向量形式, 由于文檔的特征表示中存在一些缺陷,文檔的特征向量的維數非常高,對數據分析不利,因此一個好特征表示主要集中在特征集的選取方面,特征集需求好,對數據進行分析的時間就相對少,如果選取不好,將要花很長時間去等待。因此特征集選取好壞成為數據分析額關鍵。一旦特征集選擇好后,就可以采用聚類、分類、數據關聯等方法來進行提取信息,然后對這些提取的信息進行評價分析,找到有用的信息,為后續的決策工作提供指導。
4.1.2 挖掘網頁多媒體
在進行網頁多媒體挖掘主要關注的是特征提取,這點網頁內容挖掘不一樣。在網頁多媒體挖掘中提取的多媒體特征主要關注視頻或者圖片的顏色特征、鍵值、形式以及它們的URL,最后根據這些特征進行數據挖掘。
4.2挖掘網頁結構
挖掘網站空間中的知識,不僅關注包含在各個網頁內容中的信息數據,同時也關注網站與網站之間的網頁結構和超級鏈接結構,這也是非常重要的。進行網頁結構挖掘主要分析網頁結構之間的特征,利用聚類和分類來分析頁面結構特征,找到特征模式。
4.3 網頁使用挖掘
網頁使用挖掘也是挖掘網頁記錄,實際就是挖掘用戶在網頁上留下的相關的記錄信息,網頁使用挖掘就是分析用戶留言記錄的相關信息,通過這些信息時報未來需要發展的用戶; 網頁使用挖掘通常使用擴展有向樹模型分析用戶的各種瀏覽行為習慣,挖掘出用戶的日志信息,以及用戶關心、關注的興趣領域,把這些信息存放在知識庫中,未下一步的分析工作提供數據, 對網頁使用日志挖掘可分為三個步驟:日志預分析、分析方法處理、 模式分析階段。在網頁使用分析中,關注網頁服務器記錄的相關信息,這些信息主要包括用戶訪問的時間、URL、IP、使用方法、、返回結構、傳輸數據等相關信息雖然信息比較多,但是還存在無用的數據,需要進行提純處理。一旦數據處理后,就能采用關聯分析、如路徑分析等模式發現技術來分析日志,獲取有用的信息。
5 結束語
本文介紹了網頁數據挖掘的相關概念、挖掘過程、分類方法以及相關技術。在Internet發展的今天, 網頁數據挖掘的研究方面更加寬,人們不斷關注如何對這些網頁數據的處理。網頁數據挖掘在各個方面,特別在結合語言問題、查詢半結構化、數據庫方面會得到不斷發展。
參考文獻:
[1] ITUCT Recommen dation H.263.Video Coding for Low Bit Rate Communication Transmission of non - Telephone Signal s. 1996.
1.前言
數據挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機的數據集中識別有效的、新穎的、潛在有用的,以及最終可理解的模式的非平凡過程。它是一門涉及面很廣的交叉學科,融合了人工智能、數據庫技術、模式識別、機器學習、統計學和數據可視化等多個領域的理論和技術,數據挖掘是一個包含多個處理步驟的知識發現過程,其主要內容包括數據清洗、數據集成、數據選擇、數據轉換、數據挖掘、模式評估和知識表達輸出等。
把數據挖掘技術應用到電子商務系統中,開發出基于數據挖掘技術的電子商務系統能夠加深和加強對電子商務系統數據的分析功能,為電子商務企業管理人員提供電子商務的預期信息,從而能很好的保證電子商務網站的運行效果。
現在電子商務系統主要形式B2C,涉及的數據不僅包括客戶在電子商務網站上的交易數據,還包括客戶的注冊信息數據和商品信息等數據。電子商務系統的數據有如下特點:
(1)數據量大;
(2)數據質量差;
(3)數據種類多。
2.電子商務系統功能模塊結構設計
根據B2C電子商務系統設計的目標,管理業務流程,將這個B2C電子商務系統分為:會員注冊管理、會員帳戶管理、商品購買管理、會員管理、商品類別管理、商品管理、優惠券管理、訂單管理、留言板管理、商品評論管理、庫存管理、網站管理和數據挖掘管理等功能模塊(如圖1所示)。
3.數據挖掘管理模塊的設計
B2C電子商務數據挖掘管理模塊主要通過對電子商務企業當前的和歷史的交易數據進行分析。挖掘出其中隱含的知識和從中發現隱含的趨勢和規律。它主要包括數據預處理模塊、數據挖掘模塊和數據挖掘結果顯示模塊。B2C電子商務數據挖掘系統從電子商務運行商品數據庫、客戶信息數據庫和交易數據庫中獲取數據,根據數據挖掘算法的需要進行數據預處理,并建立數據挖掘模型,供電子商務企業的用戶挖掘時使用。用戶只需要輸入簡單的一些參數,系統就會自動的根據已建立的模型輸出預測結果。電子商務挖掘系統體系結構如圖2所示。
3.1 數據預處理模塊
數據挖掘的處理對象是大量的數據,這些數據一般存儲在數據庫系統中,是長期積累的結果。但往往不適合直接在這些數據上面進行挖掘,需要做數據預處理工作,其一般包括數據的選擇、數據清理、數據集成和轉換。數據預處理是否做好將影響數據挖掘的效率和準確度以及最終模式的有效性。這些處理技術在數據挖掘之前使用可以大大提高數據挖掘模式的質量,降低實際挖掘所需要的時間。原始數據通過數據選擇、清理、集成和轉換后生成數據挖掘庫,為下一步的數據挖掘做好準備。
3.2 數據挖掘模塊
數據挖掘的目的是生成可以據其所示的含義采取行動的知識,也就是建立一個現實世界的模型。數據挖掘的本質就是數學建模。在數據挖掘中,可以使用許多不同的模型,如分類模型、回歸模型、時間序列模型、聚類模型和關聯規則模型。針對同一模型,可以使用不同的算法進行數據挖掘。算法的目的就是找到適合于數據的模型。數據挖掘涉及到多步驟、各系統間的交互、特殊解決方案及各步驟間的反復過程。
B2C電子商務網站中商品介紹頁面的擺放就好比商店里的貨架,商品介紹的擺放位置也會影響客戶對商品的購買率。而商品之間的關聯性一般不是很容易看出來的,一般人很難聯想到商品之間的關聯性,只有實際上通過對大量的交易歷史數據的分析,才可以挖掘出它們之間的關聯性。在數據挖掘過程中對關聯產品和服務進行深入挖掘,可以發現其中的關聯規則,利用關聯規則模型進行數據挖掘可以了解客戶的購買行為,這對于改進B2C電子商務商業活動的決策很有幫助。例如,可以通過改進商品介紹位置的擺放(把顧客經常同時買的商品擺放在一起),幫助如何規劃市場(互相搭配進貨)等。而作為B2C電子商務網站。可以針對不同客戶特點動態調整網站結構,使客戶訪問的有關聯的網頁文件的鏈接更加直接,讓客戶更容易訪問到自己想要的東西。這樣的網站更能吸引客戶,提高客戶的忠誠度,提高網站的效益。
B2C電子商務網站網頁主要為顧客展示商品名稱或圖片,為顧客推薦與當前感興趣商品更詳細或相關的網頁是個性化推薦的關鍵。根據客戶的注冊信息和訂單信息,通過回歸模型挖掘可以為不同的用戶提供個性化服務,例如系統可以向客戶顯示那些可能引起客戶感興趣的新商品。
隨著“以客戶為中心”的經營理念不斷深入人心,分析客戶、了解客戶并引導客戶的需求已成為企業經營的重要課題。通過對B2C電子商務系統收集的客戶的交易數據進行聚類模型挖掘,可以確定不同類萬方數據型客戶的行為模式,電子商務企業便可以采取相應的營銷措施,促使企業利潤的最大化。
3.3 數據挖掘結果顯示模塊
數據挖掘結果的顯示模塊是將數據挖掘后得到的知識和結果用可視化形式表示出來,例如采用圖形化界面把挖掘結果顯示給電子商務企業的管理人員。在建立好相關數學模型后,把實際數據作為輸入信息,通過挖掘模型的計算獲得預測結果。B2C電子商務企業要根據不同的挖掘結果做出不同的反應。采取不同的措施,給顧客提供不同的服務,在為顧客服務的同時也為自己的B2C電子商務企業獲取更多的利潤。
4.結論
本文討論了把數據挖掘技術應用于B2C電子商務系統中,并采用J2EE的B/S架構將其實現,系統采用客戶端、中間服務器和后臺數據庫三層架構。利用數據挖掘技術可以提高B2C電子商務企業現代化管理水平方面發揮著積極的作用,它能夠提高B2C電子商務企業對客戶管理和商品管理方面信息的準確性和及時性,可以幫助B2C電子商務企業網站的開發人員及時、全面了解B2C電子商務企業網站運營情況和合理安排網頁的頁面布局,為不同瀏覽習慣的顧客提供個性化服務,為各項具體工作提供技術、信息支持;有效地減少各種失誤并保證B2C電子商務企業網站的各項任務保質保量、按計劃完成,從而提高電子商務企業網站的運作效率。
參考文獻
[1]朱明.數據挖掘[M].合肥:中國科學技術大學出版杜(第2版),2008.
[2]寰方,王煜,等.PaoloGiudici.實用數據挖掘[M].北京:電子工業出版,2004.
1.1.1將文本對比作為基礎的方式采用計算機軟件系統中的對比程序代碼中所包含的語句行展開進一步的判斷過程,這種方法在進行后期的改進過程中針對的是對字符串的匹配效率進行提升,提升的辦法有很多,最為主要的就是通過Hash函數技術進行匹配效率優化,在這個過程中最為常用的工具為Duploc。
1.1.2將標識符對比作為基礎的方式將標識符對比作為基礎的方式,最具代表性的方式是對由分詞所組成的標識符序列構造前綴樹,并將其作為依據然后進行對比,將標識符對比作為基礎的方式的工具主要有CCFinder、Dup等[3]。
1.2計算機軟件數據檢索挖掘數據檢索挖掘與克隆代碼一樣,同樣是計算機軟件工程中最為原始的數據挖掘需求之一,對于計算機軟件數據檢索挖掘來說其主要分為以下三步:第一步,為數據信息的錄入。所謂的數據信息錄入實際上指的是對于要檢索的信息進行錄入的過程,針對使用者的需求將使用者所需要的數據信息輸入到檢索信息錄入框中進行數據的查找。第二步,為數據信息的查找過程。當客戶所需要的信息進入到數據檢索錄入框中時,進行確認后數據挖掘系統將會根據數據信息中所涵蓋的數據信息內容進行數據庫中的查找,并且根據不同的分類,對查找信息的數據信息資料進行羅列[4]。第三步,為數據信息資料內容的導出和查看,在查找到相關的客戶需要數據內容時,客戶可以根據自己本身的實際需要,進行數據信息的導出或者是在線查看,在數據信息資料導出后,需要應用相關的數據信息查看軟件進行查看。并且客戶在導出數據信息時,會在中形成一定的歷史記錄,對客戶及時查找的數據信息進行記錄與保存,當客戶想要再次進行查找時能夠更為方便與快捷的找到其所需要的數據信息內容。
中圖分類號:TP391 文獻標識碼:A 文章編號:1671-7597(2013)14-0064-01
并行計算技術、軟件技術以及網絡技術等多元技術發展后,出現了云計算技術。云計算商業價值以及科研價值都獲得了肯定,IBM、Google等公司都非常重視云計算技術。隨著云計算的快速興起與發展,在數據存儲與商業化應用方面將得到顯著提升,這也是云計算技術的一大重要價值所在。Web數據挖掘凸顯出極大的應用價值。本文分析了云計算框架下的Web數據挖掘算法。
1 云計算的關鍵技術
與一般計算不同的是,作為一種超級計算,云計算的核心信息是數據,且屬于密集型。在數據存儲、數據管理以及編程模式等多方面凸顯出個性化的特點。本章所介紹的有關云計算的數據存儲技術、虛擬化技術、數據管理技術以及編程模式。
1.1 大量分布式存儲技術
在云計算技術中,其關鍵的分布式存儲具有諸多優點:有精確性、高效率以及實用性等。采用冗余存儲的方式能夠保證數據存儲的精確性。而硬件上所存在的缺陷可通過適當的軟件來完善,因此擁有了大量的分布式存儲技術,經濟性與實用性等特性比較地突出。
1.2 數據管理技術
云計算系統含有數項服務內容,諸如分析大數據集的特點并及時地采取相應的處理和分析的方式,從而凸顯出運行的高效性優點。因而,全面高效地管理大數據集是云計算數據管理技術中不可或缺的一項重要內容。在數據管理下,還可以迅捷地搜索到預定的數據。
1.3 虛擬化技術
作為一類分配計算資源的途徑,虛擬化技術也是云計算中的重要技術。該技術把不同級別的應用系統,諸如硬件、軟件、數據、網絡以及存儲等系統獨立化,肢解數據中心、服務器、存儲、網絡、數據以及應用物理設施內部的分工狀態,達到動態構建體系結構的目的,完成集中管理以及共時使用的物理資源以及虛擬資源的任務。虛擬化技術強化了結構體系的彈性以及靈活性,減少了開支,完善服務,盡可能都規避管理風險。
1.4 并行編程模式
云計算的編程模型的確立必須要關注到后臺的保障性作用,在具體的執行過程中要確保其合理的進度。這樣才能夠使得云計算資源得到最大限度地使用,用戶也能夠更為便捷地使用該項資源。
云計算所采用的模式是Map-Reduce編程。最初的一個任務會形成“樹枝狀”的結構,其下的子任務會通過Map以及Reduce等流程來加以執行,從而保證任務能夠及時準確地完成。
2 Web數據挖掘
Web數據挖掘是由Web、數據挖掘、計算機語言學以及信息學等數個學科構建而成。數據挖掘技術以及Web通過一定的途徑得到了有機的統一整合之后,顯現出綜合性的特性。在對挖掘對象展開比較全面分析的基礎上,Web數據挖掘又被細化成包括內容、結構以及使用等方面的挖掘方面。其中,內容挖掘的內涵界定為:經由人工化的組建模式,在Web環境下從相關的文件夾中提取使用者所需信息;結構挖掘的內涵界定為:經由人工化方式下,針對多項結構進行挖掘,通過多種途徑方式從中提取出使用者所需信息;使用挖掘的內涵界定為:將挖掘的對象聚焦于日志文件以及內在所包含的數據內容作為突破口,發掘本站點的瀏覽人及其用戶數量。
3 基于云計算的數據挖掘技術
當下的數據挖掘技術已廣泛地運用于網絡安全、搜索引擎、電子商務以及信息通信等諸多方面,效果也讓人滿意。其中,下面的幾類程序應用的范圍更為廣泛:基礎設施也就是服務(IaaS)型的計算密集型并行處理應用程序、平臺也就是服務(PaaS)型的網絡業務以及軟件應用即服務(SaaS)型的Web2.0應用程序。與以前數據挖掘技術相同的是,基于云計算的數據挖掘也要做好有關數據的預處理、挖掘以及評估結果模式等多項工作。點擊流決定了大多數的網站數據格式,因此,基于云計算的數據挖掘技術方式和以往的數據庫格式相異。
3.1 數據的收集和處理
該環節要采用決策樹區工具來區分用戶訪問數據以及Web機器人訪問數據。同時,在該環境下,基于網絡的大規模數據的展開過濾、轉換與整合等工作內容都將得到解決,且還能將對應的數據轉換為半結構化XML文件,然后將其保存至分布式文件體系內。
Google 公司最近推出了Map-Reduce新型并行編程。它把并行化、容錯、數據布局、負載均衡等多項功能集中于庫中,并把系統操作數據的流程總結成2個階段:Map 階段以及Reduce 階段。運用Map-Reduce途徑來搜集數據比較地廣泛,但開發工具Hadoop本身并不完備,通過窗口技術可以把數據加以分離,且將滿足條件的動態數據進行連續性的靜態狀況呈現于窗口內,因此,抽樣、直方圖以及小波變換或哈希等途徑可以及時地保存數據結構及其數據信息內容。系統本身并不具備保存掃描、搜集數據的功能,卻算法也并不復雜,同時,應用程序又牽涉到利用歷史數據的功能,從而弱化了整個系統的功能。目前有數個研究機構構建相關系統項目,包括STREAM,TelegraphCQ以及Aurora等,但影響并不明顯。
3.2 數據存儲
基于云技術進行數據挖掘,要關注到搜集、處理數據時的高效性,同時還要注意如果節點失效,還應該注意遷移計算以及存儲的數據內容。因此,還要借助于冗余存儲的方法來確保數據儲存的穩定性與可靠性。
在云計算數據存儲應用領域中,非開源系統最為著名的當屬Google公司旗下的GFS,開源系統最為著名的則是Hadoop開發的HDFS,這兩大系統現已得到極為廣泛的發展與應用。隨著技術的深化,今后在多個領域中的應用也將得到進一步提升,尤其在對數據存儲和計算的遷移工作中,將打破當前效率低下的困境,使得數據處理效率得到顯著提升,并促進其商業化應用。
4 結束語
在云計算背景下的WEB數據挖掘已然成為當前國內外計算機領域的熱門課題,其研究成果的應用范圍極其廣泛,具有很高的現實價值。
參考文獻
[1]王鵬.走進云計算[M].北京:人民郵電出版社,2009(6):182.
[2]陳修寬.Web數據挖掘綜述[J].山東輕工業學院學報,2009,23(3):23-8.
中圖分類號:TP311 文獻標識碼:A文章編號:1007-9599 (2011) 08-0000-01
Research of Intrusion Detection Technology Based on Data Mining
Zhao Nan,Feng Jianlin
(College of Computer and Information Engineering,Lishui University,Lishui323000,China)
Abstract:Based on the characteristics of intrusion detection system(IDS)and the IDS data mining technology,the design of data mining-based IDS model,is to overcome high rate of a general intrusion detection system false alarm.First of all,the model training data extract from the rules,and then use these rules to detect new incursions.The experimental results show that the use of data mining to intrusion detection system is effective,rules updating and system updating faster and cheaper,detection rate higher.
Keywords:Network security;Intrusion detection;Data mining
目前大部分入侵檢測采用特征檢測的方法,它們由安全專家預先定義出一系列特征模式(此處的特征模
式含義比較窄,如表達式、字節匹配或“特征字符串”,與后面提到的規則不同),用來識別入侵,同時,入侵檢測系統需要不斷更新自己的模式庫以跟上入侵技術發展的步伐,僅僅采用這種入侵檢測方法將會帶來很多缺陷。
基于數據挖掘的入侵檢測技術可以自動地從訓練數據中提取出可用于入侵檢測的知識和模式經過綜合地分析比較,基于數據挖掘的入侵檢測系統有以下幾點優勢:智能性好、檢測效率高、自適應能力強和誤警率低。
一、入侵檢測技術簡介
入侵檢測是對網絡系統的運行狀態進行監視,發現各種攻擊企圖、攻擊行為或者攻擊結果,以保證系統資源的機密性、完整性與可用性。入侵檢測系統是從多種計算機系統及網絡中搜集信息,再從這些信息中分析入侵及誤用特征。入侵是由系統外部發起的攻擊。誤用是由系統內部發起的攻擊。所有的IDS的本質都是基于分析一系列離散的、按先后順序發生的事件,這些事件用于誤用模式進行匹配,入侵檢測源都是連續的紀錄,他們反映了特定的操作,間接反映了運轉狀態。IDS一般包括三部分:信息的搜集和預處理、入侵檢測分析引擎以及響應和恢復系統[1]。
絕大多數入侵檢測系統的處理效率低下,不能滿足大規模和高帶寬網絡的安全防護要求。目前使用的主要檢測方法是將審計事件同特征庫中的特征匹配,但現在的特征庫組織簡單。導致的漏報率和誤報率較高,很難實現對分布式、協同式攻擊等復雜攻擊手段的準確檢測;此外,預測能力嚴重受限于攻擊特征庫,缺乏對未知入侵的預測能力。
二、數據挖掘技術簡介
數據挖掘是從海量的數據中提取或“挖掘”知識,這些數據可以存放在數據庫、數據倉庫或其他信息存儲中[2]。于數據挖掘是一門受到來自各種不同領域的研究者關注的交叉性學科,因此導致了很多不同的術語名稱。數據挖掘是針對特定應用的數據分析處理過程,如何選擇輸入數據、變換數據集對應的挖掘算法,取決于具體的數據挖掘目標,即期望從數據中發掘出什么知識。數據挖掘可粗略地理解為三步:數據準備、數據挖掘,以及結果的解釋評估。
三、基于數據挖掘的入侵檢測系統
數據挖掘是從海量數據中提取隱含的、以前不知道的、有潛在作用的信息。它利用統計與可視化技術以易于理解的形式發現并表現信息。在入侵檢測中,數據挖掘被定義為處理大量在中央位置收集得到的數據,從而察看其規則模式。基于數據挖掘的入侵檢測系統(DMIDS)是從訓練數據中得到規則模式,用于實時的入侵檢測系統中的入侵檢測。
基于數據挖掘的入侵檢測技術可以自動地從訓練數據中提取出可用于入侵檢測的知識和模式經過綜合地分析比較,基于數據挖掘的入侵檢測系統有以下幾點優勢:智能性好、檢測效率高、自適應能力強、誤警率低[3]。
基于數據挖掘的入侵檢測系統原理,DMIDS總體分為兩部分:
第一部分是數據挖掘部分,主要采用數據挖掘技術來得出規則庫,為后續的檢測提供依據;其中包括:訓練數據,數據挖掘模塊和規則庫,
第二部分為入侵檢測部分,實時采集數據,處理數據,然后和規則庫進行比較,判斷當前用戶的操作是否合法,并相應的作為響應或恢復機制。該部分主要擁有以下模塊:
數據挖掘模塊。數據挖掘技術是一種決策支持過程,它主要基于AI,機器學習統計等技術,它能高度自動化地分析原有的數據,做出歸納性的推理,從中挖掘出潛在的模式,預測出客戶的行為。
數據挖掘模塊的主要作用就是從訓練數據中挖掘正常和異常行為規則,構建規則庫,對于不同性質的數據源,這里要求采用不同的數據挖掘算法來發現其中的隱含規律。
DM的技術基礎是人工智能,它利用了人工智能的一些已經成熟的算法和技術,例如:人工神經網絡、遺傳算法。決策樹、鄰近搜索算法、規則推理、模糊邏輯等DM系統問題利用的技術越多,得出的結果精確性就越高。這主要取決于問題的類型以及數據的類型和規模。
四、結論
由于入侵檢測系統本身應用的特殊性,要求它具有準確性、全局性、可擴展性、可伸縮性以及環境適應性和本身的健壯性。本文對基于數據挖掘的入侵檢測系統的信息提取技術作了較全面的研究和介紹,重點研究了啟發式的聚類數據挖掘算法,并對其中涉及到的概化分層和聚類算法和關聯算法,分類算法等進行了介紹。
參考文獻:
中圖分類號: TN711?34; TP393.08 文獻標識碼: A 文章編號: 1004?373X(2017)12?0059?04
Abstract: Various softwares and equipments in large?scale computer networks have security holes, which lead to the previously?proposed abnormal data mining methods in large?scale computer networks can′t make reasonable mining. Therefore, a new abnormal data mining method in large?scale computer network is put forward. The method can mine the abnormal data in large?scale computer network by data washing, data format conversion and pattern mining operation. The data mining system designed with the proposed method is composed of data mining processor, analysis module and database. The database provides the processing and mining schemes for data mining processor and analysis module. The data mining processor is used to monitor the abnormal situation in large?scale computer network in real time, and carry out data processing. The analysis module is used to analyze the processed data by means of "secondary activation" mode, and dig up the abnormal data. The experimental results show that the proposed method has good convergence, and the system designed with the method has strong scalability.
Keywords: large?scale computer network; abnormal data; data mining technology; reasonable mining
0 引 言
隨著電子信息技術的普及和不斷發展,大型計算機網絡隨之產生,越來越多的網民能夠更為便捷地享受各種信息資源,現如今,網絡已成為人們生活中不可缺少的一部分。大型計算機網絡在為人們提供便利的同時,也造成了一定的困擾,網絡入侵事件時有發生[1]。若想有效維護大型計算機網絡安全,需要將其中的非正常數據準確、高效地挖掘出來,相關組織已開始著手進行大型計算機網絡中非正常數據挖掘技術的研究工作[2]。
1 非正常數據挖掘技術
數據挖掘技術是指依據特定任務,將重要的隱含知識從具有一定干擾存在下的隨機數據集群中提煉出來[3]。數據挖掘技術是一項交匯科目,經其挖掘出來的數據具有一定的輔助決策作用。將這種技術用于進行大型計算機網絡非正常數據的挖掘工作中,能夠自動控制大量初始數據,為用戶提供更多的便利[4]。
所提大型計算機網絡中非正常數據挖掘方法的挖掘流程如圖1所示。
由圖1可知,所提方法先對大型計算機網絡中的初始數據集群進行統一處理,處理過程包括數據洗滌和格式變換。數據洗滌的目的是將初始數據集群中的噪音、重疊參數和缺失重要特征的數據除去,再經由格式變換,使洗滌后的數據集群特征更加明顯,提高對非正常數據的挖掘準確性。
當數據處理完畢,所提方法隨即開始進行模式挖掘。所謂模式挖掘,是指通過對比分析方式獲取大型計算機網絡中數據之間共有特征的過程,所獲取到的共有特征即為數據挖掘技術中的“知識”[5]。
將模式挖掘定義成向的映射,和均是大型計算機網絡中初始數據集群的一部分,并且,。在中隨機定義一個數據集群,此時可以將和在中出現的幾率設為向映射的知識,用表示,則有:
設置和的取值范圍可使所提大型計算機網絡中非正常稻萃誥蚍椒具有收斂性。若無特殊規定,可將二者的取值范圍均設置在0~100%之間。如果用戶需要對某一特定的非正常數據進行精準挖掘,也可隨時變更取值范圍。
取值范圍設定成功后,本文將式(1)和式(2)中的重疊部分輸出,用來表示大型計算機網絡中非正常數據的挖掘結果。
2 非正常數據挖掘系統設計
2.1 系統總體設計
現使用所提大型計算機網絡中非正常數據挖掘方法設計數據挖掘系統,以實現對大型計算機網絡安全的有效維護。
所設計的系統由數據挖掘器、分析模塊和數據庫組成,如圖2所示。數據挖掘器被安放在大型計算機網絡的特定節點上,用來實時監控網絡工作的非正常情況,并進行數據處理。分析模塊負責對數據挖掘器處理過的數據進行分析,進而挖掘出大型計算機網絡中的非正常數據。數據庫為數據挖掘器和分析模塊提供數據的處理和挖掘方案。
2.2 系統具體設計
在所設計的大型計算機網絡非正常數據挖掘系統中,數據挖掘器可看作是大型計算機網絡初始數據集群的接收端,用于獲取數據挖掘技術中的“知識”,其工作流程如圖3所示。
由圖3可知,在數據挖掘器開始工作前,數據庫會事先根據大型計算機網絡初始數據集群的特征制定數據挖掘器的具體挖掘方案,并對其實施驅動。數據挖掘器根據挖掘方案對數據進行洗滌和格式轉換等處理。處理結果將被存儲。
值得一提的是,數據挖掘器具有自檢功能,如果處理結果不符合用戶所設定的置信度,那么該結果將會被保留到數據挖掘器的緩存器中。一旦緩存器中有新鮮數據進入,數據庫便會重新驅動數據挖掘器,直至處理結果成功通過自檢。隨后,所設計大型計算機網絡中非正常數據挖掘系統的分析模塊將對數據挖掘器的處理結果進行分析。為了增強系統的可擴展性,應充分利用系統計算節點的性能,并縮減節點失效率,為此,給分析模塊設計出一種“二次激活”方式[6],以延長系統計算節點的使用壽命,如圖4所示。二次激活是指當系統計算節點出現疲勞狀態時,分析模塊將自動放出替補節點,使疲勞節點擁有足夠的時間去休整。休整后的計算節點將替換下替補節點,繼續進行數據挖掘工作。
在分析模塊中,每個計算節點均有多個替補節點,如果節點即將失效并且未能尋找到下一個合適的計算節點,將采取替補節點與性能相似節點同時工作的分析方式,以保證所設計大型計算機網絡中非正常數據挖掘系統的可擴展性,并使挖掘結果更加準確。
3 實驗驗證
3.1 方法收斂性驗證
在大型計算機網絡中,只有具有較好收斂性的非正常數據挖掘方法才能有效保證挖掘結果的準確性。為了驗證本文所提方法收斂性的優劣,需要進行一次實驗。本次實驗在某大型計算機網絡實驗室中進行。用于進行數據挖掘的主機配置為:3 GB內存、四核i7處理器、500 GB硬盤。實驗中,于主機寫入本文方法,并向大型計算機網絡中加入兩種類型的大數據集群,兩集群中的數據節點[7?8]分別為4萬個和80萬個。當數據節點中的數據不出現波動時,表示本文方法已進入收斂狀態,此時主機便不會再向下一節點傳遞數據。實驗結果如圖5所示。
從圖5可明確看出,本文方法具有收斂性,并且大數據集群中的數據節點越多,方法的收斂時間就越短。在兩種大數據集群中,本文方法的收斂時間分別為1.2 s和4.3 s。據統計,其他方法的收斂時間大多在10.8 s左右,這顯示出本文方法具有較好的收斂性。
3.2 系統可擴展性驗證
為了驗證經本文方法設計出的數據挖掘系統是否能夠合理應對大型計算機網絡中非正常數據的更新,需要對本文系統的可擴展性進行驗證。實驗選出的對比系統有基于Hadoop的數據挖掘系統和基于并行圖算法的數據挖掘系統。
在第3.1節實驗的基礎上,只保留大數據集群2,并分別以橫向和縱向方式向集群的數據節點中隨機寫入30 000個非正常數據。使用三種系統對大型計算機網絡中的非正常數據進行挖掘,所得實驗結果如圖6~圖8所示。
由圖6~圖8可知,三個系統在縱向寫入下的可擴展性均低于橫向寫入。與其他兩個系統相比,本文系統參與進行非正常數據挖掘的節點數量更多,并且節點失效率最少,證明使用本文方法設計出的數據挖掘系統具有較強的可擴展性。
4 結 論
本文提出一種新型的大型計算機網絡中非正常數據挖掘方法,并使用該方法設計數據挖掘系統。數據挖掘技術是指依據特定任務,將重要的隱含知識從具有一定干擾存在下的隨機數據集群中挖掘出來。將數據挖掘技術用于進行大型計算機網絡非正常數據挖掘工作中,能夠對大量數據進行自動控制,為用戶提供更多便利。實驗結果表明,本文方法具有較好的收斂性,使用本文方法設計出的數據挖掘系統也具有較強的可擴展性,可將大型計算機網絡中的非正常數據準確、高效地挖掘出來。
參考文獻
[1] 吳嘉瑞,唐仕歡,郭位先,等.基于稻萃誥虻拿老中醫經驗傳承研究述評[J].中國中藥雜志,2014,39(4):614?617.
[2] 李善青,趙輝,宋立榮.基于大數據挖掘的科技項目模型研究[J].圖書館論壇,2014,34(2):78?83.
[3] 丁騁騁,邱瑾.性別與信用:非法集資主角的微觀個體特征―基于網絡數據挖掘的分析[J].財貿經濟,2016,37(3):78?94.
[4] 楊丹丹.搜索引擎及網絡數據挖掘相關技術研究[J].數字化用戶,2014,20(11):126.
[5] 王元卓,賈巖濤,劉大偉,等.基于開放網絡知識的信息檢索與數據挖掘[J].計算機研究與發展,2015,52(2):456?474.
物聯網其實就是指物和物之間相互聯系的互聯網,隨著社會科學技術的不斷發展和進步,促進了互聯網的快速發展,也讓社會經濟得到了很好的發展。云計算主要就是指對相關的信息進行虛擬化的計算和存儲,對各種信息在互聯網上進行規范和整理,這樣就能夠有效的形成很多個計算中心和數據。
一、基于云計算的物聯網
物聯網其實就是一個比較大而且分布也非常廣泛的物和物的互聯網,主要作用就是對生活中的各種事物進行監控,隨著物聯網的不斷發展,現在也接入了很多的應用終端,其中就包括了湖泊、建筑物以及交通設施等。一般來說,云計算物聯網數據挖掘就是指通過對云計算來解決物聯網數據挖掘存在的問題。首先建立一個能夠全面捕捉物聯網數據的分布式時空數據庫,然后在云計算的平臺上,全面的對物聯網系統的數據進行挖掘。云計算中的數據挖掘主要就是通過對相關的數據進行分析研究,從而知道通過這種方式進行數據挖掘,物聯網進行數據挖掘的相關工作將能夠被完美的執行與完成。
二、基于云計算的數據挖掘平臺
在工作中,能夠提供高可用性和更多的動態資源池的計算機平臺,將能夠很好的實現云計算的數據挖掘。在對那些可用性比較高的應用程序進行開發的時候就可以選擇使用基于云計算的數據挖掘平臺,在利用云計算對數據進行挖掘的時候也可以采用基于云計算的數據挖掘平臺。一般情況下,可以通過軟件分層的理念,對物聯網的基于云計算的數據挖掘平臺系統進行一定的分層處理。云計算的數據挖掘系統從下而上可以分為算法層、任務層和用戶層三層。各層系統的相關工作,都需要相互配合才能夠完成。軟件中的下層可以向它的上層提供相關的服務內容,而上層在對下層的服務進行調用的時候主要就是通過上層層間的開發接口來完成的,這樣就能夠有效的保證基于云計算的數據挖掘平臺系統當中的各個層之間的功能能夠比較的獨立。采用這樣的一種設計模式主要就是為了在對系統進行二次開發的時候能夠比較的方便。
在構建基于云計算數據挖掘模式的時候主要就是通過積極的應用云計算的服務模式,那么在這樣的一種情況下建立起來的基于云計算數據挖掘平臺它們當中的每一個部分在實際提供服務的過程當中都能夠比較獨立的去完成。操作人員在使用基于云計算數據挖掘平臺的時候主要就是經過互聯網來連接數據挖掘平臺,在監控使用賬戶的管理系統時,主要就是在SaaS、PaaS以及DaaS這三個系統當中來完成的。在數據挖掘平臺當中的任何環節都是在云計算服務的模式中。在數據挖掘平臺當中的賬戶管理系統主要就是指管理使用者的實際服務情況的一個系統,它對使用者的賬戶信息有一個比較全面的記錄,它主要就是把用戶在平臺當中使用設備的情況以及服務的情況比較詳細的記錄下來形成一個賬目,這樣就能夠為使用者提供一個比較全面的數據使用的資源。在數據挖掘平臺當中的數據管理子系統主要是指管理用戶的數據資源。這個數據管理子系統主要就是在云計算中的DaaS服務模式下進行工作的,用戶在購買數據等相關活動的時候就是通過這個系統來完成的。數據管理子系統能夠對使用者的隱私起到很好的保護作用,而且使用者在處理了數據之后還能夠進行再次的出售。在數據挖掘平臺當中的子挖掘系統主要的作用就是發現用戶數據當中的知識,讓數據挖掘目標能夠有效的實現,在在數據挖掘平臺中子挖掘系統是最主要的部分,它的專業性比較的強。
三、基于云計算的物聯網數據挖掘模式
物聯網的整個環境決定了物聯網數據挖掘的模式,因為物聯網當中的數據類型比較復雜,而且物和物之間的關聯以及相關的特性也不一樣,那么這些情況可能就會使得在構建物聯網數據挖掘模式的時候就會和傳統的數據挖掘模式不相同。
在使用物聯網的過程中,常常會出現一些問題,如在發送與接收數據的時候可能出現部分或者是全部信息出錯甚至是丟失。出現這些現象的原因,可能是物聯網系統的原因,也可能是其他什么原因。那么基于云計算物聯網數據挖掘模式就應該要考慮到這種情況,在構建物聯網數據挖掘應用模型的時候,必須考慮對物與物之間的關系的表達,這樣才能有效的解決數據的錯誤與丟失。如果物與物存在間接的關系的時候,可以采用SVD模型或者是拉普拉斯變換模型進行推導。如果物與物之間存在非常重要的直接關系時,物聯網數據挖掘模式應該要具有表達出物和物之間直接關系的能力,這樣在對物和物的間接關系進行推導的時候才會比較的方便。物聯網數據挖掘模型當中的一種就是基于超圖的物聯網數據模型,在超圖當中的每一個變都能夠和很多的點進行聯接,對于物聯網當中數據之間比較復雜的關系可以通過超邊來進行標示。物聯網數據挖掘模型當中的另外一種就是基于馬爾科夫鏈的數據挖掘模型。在基于馬爾科夫鏈的數據挖掘模型中,對于進行預測未來可能會出現的現象的概率時,不需要根據以前的信息或知識,只需要根據現在的信息或知識就能夠完成。在物聯網的數據實際應用當中,這一類問題最常見的。
穩定的可外推參數模型是物聯網數據挖掘模型中的另外一種數據挖掘模型。在物聯網數據的實際應用當中,在進行物理建模的時候應該要先要了解到物和物之間的關系,然后建立起數據模型來描述數量上面的相互關系,但是因為物聯網數據的類型比較復雜,有可能會出現錯誤或者丟失的情況,所以采用傳統的方法進行物理建模會有很多的困難。
參考文獻
[1]劉茂華,史文崇. 物聯網數據處理之淺論[J]. 計算機與信息技術,2011,06:52-53.
[2]丁靜,楊善林,羅賀,丁帥. 云計算環境下的數據挖掘服務模式[J]. 計算機科學,2012,S1:217-219+237.