時間:2023-03-13 11:05:25
序論:好文章的創作是一個不斷探索和完善的過程,我們為您推薦十篇數據挖掘技術應用范例,希望它們能助您一臂之力,提升您的閱讀品質,帶來更深刻的閱讀感受。
中圖法分類號:TP274文獻標識碼:A文章編號:1009-3044(2010)22-6231-02
Survey on Data Mining Technology
WANG Wen
(School of Computer Science and Technology, China University of Mining and Technology, Xuzhou 221116, China)
Abstract: Data Mining technology is an important part of modern computer technology. Using Data Mining can solve many problems in artificial intelligence. In this article, the development and the principle of Data Mining are introduced. Some of the newly application of Data Mining are involved. This article also have the expects for the future development of Data Mining.
Key words: data mining; user preference; examination system; intrusion detection system
隨著時代的發展,計算機科學在以飛快的速度前進著。在計算機科學的眾多領域中,人工智能是最富有挑戰性和創造性的一個領域。近幾十年來,隨著人工智能技術的日漸成熟,人們對人工智能的研究更加深入,對人工智能更加重視。科學界對于人工智能的重要性也已形成共識。
自進入21世紀以來,電子數據獲取與計算機技術方面的不斷發展以及網絡的廣泛普及與應用,人們日常生活中接收的數據和信息較以往正以飛快的速度增加,因而形成了獨特的知識爆炸時代。就在最近幾十年很多超大型數據庫的產生使得整個社會發生著天翻地覆的變化,遍及銀行存款、超級市場銷售、粒子物理、天文學、化學、醫學以及政府統計等領域。在這個數字化、信息化時代,這么大規模的數據庫以及以后可能誕生的更大規模的數據庫的數據管理問題將會是以后對數據處理的一個重要關注點。眾多科技工作者共同關注的焦點集中在了如何從這些大型數據庫中發現有用的、信息、模式以及如何實現有效的數據處理方法。因而“數據挖掘”(Data Mining) 的新領域逐漸走進了人們的事業,并且在人們的關注和不斷研究下飛速發展,這是一個與統計學、人工智能、模式識別、機器學習、數據庫技術以及高性能并行計算等領域都有很大相關的新學科,正是計算機學科的一個研究重點。
1 數據挖掘的一般過程
數據挖掘一般分為如下四個步驟(圖1)。
1.1 數據預處理
收集和凈化來自各種數據源或數據倉庫的信息,并加以存儲, 一般存于數據倉庫中。
1.2 模型搜索
利用數據挖掘在數據庫中匹配模型,這個搜索過程可以由系統自動執行,自下而上搜索原始數據以發現它們之間的某種聯系;也可以進行用戶交互,由分析人員發問,自頂向下尋找以驗證假設的正確性。一個問題的搜索過程可能用到許多模型,如神經網絡、基于規則的系統(決策樹)、機器學習、基于實例的推理等。
1.3 評價輸出結果
一般來說,數據挖掘的搜索過程需要反復多次,當分析人員評價輸出結果后,它們可能會形成一些新的問題,或者要求對某一方面作更精細的查詢,通過反復的搜索過程即可滿足分析人員的這種需求。
1.4 生成報告
知識的發現過程可以由數據清理、數據集成、數據選擇、數據變換、數據挖掘、模式評估和知識表示等幾個步驟組成。數據挖掘可以與用戶或知識庫交互,把用戶關心的模式提交給廣大用戶,或作為新的知識存放在知識庫中。
2 數據挖掘應用
2.1 數據挖掘在實現網站用戶偏好度的應用
數據挖掘就是從大量的數據中發現隱含的規律性的內容,解決數據的應用質量問題。使數據能夠被更加高效的利用,對無用的數據加以摒棄,是數據挖掘技術最主要的實現形式,也是其最重要的應用方式。傳統的數據庫中的數據相對于Web的數據而言,其結構性很強,是完全結構化的數據,而半結構化則是Web上的數據最大特點。因而,面向單個數據倉庫的數據挖掘較之面向Web的數據挖掘比要簡單許多。據統計,網站上的絕大部分內容對絕大部分用戶來說是無用的信息。事實是對于某個特定用戶來說,其關心的內容僅是網站上極小部分的內容,而網站上提供的更多的內容對于這個用戶來說是其不感興趣的,并且過多的信息往往會掩蓋有用的信息,使得用戶的查詢效率降低,并且對于網站也不是一件利事。
對于Web數據挖掘技術而言,半結構化數據源模型和半結構化數據模型的查詢與集成問題是應當首要解決的問題。解決Web上的異構數據的集成與查詢問題,有一個模型來清晰地描述Web上的數據是很必要的。因此,針對數據半結構化的Web數據的特點,尋找一個半結構化的數據模型至關重要。并且除此定義一個半結構化數據模型之外,一種半結構化模型抽取技術(自動地從現有數據中抽取半結構化模型的技術)也是應當提出的。因而半結構化模型和半結構化數據模型抽取技術是面向Web的數據挖掘實現的重要前提。
用戶瀏覽網站上的內容時,他會被很的多因素影響,網頁的外觀,信息標題,網頁鏈接以及個人的興趣和習慣等等。我們可以設定合理的假設,建立他們之間的模型,利用以上提到的方法解決用戶偏好度的問題。
2.2 數據挖掘在在線考試系統方面的應用
數據挖掘在在線考試系統方面的應用最主要體現在題庫的構建,下面分別介紹題庫的構建中數據挖掘的應用情況。
在設計數據庫方面,數據庫主要由題庫、答案庫和答案關鍵字庫構成,題型庫又涵括科目、題號、題型、題目、難度、分值等字段;答案庫中包含科目、題號、分值、答案以及在同一題中有不同答案時應提供的不同答案序號等字段;答案關鍵字庫中有題號、答案序號、權重和答案關鍵字。此后在將答案錄入答案庫。對于客觀題而言,僅僅需要錄入唯一的答案;但對于主觀題而言,則需要盡量給出多個參考答案并將每個答案的關鍵字及其所對應的權值、答案序號輸入答案關鍵字庫。
通常有兩類數據挖掘方法:①統計型,應用概率分析、相關性、聚類分析和判別分析等技術得以實現;②通過人工智能中的機器學習,經過訓練以及學習輸入大量的樣品集,以得出需要的模式或參數。由于每一種方法都根據其特點都有其優勢以及相應的引用領域,最后結果的質量和效果將受到數據挖掘技術選擇的影響,采用多種技術結合的方法,其各自的優勢可以達到互補的要求,從而實現最佳配置。下面介紹了兩種數據挖掘方法: ①決策樹算法:為每個問題的答案構造一個二叉樹,每個分支或者是一個新的決策點,或者是一個葉子節點。在沿著決策樹從上到下的遍歷過程中,對每個問題的不同回答導致不同的分支,最后到達一個葉子節點,每個葉子節點都會對應確定的權值,通過對權值的計算判定得分;②模糊論方法:利用模糊集合理論,對實際問題進行模糊判斷、模糊決策、模糊模式識別、模糊簇聚分析。由于主觀題答案很靈活,答案不可能完全匹配,采用此方法將考生答案與答案庫中的答案進行對照,以確定答案的正確度,從而更客觀準確地評定主觀題分數。
2.3 數據挖掘在網絡入侵檢測系統方面的應用
入侵檢測就是通過運用一些分析方法對從各種渠道獲得的反映網絡狀況和網絡行為的數據進行分析、提煉,再根據分析結果對這些數據進行評價,從而能夠識別出正常和異常的數據或者對潛在的新型入侵做出預測,以保證網絡的安全運行。
基于分布式數據挖掘的入侵檢測系統要對一個網段上的信息進行全面而細致的監測,同時在網絡上多個點進行數據采集,如網關和特別需要保護的服務器等。整個系統構成分為本地分類器、規則學習模塊和集中分類器三塊基本構件。本地分類器負責對從網絡上各個點采集到的數據通過預處理模塊去除掉無效數據,并將原始數據處理成為以后進行數據挖掘算法可識別的格式,以實現對數據的初步檢測和處理。本地分類器有2個輸出:一個輸出為分類數據,用于提交給規則學習模塊,另外一個為數據摘要,用于提交給集中分類器。規則學習模塊負責對標記過的分類數據進行深層次的數據挖掘,從而學習到新的知識。學習到的知識被直接錄入到規則庫中,這樣保證了規則庫可以根據網上的變化可以隨時達到更新的需求。另外一種方式是通過規則學習模塊實現人工訓練系統,從而實現升級規則庫的需求。最后將分布式數據挖掘的結果形成數據摘要發送給集中分類器,由集中分類器對各點數據摘要進行匯集,從而做出綜合判斷,達到有效地檢測協同攻擊的效果,最后將檢測結果提交給決策模塊。
3 結束語
數據挖掘技術是人工智能學科的一個重要分支,也是現代計算機科學的一個研究重點。現在基于數據挖掘技術的科研可以說是碩果累累,自從人工智能這個概念被提出來之后,其發展一直是計算機學科的熱門而且其分支廣而泛,都在不同的領域發揮著十分重要的作用。相信在計算機研究人員的不斷努力下數據挖掘會在更多的方面服務人們,并且期待著新的理論的提出。
參考文獻:
[1] 何克抗.建立題庫的理論[M].長沙:國防科技大學出版社,1995.
[2] 劉波,段麗艷.一個基于Internet的通用題庫系統的設計與實現[J].華南師范大學學報:自然科學版,2000(1):39-44.
關鍵詞:
大數據時代數據挖掘技術分析和研究運用數據挖掘技術,也被稱為數字處理技術,顧名思義,就是對于目前各大企業的內部數據,進行整理、調整、挖掘實施以及評估等一系列處理操作,其主要的目標是保證全局數據都能夠得到充分的優化。而大數據則是區分于以往抽樣調查的方法,而是對于全局數據進行分析,從而保證分析的全面以及完成。而大數據技術也包含4個優點,即高數量、高速度、多元化以及高價值。而筆者將通過本文,就大數據時代的數據挖掘技術與應用進行分析和探討。
1相關概念的簡介
1.1大數據的概念關于大數據的理念提出,可以追溯到麥肯錫研究院于2011年的《大數據:創新、競爭和生產力的下一個新領域》,其中闡述的觀念就涵蓋數據方面,即數據已經融入到了人們的日常生活中,也是生產運作的一個重要因素。而大數據的運用,對于消費以及生產水平都是一種有效的提升提升,根據美國曾經的《大數據研究和發展倡議》資料,截至2011年一年,全球總的數據就增加了1.8ZB,而進行人均計算,相當于每個人都具有至少200GB的數據資源,而且這一數據還在呈現出日益增長的趨勢,根據統計計算,這一數值將會按照約為50%/年的速度增長。
1.2數據挖掘作為一個新型學科,數據挖掘技術源于20世紀的80年代,那時其效用與目前存在本質差異,科學家最初研究大數據,主要是用于一些人工智能技術的開發。簡而言之,技術層面上,數據挖掘就是一個對數據進行發掘創新的過程,即要求目標數據具有隱蔽性、挖掘價值以及挖掘潛力,而且需要操作者在一堆冗雜的、隨機的、模糊的數據庫中進行挖掘;而對于商業層面上來說,數據挖掘就是在一些大量的數據信息中獲得規律以及價值信息,從而為決策提供重要的知識憑據。
2數據挖掘的研究手段
對于數據挖掘而言,不同的研究手段將是其開展的重要基礎,而研究手段的決定,主要需要依靠科學的計算為依據,分析和對比數據中存在的一些不為人知的規則,然后通過研究手段的改變去應付不同的問題,對于實際操作來說,就是針對不同的數據找出不同的解決方法,而常見數據挖掘的研究手段主要可以分為四類,即聚類研究、分類和預測以及關聯研究。
2.1聚類研究將抽選的數據或者對象的庫進行類似“分類”的聚類劃分,然后再將其中的相同或者相近的數據劃分為一個組類,由此建立起多個組類開展研究的過程。整個過程突出的是一種無知識基礎、無監督管控的學習過程。而整個過程由于分類研究有本質的差異,因為聚類研究在事先根本無法得到目標的重要屬性數據,而這種分析方法主要可以用于多個區域,例如心理、統計、醫藥、銷售以及數據識別等,而根據其隸屬度的取值,有能將其分為兩種研究方法,即硬聚類與模糊聚類,對于前者來說,就是將目標按照影響標準進行劃分,即目標如果屬于某類,必定不屬于其他類;而對于后者來說,主要取決與隸屬度的取值不同。而劃分過程可能會將目標劃分入多個聚類中。此外聚類的計算方法也能分為多種,即包含密度算法、層次算法、劃分算法、網格算法以及模型算法等等。
2.2分類與估測對于分類與數值估測來說,都是屬于是問題預測方式,其中前者要求估測各個類中的標號,這些標號都是分散且無規律的,而估測方法可以采用函數模型,要求模型類型為連續值函數。分類估測作為數據挖掘的起始工作,主要需要反應已經獲知的訓練數據庫的特點,從而根據以上基礎完成其中對每一類的情況以及特點完成相應的分類操作,而整個操作也是受到督促的,對于一般的分類算法可以有決策樹、粗糙集、貝葉斯、遺傳等算法,而估測主要是基于分類以及回歸基礎,估測數據將來的動向,即包含局勢外推、時間序列以及回歸分析幾類。
2.3關聯研究關聯研究是源于自然生物間微妙的關系,而某事情的發生和發展也會引發連鎖的事情發展,也就類似所謂“蝴蝶效應”的定義。而關聯研究的研究目標即是研究物與物之間的微妙關系,包含一些依賴關系等等,從而找出其中的規則,基于規則,分析將來的動向。以購物為例,分析購物者的心理規律以及習慣,可以從他們對于購物的一系列表現,例如購物籃的物品類型、放置規律、購物消費理念、購物環境需求等等,而掌握這些規律,足以讓一個銷售企業獲得巨大的消費市場以及商機。
3大數據時代的數據挖掘的運用
3.1數據準備準備流程需要依附于研究者已經建立起長期且豐富數據資源的數據庫,而根據這些無規則的原始數據進行相應的挖掘前的準備的工作,例如數據的處理、擇取、清除、推敲以及轉變,作為基礎的流程,數據準備操作在整個流程中起到重要的基礎作用。
3.2數據挖掘開展數據挖掘操作,需要根據挖掘對象的情況擇選最優的計算方法,從而獲取其中的規律性,例如對應采用決策樹算法、分類算法、神經網絡算法以及Apriori算法等。
3.3數據挖掘的模式評估研究模式評估的對象主要是通過數據挖掘處理過程數據,而評估流程是了解、研究且取得其中數據的規則,然后對數據進行轉變“翻譯”成通俗易懂的語言,供人們去研究和思考。
3.4數據挖掘的知識應用知識應用是數據挖掘的最后一步,通常知識運用就是一種現實運用的過程,通過數據準備、挖掘、研究評估,最后將結果數據或者規律用于現實中,從而體現數據的本身的價值,這就是知識應用的內涵。
4大數據時代的數據挖掘的運用
4.1市場營銷方面市場營銷行業已經是目前數據挖掘采用最多的行業,數據挖掘的作用主要體現在的對于消費者群體的消費習慣以及行為進行解析,從而改變銷售方法,提升產品的銷售量,此外,除了一些購物消費以外,數據挖掘技術以及拓展到了各大金融行業,例如保險行業、銀行行業以及電子商務行業等等。例如:在市場營銷方面,采用數據挖掘中的聚類研究,即客戶一系列無規則、無意識的行為數據,對他們進行識別,即根據客戶的忠誠度、消費意識進行分類,幫助企業尋找其中的潛在客戶以及固定客戶群。
4.2數據挖掘的科學分析科學本身就是一個尋找規律、發現規律以及利用規律的過程,而且任何科學研究都是需要基于數據作為基礎,所以數據挖掘對于科學領域也具有重要的意義和價值,特別是針對一些未知的事物、領域或者知識,通過數據挖掘可以有效展示數據規則。例如對于太空行星的分析,遺傳基因DNA的數據以及遺傳規律等。
4.3制造業與其他行業不同,制造業運用數據挖掘的目的主要是產品質量檢查方面,例如研究產品的數據,找出其中規則。分析整體生產流程,解析其中過程,找出影響生產質量以及效率的問題,然后通過對這些問題進行解決,提升企業經濟效益。對于制造業而言,數據挖掘運用主要體現在決策方面,即首先通過數據篩選,獲取有用的知識和數據,然后采用決策樹算法,統計決策,然后選擇其中正確的決策,即像根據目前產品的流行情況,預測目前生產產品的受歡迎度,然后決策生產的時間以及周期。
4.4教育方面對于教育行業來說,最重要的除了教師的教學方法以外,學生的學習情況、心理動向以及教學評估都是十分重要的,采用數據挖掘技術,則可以有效將這些數據通過分類、篩選以及處理,得出有效的數據規則,供學校教學改革時進行參考。例如:教學質量評估數據挖掘模塊的開發,即將教學質量相關的項目通過QSLSevrer進行整合和存儲,例如教學準備、教學內容、教學方式以及教學態度等,最后學生可以進行自行瀏覽并且完成評估,而評估結果則會上傳系統進行最后通過數據挖掘,篩選其中有用的信息,再通過Apr1ori算法挖掘其中關聯規律。
5結語
雖然數據挖掘技術不是一項新興的技術,但是其還具有較大的研究價值與運用前景,特別是在特殊領域的運用,對于一系列數據進行科學冗雜的處理,然后分析其中規則價值,可以有效提升各大行業的經濟效益。
參考文獻
[1]趙倩倩,程國建,冀乾宇,戎騰學.大數據崛起與數據挖掘芻議[J].電腦知識與技術,2014,11(33):7831-7833.
中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2015)09-0239-02
Abstract: along with our country social improvement, economic development,meteorological services in China has been developed greatly in the process.In the process of the development of meteorological services, meteorological data along with the increasing scale and coverage. In the face of this part of the huge data, how to effectively search, its use has become a problem of great concern to the industry of our country. In this paper, the application of data mining technology in meteorological data on the study and analysis of some.
Key words: data mining; meteorological data; application
對于氣象數據的收集與分析有利于幫助我們對不同地區所具有的氣象條件以及氣象規律進行把握,以此使我們能夠更好的對該地區某一時段下的氣象情況進行預測。但是,這種數據的收集就會使我們所具有的氣象數據資料越來越多,難以對其進行管理與應用。僅僅通過我們計算機方式的應用,也很難對這種規模較大的數據集進行處理,在這種情況下,就需要我們能夠以數據挖掘技術的應用更好的實現氣象數據的管理。
1 數據挖掘流程
1.1 確定對象
在開展數據挖掘工作中,首先需要對業務所具有的問題進行明確的定義,幫助我們對數據挖掘的目的進行確定。雖然對于我們后續數據的挖掘結果會具有一定的不可預測性,但是對于我們問題探索的目標卻需要具有良好的預見性,并以此針對性目標的確定幫助我們更好的開展后續工作。
1.2 數據準備
在這個環節中,主要具有數據預處理、數據轉換以及數據選擇這三個主要步驟。其中,數據選擇是對同本次業務具有關聯的維度或者數據進行選擇,并從中選擇出適合本次數據挖掘工作的相關數據;數據預處理則是對本次研究數據所具有的質量進行研究,并以此幫助我們為后續的進一步分析作出準備,同時對數據操作所具有的類型進行確定;數據轉換則是要將不同類型數據通過一定的方式將其轉換為我們所需要的數據分析模型,對于該模型而言,其是針對我們原有挖掘算法而建立的,而這種分析模型的建立也是我們開展數據挖掘工作的重要基礎與重點環節。
1.3 數據挖掘
數據挖掘正是我們本次工作的核心環節,需要對所有數據預處理完成的、經過轉換的數據進行全面的挖掘。在此過程中,除了需要我們以人工的方式對適合本次挖掘工作所使用的算法進行選擇之外,其余的工作都會以自動的方式開展。
1.4 結果解釋與評價
在我們數據挖掘工作結束之后,往往會得到一系列規則集,而這部分規則集通常需要在專業人員對其進行一定的研究與合理的解釋才能夠被人們更好的掌握。對此,就需要我們對本次數據挖掘結果進行適當的解釋與評價,進而使其能夠具有更好的易用性以及廣泛性。
2氣象資料特點
2.1 數據量大
氣象資料可以說是我國歷史最為久遠、保存最為系統且完善的一類資源信息。尤其隨著改革開放之后,我國已經積累了數量非常多的氣象基礎數據以及信息,且新的氣象數據資料也以非常快的速度在每年增長,在我們實際處理時經常會出現冗余情況。
2.2 多樣性
氣象信息具有著非常多樣化的種類,如高空氣象資料、農業氣象資料、日地物理資料、雷達資料、氣象輻射資料、冰雪圈資料、土壤與植被資料、氣象災害資料、地面氣象資料、水文氣象資料以及衛星資料等等。而氣象資料所具有的載體也具有著很多種方式,如不同氣象站所的氣象原始報表,不同省市所的氣象衛星云圖以及雷達圖等等。
2.3 多維性
在氣象資料中,通常都具有著較多的氣象要素,如高空資料以及地面資料往往具有著溫度、日照以及氣溫等很多種要素。而在每一類要素中,也都具有著其所獨特的屬性維度。也正是根據這種特點,則使氣象資料往往具有著較為明顯的多為特征。
2.4 復雜性
氣象資料中所常見的數據類型主要有標稱類型、二元類型、數值類型以及序列類型等等。比如降雨與否為二元類型、氣壓為數值類型等等。
2.5 連續性
在氣象站中,無論是高空站還是地面站,其所具有的氣象要素屬性值都是一種具有連續特征的數值,比如氣壓、溫度以及氣溫要素。
3 氣象資料預處理
3.1 缺失值處理
在SPSS軟件中,具有著很多種對于數據的缺失值處理方式。而對于氣象數據來說,由于其所具有的變化是一個能量的動態變化過程,對此,我們對于氣象數據所具有的缺失值則使用Mean of nearby points方式進行,并對其中所具有的缺失值根據鄰近三個小時所具有的數據平均值對缺失值進行替代。
3.2 氣象資料屬性泛化
在數據維度泛化方面,需要嚴格的按照我國相關標準開展工作,比如在二氧化硫數據的泛化方面,其是否存在超標情況則需要根據我國所制定的污染物濃度標準對其進行泛化。即如果CO2所執行的為一級標準,那么則可以根據其每小時所具有的濃度值同標準中的參考值0.15進行比對,并以此幫助我們判斷該項參數是否存在超標的現象。而對于其所具有的超標、不超標現象來說,我們則需要在對結果判斷之后將其標記為(是,否)二元屬性值。
3.3 氣象資料標準化
在氣象數據資料中,不同維度間數據往往具有著不一致的量綱,而我們在對其開展定量量測以及聚類分析時,也經常由于量綱所具有的不同而對最終的分析結果產生較大的影響。一般情況下,氣象資料中所具有的風向數值都會控制在0至360之間,而如果污染因子的單位為毫克,那么其所具有的范圍則會在0至1之間,我們在對聚類進行應用時如果以距離作為評價,其主要依據則會在兩個維度中更加傾向于風向維護。而為了能夠對這部分維度間所具有的影響進行消除,就需要我們對這部分重點維度開展標準化預處理。在氣象數據的標準化處理中,具有著很多種方式,Z標準化是我們應用較多的一類方式,即均值為0,方差為1。
3.4 氣象資料維歸約
在氣象資料中有時候維度之間具有很強的依賴性或者說相關性,對于維度之間的這種依賴性或者相關性有時候在數據分析時候由于數據量巨大會導致多余的計算,所以對于一些需要把握主要的或者消除冗余的數據來進行數據分析時就可以采用主成分分析方法或者計算相關性來消除這些冗余的屬性維度。
4 氣象資料孤立點分析
在氣象資料中的龐大數據中,我們在對其進行分析時往往忽略了孤立點的存在,或者忽略了孤立點所具有的特殊意義。通常來說,人們認為孤立點僅僅是噪聲數據的一種,且經常將孤立點分析這項工作作為了數據預處理進行處理,僅僅對其中可能對數據挖掘整體結果產生影響的因素進行了剔除。但是,在氣象數據中,這部分孤立點往往具有著非常特殊的意義,通過孤立點數據的分析與檢測,很容易幫助我們對很多災害氣象進行分析。目前,對于孤立點進行分析的技術主要有以下幾種:
4.1 基于統計方式
首先,需要假設我們所具有的數據集能夠滿足某一種概率的分布形式,之后再根據其所具有的這種獨特概率對數據集進行擬合,并通過不一致檢驗方式的應用對其中很多個數據對象開展不一致性測試。如果經過測試發現其存在著不符合的情況,就可以認為其是一個孤立點。
4.2 基于距離方式
在該種方式中,我們可以將對于孤立點的分析視作鄰居對象不充分的集合,且這種鄰居對象也是根據對象所具有的距離進行定義的。通常來說,人們僅僅會通過DB(p,d)的應用對全局孤立點進行發現,而對于局部孤立點卻很難判斷。對此,我們則可以認為孤立點概念不需要以一分為二的屬性對其分離,而可以通過對象孤立度的制定對其所具有的模糊度進行衡量。
4.3 基于密度方式
基于密度的孤立點分析就是探測局部密度,通過不同的密度估計策略來檢查
孤立點。密度即指任一點和 p 距離小于給定半徑 R 的領域空間數據點的個數。基于密度的孤立點分析最顯著的特點就是給定了對象是孤立點程度的定量量度,并且是數據具有不同密度的區域也能得到很好的處理。基于密度的孤立點分析較基于距離的孤立點分析更合理,但數據的計算復雜度較基于距離的孤立點分析要高許多。
4.4 基于聚類方式
聚類分析是用來發現數據集中強相關聯的對象組,而孤立點檢測是發現不與其他對象組強關聯的對象。因此,孤立點分析與聚類是兩個相互對立的過程。首先聚類所有的對象,然后評估對象屬于簇的程度,對于基原型的聚類,可以用對象到它的簇中心的距離來衡量對象屬于簇的程度。
總得來說,數據挖掘技術在我國現今的氣象數據處理中具有著較為重要的作用。在上文中,我們對于數據挖掘技術在氣象數據中的應用進行了一定的研究,而在實際操作過程中,也需要我們在聯系數據類別的基礎上通過數據挖掘技術的應用獲得更好的氣象分析效果。
參考文獻:
根據波特的影響企業的利益相關者理論,企業有五個利益相關者,分別是客戶、競爭對手、供應商、分銷商和政府等其他利益相關者。其中,最重要的利益相關者就是客戶。現代企業的競爭優勢不僅體現在產品上,還體現在市場上,誰能獲得更大的市場份額,誰就能在競爭中占據優勢和主動。而對市場份額的爭奪實質上是對客戶的爭奪,因此,企業必須完成從“產品”導向向“客戶”導向的轉變,對企業與客戶發生的各種關系進行管理。進行有效的客戶關系管理,就要通過有效的途徑,從儲存大量客戶信息的數據倉庫中經過深層分析,獲得有利于商業運作,提高企業市場競爭力的有效信息。而實現這些有效性的關鍵技術支持就是數據挖掘,即從海量數據中挖掘出更有價值的潛在信息。正是有了數據挖掘技術的支持,才使得客戶關系管理的理念和目標得以實現,滿足現代電子商務時代的需求和挑戰。
一、客戶關系管理(CRM)
CRM是一種旨在改善企業與客戶之間關系的新型管理方法。它是企業通過富有意義的交流和溝通,理解并影響客戶行為,最終實現提高客戶獲取、客戶保留、客戶忠誠和客戶創利的目的。它包括的主要內容有客戶識別、客戶關系的建立、客戶保持、客戶流失控制和客戶挽留。通過客戶關系管理能夠提高企業銷售收入,改善企業的服務,提高客戶滿意度,同時能提高員工的生產能力。
二、數據挖掘(DM)
數據挖掘(DataMining,簡稱DM),簡單的講就是從大量數據中挖掘或抽取出知識。數據挖掘概念的定義描述有若干版本。一個通用的定義是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中提取人們感興趣的知識,這些知識是隱諱的、事先未知的、潛在有用的信息。
常用的數據挖掘方法有:(1)關聯分析。即從給定的數據集中發現頻繁出現的項集模式知識。例如,某商場通過關聯分析,可以找出若干個客戶在本商場購買商品時,哪些商品被購置率較高,進而可以發現數據庫中不同商品的聯系,進而反映客戶的購買習慣。(2)序列模式分析。它與關聯分析相似,其目的也是為了控制挖掘出的數據間的聯系。但序列模式分析的側重點在于分析數據間的前后(因果)關系。例如,可以通過分析客戶在購買A商品后,必定(或大部分情況下)隨著購買B商品,來發現客戶潛在的購買模式。(3)分類分析。是找出一組能夠描述數據集合典型特征的模型,以便能夠分類識別未知數據的歸屬或類別。例如,銀行可以根據客戶的債務水平、收入水平和工作情況,可對給定用戶進行信用風險分析。(4)聚類分析。是從給定的數據集中搜索數據對象之間所存在的有價值聯系。在商業上,聚類可以通過顧客數據將顧客信息分組,并對顧客的購買模式進行描述,找出他們的特征,制定針對性的營銷方案。(5)孤立點分析。孤立點是數據庫中與數據的一般模式不一致的數據對象,它可能是收集數據的設備出現故障、人為輸入時的輸入錯誤等。孤立點分析就是專門挖掘這些特殊信息的方法。例如,銀行可以利用孤立點分析發現信用卡詐騙,電信部門可以利用孤立點分析發現電話盜用等。
三、數據挖掘在客戶關系管理中的應用
1.進行客戶分類
客戶分類是將大量的客戶分成不同的類別,在每一類別里的客戶具有相似的屬性,而不同類別里的客戶的屬性不同。數據挖掘可以幫助企業進行客戶分類,針對不同類別的客戶,提供個性化的服務來提高客戶的滿意度,提高現有客戶的價值。細致而可行的客戶分類對企業的經營策略有很大益處。例如,保險公司在長期的保險服務中,積累了很多的數據信息,包括對客戶的服務歷史、對客戶的銷售歷史和收入,以及客戶的人口統計學資料和生活方式等。保險公司必須將這些眾多的信息資源綜合起來,以便在數據庫里建立起一個完整的客戶背景。在客戶背景信息中,大批客戶可能在保險種類、保險年份和保險金額上具有極高的相似性,因而形成了具有共性的客戶群體。經過數據挖掘的聚類分析,可以發現他們的共性,掌握他們的保險理念,提供有針對性的服務,提高保險公司的綜合服務水平,并可以降低業務服務成本,取得更高的收益。
2.進行客戶識別和保留
(1)在CRM中,首先應識別潛在客戶,然后將他們轉化為客戶
這時可以采用DM中的分類方法。首先是通過對數據庫中各數據進行分析,從而建立一個描述已知數據集類別或概念的模型,然后對每一個測試樣本,用其已知的類別與學習所獲模型的預測類別做比較,如果一個學習所獲模型的準確率經測試被認可,就可以用這個模型對未來對象進行分類。例如,圖書發行公司利用顧客郵件地址數據庫,給潛在顧客發送用于促銷的新書宣傳冊。該數據庫內容有客戶情況的描述,包括年齡、收入、職業、閱讀偏好、訂購習慣、購書資金、計劃等屬性的描述,顧客被分類為“是”或“否”會成為購買書籍的顧客。當新顧客的信息被輸入到數據庫中時,就對該新顧客的購買傾向進行分類,以決定是否給該顧客發送相應書籍的宣傳手冊。
(2)在客戶保留中的應用
客戶識別是獲取新客戶的過程,而客戶保留則是留住老顧客、防止客戶流失的過程。對企業來說,獲取一個新顧客的成本要比保留一個老顧客的成本高。在保留客戶的過程中,非常重要的一個工作就是要找出顧客流失的原因。例如,某專科學校的招生人數在逐漸減少,那么就要找出減少的原因,經過廣泛的搜集信息,發現原因在于本學校對技能培訓不夠重視,學生只能學到書本知識,沒有實際的技能,在就業市場上找工作很難。針對這種情況,學校應果斷的抽取資金,購買先進的、有針對性的實驗實訓設備,同時修改教學計劃,加大實驗實訓課時和考核力度,培訓相關專業的教師。
(3)對客戶忠誠度進行分析
客戶的忠誠意味著客戶不斷地購買公司的產品或服務。數據挖掘在客戶忠誠度分析中主要是對客戶持久性、牢固性和穩定性進行分析。比如大型超市通過會員的消費信息,如最近一次消費、消費頻率、消費金額三個指標對數據進行分析,可以預測出顧客忠誠度的變化,據此對價格、商品的種類以及銷售策略加以調整和更新,以便留住老顧客,吸引新顧客。
(4)對客戶盈利能力分析和預測
對于一個企業而言,如果不知道客戶的價值,就很難做出合適的市場策略。不同的客戶對于企業而言,其價值是不同的。研究表明,一個企業的80%的利潤是由只占客戶總數的20%的客戶創造的,這部分客戶就是有價值的優質客戶。為了弄清誰才是有價值的客戶,就需要按照客戶的創利能力來劃分客戶,進而改進客戶關系管理。數據挖掘技術可以用來分析和預測不同市場活動情況下客戶盈利能力的變化,幫助企業制定合適的市場策略。商業銀行一般會利用數據挖掘技術對客戶的資料進行分析,找出對提高企業盈利能力最重要的客戶,進而進行針對性的服務和營銷。
(5)交叉銷售和增量銷售
交叉銷售是促使客戶購買尚未使用的產品和服務的營銷手段,目的是可以拓寬企業和客戶間的關系。增量銷售是促使客戶將現有產品和服務升級的銷售活動,目的在于增強企業和客戶的關系。這兩種銷售都是建立在雙贏的基礎上的,客戶因得到更多更好符合其需求的服務而獲益,公司也因銷售增長而獲益。數據挖掘可以采用關聯性模型或預測性模型來預測什么時間會發生什么事件,判斷哪些客戶對交叉銷售和增量銷售很有意向,以達到交叉銷售和增量銷售的目的。例如,保險公司的交叉營銷策略:保險公司對已經購買某險種的客戶推薦其它保險產品和服務。這種策略成功的關鍵是要確保推銷的保險險種是用戶所感興趣的,否則會造成用戶的反感。
四、客戶關系管理應用數據挖掘的步驟
1.需求分析
只有確定需求,才有分析和預測的目標,然后才能提取數據、選擇方法,因此,需求分析是數據挖掘的基礎條件。數據挖掘的實施過程也是圍繞著這個目標進行的。在確定用戶的需求后,應該明確所要解決的問題屬于哪種應用類型,是屬于關聯分析、分類、聚類及預測,還是其他應用。應對現有資源如已有的歷史數據進行評估,確定是否能夠通過數據挖掘技術來解決用戶的需求,然后將進一步確定數據挖掘的目標和制定數據挖掘的計劃。
2.建立數據庫
這是數據挖掘中非常重要也非常復雜的一步。首先,要進行數據收集和集成,其次,要對數據進行描述和整合。數據主要有四個方面的來源:客戶信息、客戶行為、生產系統和其他相關數據。這些數據通過抽取、轉換和裝載,形成數據倉庫,并通過OLAP和報表,將客戶的整體行為結果分析等數據傳遞給數據庫用戶。
3.選擇合適的數據挖掘工具
如果從上一步的分析中發現,所要解決的問題能用數據挖掘比較好地完成,那么需要做的第三步就是選擇合適的數據挖掘技術與方法。將所要解決的問題轉化成一系列數據挖掘的任務。數據挖掘主要有五種任務:分類,估值預測,關聯規則,聚集,描述。前三種屬于直接的數據挖掘。在直接數據挖掘中,目標是應用可得到的數據建立模型,用其它可得到的數據來描述感興趣的變量。后兩種屬于間接數據挖掘。在間接數據挖掘中,沒有單一的目標變量,目標是在所有變量中發現某些聯系。
4.建立模型
建立模型是選擇合適的方法和算法對數據進行分析,得到一個數據挖掘模型的過程。一個好的模型沒必要與已有數據完全相符,但模型對未來的數據應有較好的預測。需要仔細考察不同的模型以判斷哪個模型對所需解決的問題最有用。如決策樹模型、聚類模型都是分類模型,它們將一個事件或對象歸類。回歸是通過具有已知值的變量來預測其它變量的值。時間序列是用變量過去的值來預測未來的值。這一步是數據挖掘的核心環節。建立模型是一個反復進行的過程,它需要不斷地改進或更換算法以尋找對目標分析作用最明顯的模型,最后得到一個最合理、最適用的模型。
5.模型評估
為了驗證模型的有效性、可信性和可用性,從而選擇最優的模型,需要對模型進行評估。我們可以將數據中的一部分用于模型評估,來測試模型的準確性,模型是否容易被理解模型的運行速度、輸入結果的速度、實現代價、復雜度等。模型的建立和檢驗是一個反復的過程,通過這個階段階段的工作,能使數據以用戶能理解的方式出現,直至找到最優或較優的模型。
6.部署和應用
將數據挖掘的知識歸檔和報告給需要的群體,根據數據挖掘發現的知識采取必要的行動,以及消除與先前知識可能存在的沖突,并將挖掘的知識應用于應用系統。在模型的應用過程中,也需要不斷地對模型進行評估和檢驗,并做出適當的調整,以使模型適應不斷變化的環境。
參考文獻:
[1]羅納德.S.史威福特.客戶關系管理[M].楊東龍譯.北京:中國經濟出版社,2002
[2]馬剛:客戶關系管理[M]大連:東北財經大學出版社,2008
[3]朱美珍:以數據挖掘提升客戶關系管理[J].高科技產業技術與創新管理,2006,(27)
[中圖分類號]TP[文獻標識碼]A[文章編號]1007-9416(2010)02-0079-02
1 前言
數據挖掘能幫助企業減少不必要投資的同時提高資金回報。數據挖掘給企業帶來的潛在的投資回報幾乎是無止境的。世界范圍內具有創新性的公司都開始采用數據挖掘技術來判斷哪些是他們的最有價值客戶、重新制定他們的產品推廣策略,以用最小的花費得到最好的銷售。
2 數據挖掘概述
數據挖掘是一種決策支持過程,是一類深層次的數據分析方法。它主要基于AI、機器學習、統計學等技術,高度自動化地分析企業原有的數據,作出歸納性地推理,從中挖掘出潛在的模式,預測客戶行為,幫助企業的決策者調整市場策略,減少風險,做出正確的決策。數據挖掘的商業應用可以描述為:按企業既定業務目標,對大量的企業數據進行探索和分析,揭示隱藏的、未知的或驗證已知的規律性,并進一步將其模型化的先進有效的方法。數據挖掘是一個利用各種分析工具在海量數據中發現模型和數據間關系的過程,這些模型和關系可以用來做出預測。數據挖掘,還可以稱為數據庫中的知識發現(Knowledge Discovery in Database, KDD),是從大量數據中提取出可信、新穎、有效并能被人理解的信息的高級處理過程。
2.1 數據挖掘是在數據庫技術、人工智能技術、概率與數理統計的基礎上發展起來的一種的技術。
2.1.1 數據庫技術
SQL統治數據庫查詢語言標準三十多年這一事實本身就與現在 IT 發展的節拍不符,難道我們“只會查詢”嗎?所以就有很多專家紛紛轉向數據倉庫與數據挖掘技術,從數據查詢轉向數據挖掘、從數據演繹轉向數據歸納。傳統的數據庫系統的體系結構也過于瘦少,只有不協調的兩層,這樣的結構就造成了只有程序員能編程,老板只能求助于這些“專家”。
2.1.2 人工智能技術
人工智能技術的三大難題:“知識獲取、知識表示、缺乏常識”直接制約了它在現實技術市場上的作為。而在與數據倉庫技術的結合上,它可以發揮重要作用,這使得它轉向數據挖掘技術。
2.1.3 概率與數理統計
數理統計技術是應用數學中最重要、最活躍的學科。但在與數據庫技術的結合上作為有限,這從 SQL 中那可憐的幾條匯總函數便可看出。隨著數據挖掘對查詢、歸納對演繹需求的進化,概率與數理統計將獲得新的生命力。
2.2 數據挖掘中最常用的技術:
2.2.1 工神經網絡(Artificial Neural Networks)
人工神經網絡是仿照生理神經網絡結構的非線性預測模型,通過學習進行模式識別。神經網絡常用于兩類問題:分類和回歸。在結構上,可以把一個神經網絡劃分為輸入層、輸出層和隱含層。而神經網絡的知識體現在網絡連接的權值上,是一個分布式矩陣結構;神經網絡的學習體現在神經網絡權值的逐步計算上,為的是防止訓練過度和控制訓練的速度,如圖1所示:
2.2.2 決策樹 (Decision Tree)
決策樹方法是利用信息論中的互信息(信息增益)尋找數據庫中具有最大信息量的屬性字段,建立決策樹的一個節點,再根據概述性字段的不同取值建立樹的分支;在每個分支子集中重復建立樹的下層節點和分支過程。決策樹的基本組成部分:決策節點、分支和葉子。比如,在貸款申請中,要對申請的風險大小做出判斷,為了解決這個問題而建立的一棵決策樹,如圖2所示:
2.2.3 臨近搜索方法(Nearest Neighbor Method)
臨近搜索方法將數據集合中每一個記錄進行分類的方法。
2.2.4 規則推理(Rule Induction)
從統計意義上對數據中的“如果-那么”規則進行尋找和推導。
2.3 數據挖掘步驟
數據挖掘的數據分析過程可以分為三個步驟:
2.3.1 確定業務對象
清晰地定義出業務問題,認清數據挖掘的目的是數據挖掘的重要一步,挖掘的最后結構是不可預測的,但要探索的問題應是有預見的,為了數據挖掘而數據挖掘則帶有盲目性,是不會成功的。
2.3.2 數據準備(Data Preparation)
本階段又可進一步細分為兩步:數據集成、數據選擇和預分析。
(1)集成(Integration)。在這一步中,將從操作型環境中提取并集成數據,解決語義二義問題,消除臟數據等等。很明顯,數據集成的目的和所利用的技術與數據倉庫的數據集成完全一致,都是為了建立統一的數據視圖。數據挖掘不一定需要建立在數據倉庫的基礎上,但如果數據挖掘與數據倉庫能協同工作,則必將大大地提高數據挖掘的工作效率。
(2)數據選擇和預分析(Data Selection and Pre-Analysis)。這一步將負責縮小數據范圍,提高數據挖掘的質量,前面提到的驗證型工具長于對數據的細致,深入地觀察和表述,在這一步中可以發揮相當的作用。
2.3.3 挖掘(Mining)
數據挖掘(Data Mining processor)綜合利用前面提到的四種數據挖掘方法分析數據庫中的數據。
2.3.4 表述(Presentation)
與驗證型工具一樣,數據挖掘將獲取的信息以便于用戶理解和觀察的方式反映給用戶,這時可以利用可視化工具。由于用戶要求的不同,DM分析的數據的范圍會有所不同,這樣DM系統會得出不同的結論。這些基于不同數據集合的分析結果除了通過可視化工具提供給用戶外還可以存儲在知識庫中,供日后進一步分析和比較。
2.3.5 評價(Assess)
如果分析人員對分析結果不滿意,可以遞歸的執行上述三個過程,直到滿意為止。
3 數據挖掘在企業決策過程中的作用
3.1 數據挖掘的功能
數據挖掘(Data Mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機的數據中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。數據挖掘就是對海量數據進行精加工。嚴格地說,數據挖掘是一種技術,從大量的數據中抽取出潛在的、不為人知的有價值信息、模式和趨勢,然后以易于理解的可視化形式表達出來,其目的是為了提高市場決策能力、檢測異常模式、控制可預見風險、在經驗模型基礎上預言未來趨勢等。數據挖掘技術在商業領域已經不是一個新名詞,最早成功應用于高投入、高風險、高回報的金融領域,正在不斷向電信、保險、零售等客戶資源信息密集的行業拓展。美國財富雜志500強之一的第一數據公司(First Data Corp.)就在為第一國家銀行(First National Bank)、美國在線交易(Ameritrade holding Co.)、奧馬哈保險公司(Mutual of Omaha Co.)等著名的金融證券和保險公司提供數據挖掘的產品服務,這些企業在風險控制、挖掘客戶、降低成本方面的年收益數以億計。
3.2 在企業決策過程中利用數據挖掘的作用
本文為全文原貌 未安裝PDF瀏覽器用戶請先下載安裝 原版全文
目前,商業數據挖掘的應用重點集中在對企業內部信息資源的加工處理,指導企業運營的戰術策略的實施。具體地說,就是在以客戶需求為價值源泉、進銷存為價值鏈的各環節進行數據增值分析,并將分析結果迅速向鏈條的上一環節傳遞,調整鏈條上游的執行達到改善下游環節執行結果的目的,最終形成以客戶終端需求為導向的價值增值。
部分企業資源計劃軟件中集成了對計劃、生產、產品銷售進行數據挖掘的模塊,能夠提供商業智能的分析結果;另外,客戶需求的價值鏈終端是另一個數據挖掘技術應用的重點,客戶關系管理的目的就是創造、挽留客戶并不斷升級對客戶的服務,以保證企業利潤的持續增長。“以客戶為中心”的數據挖掘內容涵蓋了客戶需求分析、客戶忠誠度分析、客戶等級評估分析等三部分,有些還包括產品銷售。
客戶需求分析包括:消費習慣、消費頻度、產品類型、服務方式、交易歷史記錄、需求變化趨勢等因素分析。
客戶忠誠度分析包括:客戶服務持續時間、交易總數、客戶滿意程度、客戶地理位置分布、客戶消費心理等因素分析。
客戶等級評估分析包括:客戶消費規模、消費行為、客戶履約情況、客戶信用度等因素分析。
產品銷售分析包括:區域市場、渠道市場、季節銷售等因素分析。
然而,數據挖掘不僅僅用于客戶關系管理,ERP更不能夠完全覆蓋數據挖掘的整個內涵。企業數據挖掘的內容不僅包括企業的內部信息資源,更包括大量的企業外部信息資源。商業數據挖掘的下一個應用熱點將建立在兩類信息資源充分整合的基礎上。
相對于內部信息資源而言,企業外部的宏觀政策環境、市場需求動向和競爭對手情報等信息資源左右著企業戰略決策與宏觀發展規劃,也直接決定企業市場戰術策略的實施,所以對信息資源的整合利用以及競爭情報分析將成為企業級數據挖掘應用的重點。
以IBM為例,為了導正企業戰略決策方向,IBM于1993年提出三項競爭策略:立即加強對競爭對手的研究、建立一個協調統一的競爭情報運行機制以及將可操作的競爭情報運用于公司戰略、市場計劃及銷售策略。其新的競爭策略通過研究市場格局和競爭對手的狀況、合理定位并改善自身的產品和服務兩個途徑有效地提升了企業核心競爭力,采用的競爭情報運行機制及競爭情報規劃能夠把全公司的競爭情報力量集中于主要的競爭對手和主要威脅,不斷地優化現有的情報資源。
隨著企業市場競爭的日益加劇,企業競爭情報已經不限于原有意義上的數據采集、整理、分類、的概念,“在線”需求逐步超越“離線”需求,“受動式服務”正為“主動式、自助式”服務所取代,數據挖掘技術已經成為“信息分析”這個企業競爭情報系統中核心模塊的技術支撐。“數據在線服務”和“競爭情報個性化服務”將成為企業級數據挖掘應用的新熱點需求,也將成為知識經濟下新興的數據服務模式。
4 結語
數據挖掘的核心技術是人工智能、機器學習、統計學等,但一個DM系統不是多項技術的簡單組合,而是一個完整的整體,它還需要其他輔助技術的支持,才能完成數據采集、預處理、數據分析、結果表述這一系列任務,最后將分析結果呈現在用戶面前。
[參考文獻]
[1] 胡百敬,SQL Server 2000 數據轉換服務[M],北京:中國鐵道出版社,2003.1.
[2] Reed Jacobson,SQL Server 2000 Analysis services 學習指南[M].北京:機械工業出版社,2001.
[3] 韓加煒J.(Han,JiaWei),數據挖掘:概念與技術[M].北京:機械工業出版社,2001.
[4] 陳京民,數據倉庫與數據挖掘[M],北京:電子工業出版社,2002.
[5] 李真文, SQL Server 2000 開發人員指南[M].北京:北京希望電子出版社,2001.
[6] 石鈞.ADO編程技術[M].北京:清華大學出版社,2001.
doi:10.3969/j.issn.1673-0194.2015.02.044
[中圖分類號]F270.7-TP311.13 [文獻標識碼]A [文章編號]1673-0194(2015)02-0058-01
1 數據挖掘技術的分析方法
現在作為數據挖掘的主要工作就是分析方法,只有科學、可信賴的算法才能夠幫助數據進行挖掘工作,找尋數據中隱藏的一些規律。只有利用不同的分析方法,才能解決各種不同的問題。而現在常見的分析方法有聚類分析、分類和事先推測、關聯分析。
1.1 聚類
聚類分析是將一組數據分類成相近性及有異性這樣幾個種類,這樣做的目的就是將同一種類型的數據之間的相近性發展到最大化,不同種類之間數據的相近性盡可能的降低。這項分析方法可以用到客戶團體的分類、客戶背景分析、客戶購買的事先推測、市場細分等。聚類分析廣泛的存在于心理學、醫學、數據識別等領域中。
1.2 分類及事先推測
分類是將數據庫里面的數據對象的相同點按照分類的形式將其歸為不同的類型。這樣做的目的就是經過分類的形式把數據庫中的數據項反射到特點的一個類型。這可以用到客戶的分類、特性、滿意程度、購買趨勢等。而事先的推測是建立連續值函數模型,常見的方法有局勢外推測法、時間序列法、回歸分析的方法。
1.3 關聯分析
在自然界中,每個事物之間都有一定的聯系,如果發生一件事情,肯定會關聯到其他的相應事件。關聯分析就是利用到來事物之間存在的聯系和相互之間的依賴性的規律,對于這些事件進行的預測。在數據庫中的表現就是數據項之間存在的問題之間的關聯,就是一個事物中的某一項事物可能會導致其他一系列事項的出現。對于企業的客戶管理有著非常大的幫助,對于數據庫中的數據進行挖掘,找出影響市場的因素,為各種活動提供依據。
1.4 特征
特征分析方法就是將數據庫里面的一組數據抽取出有關這組數據的特征式,這種特征式能夠表現出數據的整體的特征。就像營銷工作人員對于客戶流失數據的提取能夠了解到原因,利用這些數據找到原因后就能幫助挽留客戶。
2 數據挖掘在企業中的應用
2.1 市場營銷和經營
數據挖掘最早應用的行業就是市場營銷,市場營銷行業利用數據挖掘技術對于用戶進行分析挖掘來獲得客戶的消費習慣和特征,這樣做的目的是來提升銷售的業績。當然,現在數據挖掘不僅是在超市購物上被利用,還普及到很多的金融行業。
經營上使用的具體實例:一些郵件類的廣告上,可以根據數據挖掘幫助確定客戶可能會購買的產品,這樣可以節約很多的郵資,還能夠幫助管理客戶之間的關系,也就是經過分析那些可能走向競爭對手的客戶的特點,這樣就能針對性的來留住顧客。購買方式:利用數據挖掘技術給零售商提供方便,零售商能夠通過這一技術確定顧客會購買哪些商品,還有就是在商店中該放那樣的商品供顧客選擇,目的是方便顧客購買,這樣能夠幫助銷售量的提高。當然數據挖掘技術還能夠幫助用戶分析、評判促銷活動會產生的成效。
2.2 電力、電信行業
隨著數據挖掘技術的發展,電網業務在不斷的進步和豐富。而電信行業快速的發展,電信技術和服務成為一個巨大的混合載體,對于市場關系、技術服務有極大的影響。對于企業的資源進行有效的整體和結合,形成一個非常大的關系網和信息數據系統。對這些數據進行挖掘成為解決各種問題的有效方法,為企業的發展有著非常重要的推動作用。
2.3 互聯網和云計算機
互聯網對于數據挖掘有很多的應用,比如搜索引擎、電子商務等。這些都是利用數據挖掘技術在龐大的數據海洋中找尋能夠符合客戶要求的信息。常見的就是根據預測分類算法來預測出客戶應該需要的信息。
2.4 金融行業
銀行、通信公司、保險行業這些在評估客戶的信用等級上需要注意安全。數據挖掘的利用在金融行業是非常的重要,當然數據挖掘技術在這方面取得了很好的成績,可以幫助這些金融企業正確的識別出詐騙行為、控制風險。如2003年春天,廣東分行在進行信貸電子數據分析的時候,發現了一些異常的現象,發現除了南海華光公司的馮某對于銀行進行的詐騙行為,其中有74億元被騙取,這并不是通過舉報而獲得線索,而是經過數據挖掘技術,發現馮某公司信貸出現的異常,然后被審計人員發現并驗證這一詐騙行為,若不是數據挖掘要想發現這一詐騙可謂是難上加難。
3 結 語
前言
最近幾年,信息技術的不斷發展,使得目前三季度產生的數據量是以前幾百年的總和,且處于持續增長的狀態。盡管激增的數據量擴展了人們的信息范圍,然而無形中也提高了企業或個人從大量數據中挖掘出有價值信息的困難程度。針對該問題,基于云計算的大量數據挖掘技術實現了資源配置和利用的優化,具有虛擬性、實用性等特征,符合數據挖掘快速、準確的要求。由此可見,將云計算技術應用于數據挖掘是目前提高數據利用效率的有效方式。基于此,本文提出的以云計算為基礎的海量數據挖掘模型,旨在提供給各企業快速有效的數據挖掘服務,從而減少生產成本和提升生產效率。
1云計算技術
1.1基本概念
至今為止,關于云計算的定義尚未有統一標準,維基百科上關于云計算的介紹如下:云計算是通過網絡提供給用戶相關服務的新計算模式,主要提供可動態變化的虛擬資源,無需用戶掌握基本支持設施的應用和管理。也就是說,云計算是一種新商機,借助價格低、可連接的計算機聯網進行任務處理,為各系統提供數據存儲、運算或其他功能。就技術面而言,云計算技術起步較早,是虛擬技術的拓展、分布計算技術的發展,是資源統一管理和智能控制的重要表現。和傳統計算機技術相比,云計算技術推動了觀念創新和方法改進。就商業角度而言,云計算技術的應用目標是提供服務,用戶產生需求時會主動購買和應用,適應企業發展和系統升級。通常來講,云計算技術發展衍生出三種商業契機,包括服務即平臺、服務即架構和服務即軟件三種。圖1所示是云計算商業模式邏輯圖。
1.2基于云計算技術的并行運算模型
為了實現對海量數據的并行處理,谷歌公司開發出Ma-pReduce,是一個分布并行運算架構或模型。某個MapReduce可分解成多個Reduce和Map任務,其會將海量數據分解成多個單獨運算的Map任務,同時配發到對應計算機進行運算處理,生成一定格式的中間數據,最后由相關Reduce任務對其進行合并反饋運算結果。谷歌公司關于云計算技術的研發比較成功,其五大主要技術有分布式文件系統、大容量分布式數據庫、分布式鎖機制、集群管理和MapReduce。基于上述主要技術,云計算方能提供大量數據挖掘服務和運算系統。總而言之,云計算平臺會將大量數據分解成統一規格的數據模塊,并分布存儲在云端服務器中,之后通過MapReduce并行運算模型進行數據處理,其是谷歌公司在網絡搜索引擎方面的重大突破。盡管通過MapReduce并行運算模型可進行海量數據處理,然而其要求數據結構相同、運算過程簡單。關于數據挖掘這類密集型的數據處理技術,可能涉及迭代、近似求解等復雜算法,運算過程比較困難。在這種情況下,以云計算技術為基礎的大量數據挖掘受到IT行業的重視,是社會熱點問題之一。
2基于云計算技術的海量數據挖掘
2.1數據挖掘
所謂的數據挖掘,是發現數據庫中有價值信息的過程,即從大量數據中挖掘出有價值或有意義的信息。就企業角度而言,數據挖掘的目的是從大量數據中發現有利于企業經營管理的信息,而且數據量越大,信息準確性越高。一般而言,海量數據挖掘對網絡環境和應用條件要求較高,而云計算技術的應用有效提高了數據挖掘效率。基于云計算的資源管理系統可存儲大量數據,并結合數據挖掘要求來合理配發網絡資源,提高數據挖掘算法的延伸性,且具有一定的容錯性,提高了數據挖掘的可靠性和安全性。
2.2云計算技術在數據挖掘中的應用優勢
(1)基于云計算技術的數據挖掘可進行分布式并行處理,提高了數據挖掘的實時性和有效性。并且適合各種規模的企業,降低了中小企業數據應用成本,減少大型企對特殊數據應用軟件和設備的依賴性;(2)以云計算技術為基礎的海量數據挖掘更便捷、更快速,用戶層被隱藏起來了,不需要用戶進行數據分類、數據分配和任務控制等操作;(3)云計算實現了數據挖掘的并行處理,可提升傳統設備的海量數據處理能力,增加了多個控制節點,具有一定的容錯性;(4)以云計算為基礎的數據挖掘實現了數據應用技術的共享,滿足了不同類型用戶的數據挖掘需要。
2.3基于云計算技術的海量數據挖掘模型
云計算技術在海量數據挖掘中的應用體現在云計算提供了并行處理能力和大容量存儲能力,有效解決了當前海量數據挖掘的難點。圖2所示是關于基于云計算技術的海量數據挖掘模型的結構圖。據圖,以云計算技術為基礎的海量數據挖掘模型包括云服務層、數據運算層和用戶層三層。云服務層是最基層,負責存儲海量數據和提供分布并行數據處理功能。云計算環境除了要保證數據的實用性之外,還要確保數據的安全可靠性。關于數據的存儲,云計算采取分布存儲形式,提供了數據副本冗余存儲功能,確保在數據遺失等情況下用戶的正常運轉。當前,比較普遍的云計算數據存儲技術有開源的HDFS和非開源的GFS兩種。除此之外,云計算數據挖掘實現了數據的并行處理,可在多用戶發出指令的情況下,及時回復并提供數據挖掘服務。圖2基于云計算技術的海量數據挖掘模型的架構圖第二層是數據挖掘運算層,主要負責數據的預處理和挖掘算法的并行處理。數據預處理是對大量無規則的數據進行預先整理,基于云計算的MapReduce并行運算模型只適合同一結構的數據挖掘,常見的數據預處理方法有數據轉化、數據分類、數據抽調、數據約束等。對數據進行預處理是提升數據挖掘質量的重要保障,使海量數據挖掘更實時、更快速。用戶層是最頂層,直接面向用戶,主要負責接收用戶請求,同時將數據傳遞到下一層,并且將數據挖掘的運算結果反饋給用戶。除此之外,用戶還可通過可視化界面來監督和控制任務進度,并實時查看任務執行結果。基于云計算技術的數據挖掘的流程是:用戶在輸入模塊中發出數據挖掘指令,并傳遞給系統服務器,服務器自動根據用戶的挖掘指令在數據庫中調出數據,同時在算法庫中調出最優的挖掘算法,對數據進行預處理之后,傳遞到MapReduce運算模塊進行深入數據挖掘,最后將挖掘結果反饋到可視化界面,以便用戶查看和了解。
2.4云計算技術應用于數據挖掘的缺陷和應對措施
云計算技術尚處于發展階段,勢必會存在諸多問題或缺陷,以云計算為基礎的數據挖掘也存在如下問題:(1)用戶需求問題。以云計算技術為基礎的數據挖掘勢必會成為一種新服務形式,用戶需求也會更多樣化、個性化;(2)數據容量問題。就數據容量而言,未來可能要處理TB甚至PB容量以上的數據,同時還包括噪音數據、動態數據和高維數據等,某種程度增加了數據挖掘的難度;(3)算法選擇問題。數據挖掘效果受算法是否最優和是否并行化等影響顯著,算法設計、參數設置等都對數據挖掘結果有直接作用;(4)不確定性問題。數據挖掘過程中不確定因素較多,比如任務需求描述不準確、數據采集和預處理不確定、算法選擇不確定等。針對上述問題,可從以下幾點入手加強云計算技術在海量數據挖掘中的應用:(1)基本設施的構建。要結合用戶具體的個性化要求,同時考慮各行各業的特點,建立合適的云計算數據挖掘系統;(2)虛擬技術為云計算在數據挖掘中的應用提供了重要保障,未來要加強虛擬技術的研發,并推動其成果的最大限度應用,可有效控制網絡資源的配發和控制;(3)關于各種云計算產品的研發,要充分結合社會具體需要,引導大眾積極參與,從而提高數據挖掘的多樣化和個性化;(4)就可信度而言,設計和應用的算法要具備一定的通用性,滿足后續調查和檢驗的要求;(5)關于數據安全性方面,不可用傳統加密方式來保證數據安全,而要結合用戶的具體需要,在客戶端通過合適的加密方式來保證數據安全性。
中圖分類號:TP311文獻標識碼:A文章編號:1007-9599 (2012) 01-0000-02
Application Analysis of the Data Mining Technology
Zhang Yihui
(Shandong Polytechnic,Jinan250104,China)
Abstract:With the advent and popularization of the Internet age,a lot of information get together,in the quick and easy at the same time to give people the agent has brought us a problem,how is the large amount of data to digest and true and false identification,followed by information how secure is to ensure that lay their unified approach method.This is a new term-data mining technology.Data mining is a relatively new database technology,there is a wide range of practical applications demand;made a comprehensive overview of data mining technology,citing a data mining system composition and mining method.
Keywords:Data mining;Technology;Application;Analysis
何為數據挖掘,所謂數據挖掘(Data Mining)在傳統的定義就是提取隱含在大量的、不完全的、有噪聲的、模糊的、隨機的數據中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。意思簡單來講就是從一大堆亂七八糟的信息數據里提取一些對自己有用的數據知識。
一、數據挖掘的概念
從面的定義中我們對數據挖掘有了一個模糊的了解,其實數據挖掘技術通俗的從字面意思理解就是從數據中挖掘有用的數據。我國一些單位普遍都采用了計算機技術來處理單位的一些業務,因為計算機的分析處理數據的能力比較強,所有產生了大量的業務數據,通過計算機來分析這一大批數據不單單是為了研究的需要,更為重要的是從這些雜亂的數據中分析提取一些對自身企業有價值的數據信息。一些企業單位要從大批量的數據中獲取對自己有用的數據來進行企業運作以及提高自身企業的競爭能力,這就好比從礦石中提煉金子一樣,提取的都是精華。所以數據挖掘越來越得到人們的重視。
隨著數據挖掘和知識發現核心技術研究的逐步深入,其核心模塊已經強有力的形成了三大的技術領域:數據庫技術、人工智能和數理統計。隨著高性能的關系數據庫引擎的廣泛數據集成和相關理論研究和相關技術的成熟,,讓數據庫挖掘技術進入了實用階段。
在國際上,由美國人工智能協會主辦的KDD(數據庫中的知識發現,簡稱KDD)已經漸漸被人們所接受,已經召開了數十次國際研討會,隨著規模的不斷壯大,在注重多種發現策略和技術的集成,理論研究指導實踐應用,以及多種學科之間的相互滲透的基礎上,研究重點也逐漸從發現方法轉向系統應用,成為目前計算機領域的研究熱點;與國外相比,國內研究起步較晚,主要是處在基礎理論上的研究。國家自然科學基金對于該領域的研究項目是1993年首次支持。目前,知識發現的基礎理論及其應用研究在國內的許多知名的高等院校和科研機構已經開展。
二、數據挖掘系統的組成
以下是典型的數據挖掘的幾個組成部分:
(一)數據挖掘所操作的最直接的對象就是數據庫,這些數據庫是一個或一組可以在數據上進行數據收集、存儲、處理和集成的數據庫、數據倉庫或其他類型的信息庫。
(二)數據庫或數據倉庫服務器:在數據處理過程中,根據客戶的數據挖掘請求的指令信息,數據庫或數據倉庫服務器負責提取相關數據反饋信息。
(三)知識庫:數據挖掘的關鍵技術就是知識庫,它是用于指導數據搜索、查找、分析或擬合評估模式的興趣度的領域知識集。另外將數據信息集中屬性或屬性值組成不同的數據抽象層的概念分層和用戶確信方面的知識數據也包括在里面。
(四)數據挖掘引擎:用于特征化、關聯、分類、聚類分析以及演變和偏差分析的一組功能模塊,這是數據挖掘系統的基本組成。
(五)模式評估模塊:這是數據挖掘實現的關鍵所在,在數據挖掘過程中參照興趣度做度量,并與數據挖掘模塊交互配合,以便將數據搜索、歸并、聚焦在有趣模式的操作。根據所用數據挖掘方法的不同,模式評估模塊也可以使用興趣度閥值作為評定參數,去過濾發現的模式挖掘數據,也可以與數據挖掘模塊集成在一起使用。
(六)圖形用戶界面:是以圖形界面的形式給出用戶數據查詢操作或指令任務,并提供中間參考信息提示、幫助搜索、確定聚焦興趣度,根據數據挖掘的中間結果進行探索式數據挖掘的操作模塊,是在用戶和數據挖掘系統之間通信的橋梁,是用戶與系統交互的中介。
三、數據挖掘方法
數據挖掘方法的來源主要是由人工智能和機器學習的方法發展來的,結合傳統的統計分析方法、模糊數學方法以及科學計算可視化技術,以數據庫為研究對象,形成的數據挖掘的方法和技術。數據挖掘是數據和信息系統及其應用的學科前沿,是綜合了數據庫、專家系統和可視化等領域的相關技術的多學科和多種網絡技術交叉結合的新領域,在商業利益的強大推動下,每年都有新的數據挖掘方法和模型的出現,數據挖掘的方法和技術可以分為六大類。
(一)關聯分析(Association Analysis)。在數據處理中,隨著大量數據不停的收集、存儲和處理,關聯規則在數據挖掘中發現大量數據項集之間有趣的關聯和相互聯系,因此許多業界人士對于通過關聯規則從相關數據庫中挖掘有用的信息,并從中組織和處理這些有用的數據是越來越感興趣。
(二)聚類方法(Clustering Approach)。在數據處理中,按一定的規則(參照距離或相似尺寸等)將數據分成一系列相互區別的數據組或數據集,這種操作不需要用戶的事先提示相關操作和背景知識而去直接挖掘、發現有意義的數據結構或數據模式的方法。
(三)決策樹方法(Decision Tree Approach)。該方法是一種常用于預測模型的算法,具有信息描述簡單、查找速度快的特點,適合于大規模的數據挖掘。建立決策樹的過程:首先根據信息論中的信息增益尋找數據庫中具有最大信息量的字段,從中找到潛在的、有價值的信息,然后建立決策樹的節點,再根據字段的不同取值建立樹的各個分枝,然后在每個分枝子集上分別遞歸上述過程,即可。
(四)神經網絡方法(Neural Network Approach)。神經網絡由于本身的特性適合解決數據挖掘問題,因此,近年來越來越被關注。以HEBB學習規則和MP模型為基礎的模擬人腦神經元方法,建立了三大類多種神經網絡模型:反饋式網絡模型、前饋式網絡模型和自組織網絡模型。
(五)遺傳算法(Genetic Algorithms)。遺傳算法是模擬生物自然選擇與遺傳機理的(進化過程)隨機的算法,由繁殖(選擇)、交叉(重組)、變異(突變)三個基本算子組成的仿生全局優化方法。遺傳算法所具有的特有性質已在數據挖掘中發揮了顯著作用。
(六)可視化方法(Visualization Approach)。可視化方法增強人們認識能力,拓寬了傳統的圖表展示功能,增強了用戶對數據反饋的感知度,使用戶對數據的剖析更加清楚。例如,在數據庫表中,將多維數據變成多種線性圖形(如線圖、柱圖),增加直觀性,使用戶更好、更快速的理解和掌握,并充分揭示數據的內涵、內在本質及規律起了很大的作用。
四、數據挖掘的應用領域
數據挖掘所應用的領域非常廣泛,目前,數據挖掘應用最集中的領域包括醫療保健、金融、司法、市場、零售業、制造業、工程與科學等。但每個領域又有其特定的應用問題和應用背景。
(一)醫療保健。在我過國,醫療保健行業有大量的數據需要處理。這個行業中數據挖掘最關鍵的任務是進行數據處理理,系統可以從大型多變的數據庫中發現并整理,預測醫療保健費用。由實驗室開發的解釋保健數據,在定量范圍內解釋偏差,生成報表。
(二)金融。數據挖掘技術在金融行業中的應用不但指的是對金融事務數據的開采,能夠發現某個客戶、消費群體或組織的金融和商業興趣,并且還可以融市場的變化趨勢。
(三)司法。在司法方面,數據挖掘技術可應用在案件調查、詐騙監測、洗錢認證、犯罪組織分析等工作中,這將給司法工作帶來巨大的收益,例如:美國財政部開發的系統,對各類金融事務進行監測,識別洗錢、詐騙等。
(四)數字城市。數據挖掘技術應用于數字城市建設中的數據整合系統是指通過對不同的數據庫資源進行連接,根據需要獲取不同的數據庫資源的數據內容,組合形成所需要的數據資源,支持分析決策。在這種機制下,即實現了數據集市的建立,又解決了與城市信息化建設中業已建成的各種信息系統運行上獨立,數據上統一的問題。
(五)制造業。制造業應用數據挖掘技術進行零部件故障診斷、資源優化、生產過程分析等。例如進行彩色掃描儀的生產過程分析。他們基于大約公司個參數建立了一個自動數據收集系統,產生了難以手工處理的大量數據,通過使用,工程師們能夠對數據進行分析并對最重要的參數進行認定。
五、利用WEKA編寫算法
作為數據挖掘愛好者自然要對WEKA的源代碼進行分析并以及改進,努力寫出自己的數據挖掘算法。我一直覺得對于機器學習算法來說,weka是很有特色的工具,算法非常多。而且還有諸如clementine之類的數據流處理工具。相比之下,clementine的算法就會失色很多。但是weka的可視化做的不好。這是它的缺點。如果在weka的基礎上再做些二次開發,加強可視化的應用應該很不錯。最近看到一本書叫《可視化數據》,作者竟然包裝了java的圖形庫,自己創作出了個processing語言來做數據可視化,似乎效果不錯,而且也是開源的。如果能在這個基礎上做些研發應該會不錯的。
六、結語
在現今社會,數據挖掘技術已經可以被應用與所有的領域和行業中。在人們生活里的各個方面幾乎都可以用到數據挖掘技術數據挖掘技術不但給我們的日常生活帶來了巨大的改變和影響,并且這種影響還深深的改變著我們的生活方式。
參考文獻:
[1]韓少鋒,陳立潮.數據挖掘技術及應用綜述[J].機械管理開發,2006,2
[2]顏惠,吳小穗.MetaCrawler集成搜索引擎[J].圖書館工作與究,2002,3:46-47
[3]周黎明,邱均平.基于網絡的內容分析法[J].情報學報,2005,5:594-599
作者簡介 胡珊珊(1982-),女,江西經濟管理干部學院講師、審計師、碩士,研究方向為審計。(江西南昌 330000)
隨著經濟的發展,企業活動的日益錯綜復雜,交易數量的龐大對各項交易進行記錄、分析的過程如果仍然依靠手工操作,會導致工作效率嚴重低下,并且工作成本大大增加。與此同時,隨著計算機技術和網絡的普及,人工智能系統已經被引入企業管理,如供應鏈管理系統(SCM)和企業資源計劃系統(ERP),這些系統使企業的眾多交易活動都可以通過計算機實時在線錄入,形成大量的數據,現代審計面臨著數據庫中的海量數據,如何從中尋找出一定的數據特征,發現可疑數據,以提高審計效率和降低審計風險,是審計人員面臨的嶄新課題。
一、數據挖掘技術在現代審計中的應用
數據挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中,提取隱含在其中的、人們事先不知道的但又是潛在的信息和知識過程。這一概念要求數據源必須是真實的、海量的、有噪聲的。數據挖掘是一個完整的過程,該過程從大型數據庫中挖掘先前未知的、有效的且可用的信息,并利用這些信息做出決策或者豐富知識。
數據挖掘改變了審計實踐的方式。由于信息技術的普及,很多企業引入人工智能系統,這些系統使企業的眾多交易活動都可以實時在線錄入,各種事件包含大量會計數據和經營管理數據。審計人員通過對數據的分析獲得審計線索,獲取有用的審計證據,并發表適當的審計意見。數據挖掘可以從大量的數據中發現隱藏于數據中的新的或者不可預見的模式,可以回答審計人員可能根本沒有想過的問題。
在審計過程中運用數據挖掘技術的基本思路是這樣的:首先接受日志收集信息系統各部件提交的統一格式的審計數據,然后對這些數據進行預處理,比如轉換格式、數字提煉等。接下來運用合適的數據挖掘算法對審計數據進行處理,提取數據中隱藏的知識,并對實踐進行統計。最后系統地進行審計數據的分析處理及趨勢預測。
目前應用于現代審計業務的數據挖掘技術主要有以下幾種方法:
(一)離群點挖掘
離群點挖掘是從大量復雜的數據中挖掘出存在于小部分異常數據中新穎的、與常規數據模式顯著不同的數據模式。利用離群點挖掘,一方面可以對審計數據進行有效的預處理,減少審計數據量,快速定位數據,從而提高審計效率;另一方面可以自動的從數據中提取難以發現的業務模式和管理模式行為,減少人工參與,減輕審計人員工作負擔。
(二)孤立點檢測
孤立點是在數據源中與眾不同的數據,使人懷疑這些數據并非隨機偏差,而是產生于完全不同的機制。由于審計中可疑數據往往表現為孤立點,所以通過檢測并去除數據源中的孤立點可以達到數據清理的目的,從而提高數據質量,以達到審計目的。
(三)異常點檢測
異常點檢測是數據挖掘技術中重要的研究內容。它是從大量審計數據對象中挖掘少量具有異常行為模式的數據對象,很多情況下,這些審計數據對象包含了跟多審計人員感興趣的信息。
(四)聚類分析
數據聚類是將審計資料數據中較為接近的數據劃為一類,根據不同數據的特征,將對象分成幾個群體。聚類分析可應用于控制測試階段,為測試各控制環節的執行情況將具有相似特征的交易分組。繼而更有利于審計人員對相似數據進行分析、挖掘。
(五)關聯規則
關聯規則發現是通過分析資料,找出某一事件或資料中會同時出現的東西。關聯規則挖掘用于發現大量數據集合間有意義的關聯,它側重于數據中不同領域之間的聯系。審計信息系統運用關聯規則提取數據之間的聯系,能有效的分析經濟業務中數據的相關性,從而使審計人員更準確的發現數據之間的聯系。
隨著信息技術的迅猛發展和審計實踐的變化,這些技術還在實踐中不斷的完善和發展,將來必定有更多更有用的數據挖掘方法應用于審計實踐。
二、數據挖掘技術應用于現代審計工作的意義
隨著信息技術的發展和網絡的廣泛普及,審計數據和網絡數據以驚人的速度增長。審計過程中利用計算機技術的程度越來越高,很多大型組織已經建立并運行著特大數量級的應用數據庫,并積累了大量的歷史數據。審計人員面對的也不再是紙質的會計資料,每一個被審計單位的計算機系統和網絡系統中都存在著大量的財務數據或非財務數據。在審計系統中引入數據挖掘技術,顯示出了巨大的優勢,尤其是在大規模網絡環境下進行的數據挖掘,不但可以提高系統的運行效率,還能增強系統的智能性。
數據挖掘作為一種新興的技術,與以往的單純的統計方法相比,其優勢在于它能從數據中發現人們未知的知識和規律。我們引入數據挖掘技術的目的是建立一種系統化和自動化的創建入侵檢測系統的方法,這種方法采用以數據為中心的視點,將入侵檢測視為一個數據分析過程。這種方法符合現代審計的需要,其核心是將數據挖掘技術應用于審計數據,從中分別提煉出正常和入侵情況下的用戶行為模式,再由生成的模式庫匹配入侵檢測系統所采集到的數據以捕獲網絡入侵。它不僅可以處理大規模的數據,而且不需要審計人員提供主觀評價信息,這種技術能發現容易被審計人員主觀忽視和隱藏的信息,有利于避免有價值的線索被人為的主觀因素所忽略的情況。
三、數據挖掘技術應用的局限性
數據挖掘技術在西方審計中還處于初級階段,它的應用還有一定的局限性。
1.數據質量難以保證
數據挖掘技術的基礎在于數據本身的質量,如果數據本身是虛假的、錯誤的,特別是作為審計對象的那些數據如果被審計單位篡改了,那么再先進、再成熟的數據挖掘技術也無法得出有意義的結論。
2.使用成本高
數據挖掘技術要應用于實際工作中,必須要產生相應的數據編制成本、維護成本、分析成本和人員培訓成本,一些數據軟件的成本費用更是高的驚人。成本因素也是數據挖掘技術應用于審計工作中的一個局限。
3.對審計人員的素質要求高
由于審計數據特征和測度是根據建模者的經驗和知識選擇的,因此數據挖掘技術要真正應用到現代審計工作中來,不僅需要審計人員具有豐富的審計理論知識和實踐經驗,而且還要求他們掌握計算機的專業知識,熟悉數據庫和數據挖掘的技能。他們不僅要能識別、運用挖掘技術,而且還要對結果做出有效的分析和評價。
四、結論
盡管數據挖掘技術應用于現代審計技術還處于初級階段,但它的巨大優勢是傳統審計方法無可比擬的,相信在不久的將來隨著審計人員技術水平的提高和對數據挖掘技術研究的深入,數據挖掘技術必定將在現代審計中有更廣闊的應用前景。
1 關于數據挖掘技術
數據挖掘技術是20世紀80年代誕生的一門新興學科。對數據挖掘技術從技術的角度來看,顧名思義就是從大量的、復雜的、不規則的、隨機的、模糊的數據中獲取隱含的、人們事先沒有察覺的、有潛在價值的信息和知識的過程。而從商業角度來看,數據挖掘技術就是從海量的數據庫當中進行抽取、轉換、分析一些潛在規律和價值,從而獲得輔助商業決策的關鍵信息和有用的知識的過程。
計算機的數據挖掘技術對于海量的數據可以起著整理的作用,不僅對于企事業的工作生產起著巨大的作用,同時對于學校的校園生活也提供了很好的幫助,除此,計算機的數據挖掘技術還應用在許許多多的不同領域當中。
2 數據挖掘的基本流程
2.1 數據準備階段
由于海量的原始數據是長期的、無規律積累的結果,而且這些原始的數據是不適合進行數據挖掘的,因此必須要進行預處理的過程,在海量的原始數據中進行數據的選擇、清洗、推測、轉換等相關的操作,在進行數據準備階段的時候,一般分為三個子步驟,既是:數據集成,就是從多個數據源中來提取整合的數據,并對這些數據進行處理;數據收集,就是根據要挖掘數據的目的來對數據進行縮小范圍的操作,從而提高挖掘的數據的質量;數據預處理,就是對已經挖掘的數據做進一步的準備和分析,來確定進行挖掘的類型。這一系列的過程就被稱之為數據準備階段,數據準備的好與壞是直接決定數據挖掘的質量和效率的。
2.2 數據挖掘階段
當原始數據進行相應的處理之后,就進入相當關鍵的階段,按照數據挖掘的目標要求,來選擇恰當的算法,挖掘數據的規律,一般來說,常用的算法主要包括決策樹、分類、神經網絡等,具體操作就是進行算法的選擇和參數的確定,不斷反復的進行重復的操作,直到對挖掘的數據滿意之后,此過程被稱之為數據挖掘階段。
2.3 數據的評價分析及知識運用
對進行數據挖掘之后的結果進行解釋、分析,來提取有意義的或者是有使用價值的規律,將這些數據進行還原的操作,使之成為能夠被用戶所謂理解的數據語言。將挖掘到的評估結果在現實的決策中進行運用,就是所說的知識運用,這樣是一個非常重要的過程,是數據挖掘的最終實現的目的。
3 數據挖掘技術的應用
計算機數據挖掘技術作為一門新興的學科,是順應時展的潮流的,自從此項技術誕生以后,就備受矚目,由于自身的特點也受到廣大用戶的親睞,因此,在許多的行業范圍之內,計算機數據挖掘技術也得到了充分的發揮和使用。
3.1 在金融領域的應用
金融領域所涉及的層面較為廣泛,包括諸如銀行、金融機構、金融分析領域等不同的方面,對于這些海量的數據來說,對金融的投資方面的風險和股票交易的方面的預測,則更是讓投資者和決策者大傷腦筋,這就要求大家對如此的海量進行判斷,而如果通過個人的經驗進行判斷的話,可能容易導致錯誤的發生,在這時,計算機的數據挖掘技術就恰恰迎合了用戶的心理,可以通過此項技術在海量的信息當中提取自己所需的各種信息,以及信息之間的關聯和關系,對風險進行規避,對股票進行很好的預測。
3.2 在教育領域的應用
教育信息化不斷的發展,已經成為近幾年教育培養的新趨勢。學校已經摒棄了較為傳統的時間空間比較固定的教育模式,而是開始了學生、教師、學校三者之間的較為繁雜多樣的交流方式,數據挖掘技術也為教育領域開辟了新思路。比如在學校中的學生信息的管理系統、教師的教務管理系統、選課系統等都體現了數據挖掘技術的優勢。此外,還包括學生在校園中的圖書館借閱的功能、飯卡充值等一卡化的功能,也離不開計算機數據挖掘技術的應用。因此,計算機的數據挖掘技術也很大程度的輔助了信息化教學的持續發展。
3.3 在電子商務領域的應用
電子商務已經成為計算機用戶每天必不可少的一個環節,尤其對于年輕人而言,很多用戶每天瀏覽于各個電子商務網站,同時企業又很期望自己的網站或者是產品能夠被更多的用戶所瀏覽和點擊,從而來完成訂單的操作,獲得利潤。那這時,計算機的數據挖掘技術便起了巨大的作用,用戶或者企業可以通過此技術對一些的數據進行歸納匯總、分析、判斷,最終得以整合,使得用戶可以選到滿意的產品,同時,企業也可以在眾多的競爭對手中處于不敗之地。
3.4 在軍事領域的應用
隨著信息化和科技化的不斷加強,軍事領域的任務也不單單是傳統的關注了,更多的需要進行新興的媒體技術對存在的數據進行收集、分析、整理,這樣,既可以掌握自己的軍事實力,同時,又能有效的去了解和監管其他方面的軍事情況。事實上,在當今的形勢之下,任何一個國家,都非常的重視數據挖掘技術對所需信息的使用,同時,也需要大量的計算機能力很強的人才,愛國敬業,計算機挖掘技術在軍事領域的應用是絕對不可小覷的。
4 結語
總之,隨著數據挖掘技術的不斷發展,許多的人們也越來越認可數據挖掘技術的重要性,對信息的價值性越來越重視,因此,如何從大量的數據中去挖掘出自己日常所需的數據知識已經日益重要。同時,計算機的數據挖掘技術已經廣泛的被應用到各個領域當中,充分發揮著作用。
參考文獻
[1]趙楊杰,王樹斌.數據挖掘技術的前景探究[J].科技創新導報,2014(15).
[2]許芳芳,丁雷道.淺談數據挖掘技術及其相關問題解析[J].數字技術與應用,2014.(04).