三年片免费观看影视大全,tube xxxx movies,最近2019中文字幕第二页,暴躁少女CSGO高清观看

數(shù)據(jù)挖掘技術(shù)應(yīng)用匯總十篇

時間:2023-03-13 11:05:25

序論:好文章的創(chuàng)作是一個不斷探索和完善的過程,我們?yōu)槟扑]十篇數(shù)據(jù)挖掘技術(shù)應(yīng)用范例,希望它們能助您一臂之力,提升您的閱讀品質(zhì),帶來更深刻的閱讀感受。

數(shù)據(jù)挖掘技術(shù)應(yīng)用

篇(1)

中圖法分類號:TP274文獻(xiàn)標(biāo)識碼:A文章編號:1009-3044(2010)22-6231-02

Survey on Data Mining Technology

WANG Wen

(School of Computer Science and Technology, China University of Mining and Technology, Xuzhou 221116, China)

Abstract: Data Mining technology is an important part of modern computer technology. Using Data Mining can solve many problems in artificial intelligence. In this article, the development and the principle of Data Mining are introduced. Some of the newly application of Data Mining are involved. This article also have the expects for the future development of Data Mining.

Key words: data mining; user preference; examination system; intrusion detection system

隨著時代的發(fā)展,計算機科學(xué)在以飛快的速度前進(jìn)著。在計算機科學(xué)的眾多領(lǐng)域中,人工智能是最富有挑戰(zhàn)性和創(chuàng)造性的一個領(lǐng)域。近幾十年來,隨著人工智能技術(shù)的日漸成熟,人們對人工智能的研究更加深入,對人工智能更加重視。科學(xué)界對于人工智能的重要性也已形成共識。

自進(jìn)入21世紀(jì)以來,電子數(shù)據(jù)獲取與計算機技術(shù)方面的不斷發(fā)展以及網(wǎng)絡(luò)的廣泛普及與應(yīng)用,人們?nèi)粘I钪薪邮盏臄?shù)據(jù)和信息較以往正以飛快的速度增加,因而形成了獨特的知識爆炸時代。就在最近幾十年很多超大型數(shù)據(jù)庫的產(chǎn)生使得整個社會發(fā)生著天翻地覆的變化,遍及銀行存款、超級市場銷售、粒子物理、天文學(xué)、化學(xué)、醫(yī)學(xué)以及政府統(tǒng)計等領(lǐng)域。在這個數(shù)字化、信息化時代,這么大規(guī)模的數(shù)據(jù)庫以及以后可能誕生的更大規(guī)模的數(shù)據(jù)庫的數(shù)據(jù)管理問題將會是以后對數(shù)據(jù)處理的一個重要關(guān)注點。眾多科技工作者共同關(guān)注的焦點集中在了如何從這些大型數(shù)據(jù)庫中發(fā)現(xiàn)有用的、信息、模式以及如何實現(xiàn)有效的數(shù)據(jù)處理方法。因而“數(shù)據(jù)挖掘”(Data Mining) 的新領(lǐng)域逐漸走進(jìn)了人們的事業(yè),并且在人們的關(guān)注和不斷研究下飛速發(fā)展,這是一個與統(tǒng)計學(xué)、人工智能、模式識別、機器學(xué)習(xí)、數(shù)據(jù)庫技術(shù)以及高性能并行計算等領(lǐng)域都有很大相關(guān)的新學(xué)科,正是計算機學(xué)科的一個研究重點。

1 數(shù)據(jù)挖掘的一般過程

數(shù)據(jù)挖掘一般分為如下四個步驟(圖1)。

1.1 數(shù)據(jù)預(yù)處理

收集和凈化來自各種數(shù)據(jù)源或數(shù)據(jù)倉庫的信息,并加以存儲, 一般存于數(shù)據(jù)倉庫中。

1.2 模型搜索

利用數(shù)據(jù)挖掘在數(shù)據(jù)庫中匹配模型,這個搜索過程可以由系統(tǒng)自動執(zhí)行,自下而上搜索原始數(shù)據(jù)以發(fā)現(xiàn)它們之間的某種聯(lián)系;也可以進(jìn)行用戶交互,由分析人員發(fā)問,自頂向下尋找以驗證假設(shè)的正確性。一個問題的搜索過程可能用到許多模型,如神經(jīng)網(wǎng)絡(luò)、基于規(guī)則的系統(tǒng)(決策樹)、機器學(xué)習(xí)、基于實例的推理等。

1.3 評價輸出結(jié)果

一般來說,數(shù)據(jù)挖掘的搜索過程需要反復(fù)多次,當(dāng)分析人員評價輸出結(jié)果后,它們可能會形成一些新的問題,或者要求對某一方面作更精細(xì)的查詢,通過反復(fù)的搜索過程即可滿足分析人員的這種需求。

1.4 生成報告

知識的發(fā)現(xiàn)過程可以由數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)選擇、數(shù)據(jù)變換、數(shù)據(jù)挖掘、模式評估和知識表示等幾個步驟組成。數(shù)據(jù)挖掘可以與用戶或知識庫交互,把用戶關(guān)心的模式提交給廣大用戶,或作為新的知識存放在知識庫中。

2 數(shù)據(jù)挖掘應(yīng)用

2.1 數(shù)據(jù)挖掘在實現(xiàn)網(wǎng)站用戶偏好度的應(yīng)用

數(shù)據(jù)挖掘就是從大量的數(shù)據(jù)中發(fā)現(xiàn)隱含的規(guī)律性的內(nèi)容,解決數(shù)據(jù)的應(yīng)用質(zhì)量問題。使數(shù)據(jù)能夠被更加高效的利用,對無用的數(shù)據(jù)加以摒棄,是數(shù)據(jù)挖掘技術(shù)最主要的實現(xiàn)形式,也是其最重要的應(yīng)用方式。傳統(tǒng)的數(shù)據(jù)庫中的數(shù)據(jù)相對于Web的數(shù)據(jù)而言,其結(jié)構(gòu)性很強,是完全結(jié)構(gòu)化的數(shù)據(jù),而半結(jié)構(gòu)化則是Web上的數(shù)據(jù)最大特點。因而,面向單個數(shù)據(jù)倉庫的數(shù)據(jù)挖掘較之面向Web的數(shù)據(jù)挖掘比要簡單許多。據(jù)統(tǒng)計,網(wǎng)站上的絕大部分內(nèi)容對絕大部分用戶來說是無用的信息。事實是對于某個特定用戶來說,其關(guān)心的內(nèi)容僅是網(wǎng)站上極小部分的內(nèi)容,而網(wǎng)站上提供的更多的內(nèi)容對于這個用戶來說是其不感興趣的,并且過多的信息往往會掩蓋有用的信息,使得用戶的查詢效率降低,并且對于網(wǎng)站也不是一件利事。

對于Web數(shù)據(jù)挖掘技術(shù)而言,半結(jié)構(gòu)化數(shù)據(jù)源模型和半結(jié)構(gòu)化數(shù)據(jù)模型的查詢與集成問題是應(yīng)當(dāng)首要解決的問題。解決Web上的異構(gòu)數(shù)據(jù)的集成與查詢問題,有一個模型來清晰地描述Web上的數(shù)據(jù)是很必要的。因此,針對數(shù)據(jù)半結(jié)構(gòu)化的Web數(shù)據(jù)的特點,尋找一個半結(jié)構(gòu)化的數(shù)據(jù)模型至關(guān)重要。并且除此定義一個半結(jié)構(gòu)化數(shù)據(jù)模型之外,一種半結(jié)構(gòu)化模型抽取技術(shù)(自動地從現(xiàn)有數(shù)據(jù)中抽取半結(jié)構(gòu)化模型的技術(shù))也是應(yīng)當(dāng)提出的。因而半結(jié)構(gòu)化模型和半結(jié)構(gòu)化數(shù)據(jù)模型抽取技術(shù)是面向Web的數(shù)據(jù)挖掘?qū)崿F(xiàn)的重要前提。

用戶瀏覽網(wǎng)站上的內(nèi)容時,他會被很的多因素影響,網(wǎng)頁的外觀,信息標(biāo)題,網(wǎng)頁鏈接以及個人的興趣和習(xí)慣等等。我們可以設(shè)定合理的假設(shè),建立他們之間的模型,利用以上提到的方法解決用戶偏好度的問題。

2.2 數(shù)據(jù)挖掘在在線考試系統(tǒng)方面的應(yīng)用

數(shù)據(jù)挖掘在在線考試系統(tǒng)方面的應(yīng)用最主要體現(xiàn)在題庫的構(gòu)建,下面分別介紹題庫的構(gòu)建中數(shù)據(jù)挖掘的應(yīng)用情況。

在設(shè)計數(shù)據(jù)庫方面,數(shù)據(jù)庫主要由題庫、答案庫和答案關(guān)鍵字庫構(gòu)成,題型庫又涵括科目、題號、題型、題目、難度、分值等字段;答案庫中包含科目、題號、分值、答案以及在同一題中有不同答案時應(yīng)提供的不同答案序號等字段;答案關(guān)鍵字庫中有題號、答案序號、權(quán)重和答案關(guān)鍵字。此后在將答案錄入答案庫。對于客觀題而言,僅僅需要錄入唯一的答案;但對于主觀題而言,則需要盡量給出多個參考答案并將每個答案的關(guān)鍵字及其所對應(yīng)的權(quán)值、答案序號輸入答案關(guān)鍵字庫。

通常有兩類數(shù)據(jù)挖掘方法:①統(tǒng)計型,應(yīng)用概率分析、相關(guān)性、聚類分析和判別分析等技術(shù)得以實現(xiàn);②通過人工智能中的機器學(xué)習(xí),經(jīng)過訓(xùn)練以及學(xué)習(xí)輸入大量的樣品集,以得出需要的模式或參數(shù)。由于每一種方法都根據(jù)其特點都有其優(yōu)勢以及相應(yīng)的引用領(lǐng)域,最后結(jié)果的質(zhì)量和效果將受到數(shù)據(jù)挖掘技術(shù)選擇的影響,采用多種技術(shù)結(jié)合的方法,其各自的優(yōu)勢可以達(dá)到互補的要求,從而實現(xiàn)最佳配置。下面介紹了兩種數(shù)據(jù)挖掘方法: ①決策樹算法:為每個問題的答案構(gòu)造一個二叉樹,每個分支或者是一個新的決策點,或者是一個葉子節(jié)點。在沿著決策樹從上到下的遍歷過程中,對每個問題的不同回答導(dǎo)致不同的分支,最后到達(dá)一個葉子節(jié)點,每個葉子節(jié)點都會對應(yīng)確定的權(quán)值,通過對權(quán)值的計算判定得分;②模糊論方法:利用模糊集合理論,對實際問題進(jìn)行模糊判斷、模糊決策、模糊模式識別、模糊簇聚分析。由于主觀題答案很靈活,答案不可能完全匹配,采用此方法將考生答案與答案庫中的答案進(jìn)行對照,以確定答案的正確度,從而更客觀準(zhǔn)確地評定主觀題分?jǐn)?shù)。

2.3 數(shù)據(jù)挖掘在網(wǎng)絡(luò)入侵檢測系統(tǒng)方面的應(yīng)用

入侵檢測就是通過運用一些分析方法對從各種渠道獲得的反映網(wǎng)絡(luò)狀況和網(wǎng)絡(luò)行為的數(shù)據(jù)進(jìn)行分析、提煉,再根據(jù)分析結(jié)果對這些數(shù)據(jù)進(jìn)行評價,從而能夠識別出正常和異常的數(shù)據(jù)或者對潛在的新型入侵做出預(yù)測,以保證網(wǎng)絡(luò)的安全運行。

基于分布式數(shù)據(jù)挖掘的入侵檢測系統(tǒng)要對一個網(wǎng)段上的信息進(jìn)行全面而細(xì)致的監(jiān)測,同時在網(wǎng)絡(luò)上多個點進(jìn)行數(shù)據(jù)采集,如網(wǎng)關(guān)和特別需要保護(hù)的服務(wù)器等。整個系統(tǒng)構(gòu)成分為本地分類器、規(guī)則學(xué)習(xí)模塊和集中分類器三塊基本構(gòu)件。本地分類器負(fù)責(zé)對從網(wǎng)絡(luò)上各個點采集到的數(shù)據(jù)通過預(yù)處理模塊去除掉無效數(shù)據(jù),并將原始數(shù)據(jù)處理成為以后進(jìn)行數(shù)據(jù)挖掘算法可識別的格式,以實現(xiàn)對數(shù)據(jù)的初步檢測和處理。本地分類器有2個輸出:一個輸出為分類數(shù)據(jù),用于提交給規(guī)則學(xué)習(xí)模塊,另外一個為數(shù)據(jù)摘要,用于提交給集中分類器。規(guī)則學(xué)習(xí)模塊負(fù)責(zé)對標(biāo)記過的分類數(shù)據(jù)進(jìn)行深層次的數(shù)據(jù)挖掘,從而學(xué)習(xí)到新的知識。學(xué)習(xí)到的知識被直接錄入到規(guī)則庫中,這樣保證了規(guī)則庫可以根據(jù)網(wǎng)上的變化可以隨時達(dá)到更新的需求。另外一種方式是通過規(guī)則學(xué)習(xí)模塊實現(xiàn)人工訓(xùn)練系統(tǒng),從而實現(xiàn)升級規(guī)則庫的需求。最后將分布式數(shù)據(jù)挖掘的結(jié)果形成數(shù)據(jù)摘要發(fā)送給集中分類器,由集中分類器對各點數(shù)據(jù)摘要進(jìn)行匯集,從而做出綜合判斷,達(dá)到有效地檢測協(xié)同攻擊的效果,最后將檢測結(jié)果提交給決策模塊。

3 結(jié)束語

數(shù)據(jù)挖掘技術(shù)是人工智能學(xué)科的一個重要分支,也是現(xiàn)代計算機科學(xué)的一個研究重點。現(xiàn)在基于數(shù)據(jù)挖掘技術(shù)的科研可以說是碩果累累,自從人工智能這個概念被提出來之后,其發(fā)展一直是計算機學(xué)科的熱門而且其分支廣而泛,都在不同的領(lǐng)域發(fā)揮著十分重要的作用。相信在計算機研究人員的不斷努力下數(shù)據(jù)挖掘會在更多的方面服務(wù)人們,并且期待著新的理論的提出。

參考文獻(xiàn):

[1] 何克抗.建立題庫的理論[M].長沙:國防科技大學(xué)出版社,1995.

[2] 劉波,段麗艷.一個基于Internet的通用題庫系統(tǒng)的設(shè)計與實現(xiàn)[J].華南師范大學(xué)學(xué)報:自然科學(xué)版,2000(1):39-44.

篇(2)

關(guān)鍵詞:

大數(shù)據(jù)時代數(shù)據(jù)挖掘技術(shù)分析和研究運用數(shù)據(jù)挖掘技術(shù),也被稱為數(shù)字處理技術(shù),顧名思義,就是對于目前各大企業(yè)的內(nèi)部數(shù)據(jù),進(jìn)行整理、調(diào)整、挖掘?qū)嵤┮约霸u估等一系列處理操作,其主要的目標(biāo)是保證全局?jǐn)?shù)據(jù)都能夠得到充分的優(yōu)化。而大數(shù)據(jù)則是區(qū)分于以往抽樣調(diào)查的方法,而是對于全局?jǐn)?shù)據(jù)進(jìn)行分析,從而保證分析的全面以及完成。而大數(shù)據(jù)技術(shù)也包含4個優(yōu)點,即高數(shù)量、高速度、多元化以及高價值。而筆者將通過本文,就大數(shù)據(jù)時代的數(shù)據(jù)挖掘技術(shù)與應(yīng)用進(jìn)行分析和探討。

1相關(guān)概念的簡介

1.1大數(shù)據(jù)的概念關(guān)于大數(shù)據(jù)的理念提出,可以追溯到麥肯錫研究院于2011年的《大數(shù)據(jù):創(chuàng)新、競爭和生產(chǎn)力的下一個新領(lǐng)域》,其中闡述的觀念就涵蓋數(shù)據(jù)方面,即數(shù)據(jù)已經(jīng)融入到了人們的日常生活中,也是生產(chǎn)運作的一個重要因素。而大數(shù)據(jù)的運用,對于消費以及生產(chǎn)水平都是一種有效的提升提升,根據(jù)美國曾經(jīng)的《大數(shù)據(jù)研究和發(fā)展倡議》資料,截至2011年一年,全球總的數(shù)據(jù)就增加了1.8ZB,而進(jìn)行人均計算,相當(dāng)于每個人都具有至少200GB的數(shù)據(jù)資源,而且這一數(shù)據(jù)還在呈現(xiàn)出日益增長的趨勢,根據(jù)統(tǒng)計計算,這一數(shù)值將會按照約為50%/年的速度增長。

1.2數(shù)據(jù)挖掘作為一個新型學(xué)科,數(shù)據(jù)挖掘技術(shù)源于20世紀(jì)的80年代,那時其效用與目前存在本質(zhì)差異,科學(xué)家最初研究大數(shù)據(jù),主要是用于一些人工智能技術(shù)的開發(fā)。簡而言之,技術(shù)層面上,數(shù)據(jù)挖掘就是一個對數(shù)據(jù)進(jìn)行發(fā)掘創(chuàng)新的過程,即要求目標(biāo)數(shù)據(jù)具有隱蔽性、挖掘價值以及挖掘潛力,而且需要操作者在一堆冗雜的、隨機的、模糊的數(shù)據(jù)庫中進(jìn)行挖掘;而對于商業(yè)層面上來說,數(shù)據(jù)挖掘就是在一些大量的數(shù)據(jù)信息中獲得規(guī)律以及價值信息,從而為決策提供重要的知識憑據(jù)。

2數(shù)據(jù)挖掘的研究手段

對于數(shù)據(jù)挖掘而言,不同的研究手段將是其開展的重要基礎(chǔ),而研究手段的決定,主要需要依靠科學(xué)的計算為依據(jù),分析和對比數(shù)據(jù)中存在的一些不為人知的規(guī)則,然后通過研究手段的改變?nèi)?yīng)付不同的問題,對于實際操作來說,就是針對不同的數(shù)據(jù)找出不同的解決方法,而常見數(shù)據(jù)挖掘的研究手段主要可以分為四類,即聚類研究、分類和預(yù)測以及關(guān)聯(lián)研究。

2.1聚類研究將抽選的數(shù)據(jù)或者對象的庫進(jìn)行類似“分類”的聚類劃分,然后再將其中的相同或者相近的數(shù)據(jù)劃分為一個組類,由此建立起多個組類開展研究的過程。整個過程突出的是一種無知識基礎(chǔ)、無監(jiān)督管控的學(xué)習(xí)過程。而整個過程由于分類研究有本質(zhì)的差異,因為聚類研究在事先根本無法得到目標(biāo)的重要屬性數(shù)據(jù),而這種分析方法主要可以用于多個區(qū)域,例如心理、統(tǒng)計、醫(yī)藥、銷售以及數(shù)據(jù)識別等,而根據(jù)其隸屬度的取值,有能將其分為兩種研究方法,即硬聚類與模糊聚類,對于前者來說,就是將目標(biāo)按照影響標(biāo)準(zhǔn)進(jìn)行劃分,即目標(biāo)如果屬于某類,必定不屬于其他類;而對于后者來說,主要取決與隸屬度的取值不同。而劃分過程可能會將目標(biāo)劃分入多個聚類中。此外聚類的計算方法也能分為多種,即包含密度算法、層次算法、劃分算法、網(wǎng)格算法以及模型算法等等。

2.2分類與估測對于分類與數(shù)值估測來說,都是屬于是問題預(yù)測方式,其中前者要求估測各個類中的標(biāo)號,這些標(biāo)號都是分散且無規(guī)律的,而估測方法可以采用函數(shù)模型,要求模型類型為連續(xù)值函數(shù)。分類估測作為數(shù)據(jù)挖掘的起始工作,主要需要反應(yīng)已經(jīng)獲知的訓(xùn)練數(shù)據(jù)庫的特點,從而根據(jù)以上基礎(chǔ)完成其中對每一類的情況以及特點完成相應(yīng)的分類操作,而整個操作也是受到督促的,對于一般的分類算法可以有決策樹、粗糙集、貝葉斯、遺傳等算法,而估測主要是基于分類以及回歸基礎(chǔ),估測數(shù)據(jù)將來的動向,即包含局勢外推、時間序列以及回歸分析幾類。

2.3關(guān)聯(lián)研究關(guān)聯(lián)研究是源于自然生物間微妙的關(guān)系,而某事情的發(fā)生和發(fā)展也會引發(fā)連鎖的事情發(fā)展,也就類似所謂“蝴蝶效應(yīng)”的定義。而關(guān)聯(lián)研究的研究目標(biāo)即是研究物與物之間的微妙關(guān)系,包含一些依賴關(guān)系等等,從而找出其中的規(guī)則,基于規(guī)則,分析將來的動向。以購物為例,分析購物者的心理規(guī)律以及習(xí)慣,可以從他們對于購物的一系列表現(xiàn),例如購物籃的物品類型、放置規(guī)律、購物消費理念、購物環(huán)境需求等等,而掌握這些規(guī)律,足以讓一個銷售企業(yè)獲得巨大的消費市場以及商機。

3大數(shù)據(jù)時代的數(shù)據(jù)挖掘的運用

3.1數(shù)據(jù)準(zhǔn)備準(zhǔn)備流程需要依附于研究者已經(jīng)建立起長期且豐富數(shù)據(jù)資源的數(shù)據(jù)庫,而根據(jù)這些無規(guī)則的原始數(shù)據(jù)進(jìn)行相應(yīng)的挖掘前的準(zhǔn)備的工作,例如數(shù)據(jù)的處理、擇取、清除、推敲以及轉(zhuǎn)變,作為基礎(chǔ)的流程,數(shù)據(jù)準(zhǔn)備操作在整個流程中起到重要的基礎(chǔ)作用。

3.2數(shù)據(jù)挖掘開展數(shù)據(jù)挖掘操作,需要根據(jù)挖掘?qū)ο蟮那闆r擇選最優(yōu)的計算方法,從而獲取其中的規(guī)律性,例如對應(yīng)采用決策樹算法、分類算法、神經(jīng)網(wǎng)絡(luò)算法以及Apriori算法等。

3.3數(shù)據(jù)挖掘的模式評估研究模式評估的對象主要是通過數(shù)據(jù)挖掘處理過程數(shù)據(jù),而評估流程是了解、研究且取得其中數(shù)據(jù)的規(guī)則,然后對數(shù)據(jù)進(jìn)行轉(zhuǎn)變“翻譯”成通俗易懂的語言,供人們?nèi)パ芯亢退伎肌?/p>

3.4數(shù)據(jù)挖掘的知識應(yīng)用知識應(yīng)用是數(shù)據(jù)挖掘的最后一步,通常知識運用就是一種現(xiàn)實運用的過程,通過數(shù)據(jù)準(zhǔn)備、挖掘、研究評估,最后將結(jié)果數(shù)據(jù)或者規(guī)律用于現(xiàn)實中,從而體現(xiàn)數(shù)據(jù)的本身的價值,這就是知識應(yīng)用的內(nèi)涵。

4大數(shù)據(jù)時代的數(shù)據(jù)挖掘的運用

4.1市場營銷方面市場營銷行業(yè)已經(jīng)是目前數(shù)據(jù)挖掘采用最多的行業(yè),數(shù)據(jù)挖掘的作用主要體現(xiàn)在的對于消費者群體的消費習(xí)慣以及行為進(jìn)行解析,從而改變銷售方法,提升產(chǎn)品的銷售量,此外,除了一些購物消費以外,數(shù)據(jù)挖掘技術(shù)以及拓展到了各大金融行業(yè),例如保險行業(yè)、銀行行業(yè)以及電子商務(wù)行業(yè)等等。例如:在市場營銷方面,采用數(shù)據(jù)挖掘中的聚類研究,即客戶一系列無規(guī)則、無意識的行為數(shù)據(jù),對他們進(jìn)行識別,即根據(jù)客戶的忠誠度、消費意識進(jìn)行分類,幫助企業(yè)尋找其中的潛在客戶以及固定客戶群。

4.2數(shù)據(jù)挖掘的科學(xué)分析科學(xué)本身就是一個尋找規(guī)律、發(fā)現(xiàn)規(guī)律以及利用規(guī)律的過程,而且任何科學(xué)研究都是需要基于數(shù)據(jù)作為基礎(chǔ),所以數(shù)據(jù)挖掘?qū)τ诳茖W(xué)領(lǐng)域也具有重要的意義和價值,特別是針對一些未知的事物、領(lǐng)域或者知識,通過數(shù)據(jù)挖掘可以有效展示數(shù)據(jù)規(guī)則。例如對于太空行星的分析,遺傳基因DNA的數(shù)據(jù)以及遺傳規(guī)律等。

4.3制造業(yè)與其他行業(yè)不同,制造業(yè)運用數(shù)據(jù)挖掘的目的主要是產(chǎn)品質(zhì)量檢查方面,例如研究產(chǎn)品的數(shù)據(jù),找出其中規(guī)則。分析整體生產(chǎn)流程,解析其中過程,找出影響生產(chǎn)質(zhì)量以及效率的問題,然后通過對這些問題進(jìn)行解決,提升企業(yè)經(jīng)濟效益。對于制造業(yè)而言,數(shù)據(jù)挖掘運用主要體現(xiàn)在決策方面,即首先通過數(shù)據(jù)篩選,獲取有用的知識和數(shù)據(jù),然后采用決策樹算法,統(tǒng)計決策,然后選擇其中正確的決策,即像根據(jù)目前產(chǎn)品的流行情況,預(yù)測目前生產(chǎn)產(chǎn)品的受歡迎度,然后決策生產(chǎn)的時間以及周期。

4.4教育方面對于教育行業(yè)來說,最重要的除了教師的教學(xué)方法以外,學(xué)生的學(xué)習(xí)情況、心理動向以及教學(xué)評估都是十分重要的,采用數(shù)據(jù)挖掘技術(shù),則可以有效將這些數(shù)據(jù)通過分類、篩選以及處理,得出有效的數(shù)據(jù)規(guī)則,供學(xué)校教學(xué)改革時進(jìn)行參考。例如:教學(xué)質(zhì)量評估數(shù)據(jù)挖掘模塊的開發(fā),即將教學(xué)質(zhì)量相關(guān)的項目通過QSLSevrer進(jìn)行整合和存儲,例如教學(xué)準(zhǔn)備、教學(xué)內(nèi)容、教學(xué)方式以及教學(xué)態(tài)度等,最后學(xué)生可以進(jìn)行自行瀏覽并且完成評估,而評估結(jié)果則會上傳系統(tǒng)進(jìn)行最后通過數(shù)據(jù)挖掘,篩選其中有用的信息,再通過Apr1ori算法挖掘其中關(guān)聯(lián)規(guī)律。

5結(jié)語

雖然數(shù)據(jù)挖掘技術(shù)不是一項新興的技術(shù),但是其還具有較大的研究價值與運用前景,特別是在特殊領(lǐng)域的運用,對于一系列數(shù)據(jù)進(jìn)行科學(xué)冗雜的處理,然后分析其中規(guī)則價值,可以有效提升各大行業(yè)的經(jīng)濟效益。

參考文獻(xiàn)

[1]趙倩倩,程國建,冀乾宇,戎騰學(xué).大數(shù)據(jù)崛起與數(shù)據(jù)挖掘芻議[J].電腦知識與技術(shù),2014,11(33):7831-7833.

篇(3)

中圖分類號:TP311 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2015)09-0239-02

Abstract: along with our country social improvement, economic development,meteorological services in China has been developed greatly in the process.In the process of the development of meteorological services, meteorological data along with the increasing scale and coverage. In the face of this part of the huge data, how to effectively search, its use has become a problem of great concern to the industry of our country. In this paper, the application of data mining technology in meteorological data on the study and analysis of some.

Key words: data mining; meteorological data; application

對于氣象數(shù)據(jù)的收集與分析有利于幫助我們對不同地區(qū)所具有的氣象條件以及氣象規(guī)律進(jìn)行把握,以此使我們能夠更好的對該地區(qū)某一時段下的氣象情況進(jìn)行預(yù)測。但是,這種數(shù)據(jù)的收集就會使我們所具有的氣象數(shù)據(jù)資料越來越多,難以對其進(jìn)行管理與應(yīng)用。僅僅通過我們計算機方式的應(yīng)用,也很難對這種規(guī)模較大的數(shù)據(jù)集進(jìn)行處理,在這種情況下,就需要我們能夠以數(shù)據(jù)挖掘技術(shù)的應(yīng)用更好的實現(xiàn)氣象數(shù)據(jù)的管理。

1 數(shù)據(jù)挖掘流程

1.1 確定對象

在開展數(shù)據(jù)挖掘工作中,首先需要對業(yè)務(wù)所具有的問題進(jìn)行明確的定義,幫助我們對數(shù)據(jù)挖掘的目的進(jìn)行確定。雖然對于我們后續(xù)數(shù)據(jù)的挖掘結(jié)果會具有一定的不可預(yù)測性,但是對于我們問題探索的目標(biāo)卻需要具有良好的預(yù)見性,并以此針對性目標(biāo)的確定幫助我們更好的開展后續(xù)工作。

1.2 數(shù)據(jù)準(zhǔn)備

在這個環(huán)節(jié)中,主要具有數(shù)據(jù)預(yù)處理、數(shù)據(jù)轉(zhuǎn)換以及數(shù)據(jù)選擇這三個主要步驟。其中,數(shù)據(jù)選擇是對同本次業(yè)務(wù)具有關(guān)聯(lián)的維度或者數(shù)據(jù)進(jìn)行選擇,并從中選擇出適合本次數(shù)據(jù)挖掘工作的相關(guān)數(shù)據(jù);數(shù)據(jù)預(yù)處理則是對本次研究數(shù)據(jù)所具有的質(zhì)量進(jìn)行研究,并以此幫助我們?yōu)楹罄m(xù)的進(jìn)一步分析作出準(zhǔn)備,同時對數(shù)據(jù)操作所具有的類型進(jìn)行確定;數(shù)據(jù)轉(zhuǎn)換則是要將不同類型數(shù)據(jù)通過一定的方式將其轉(zhuǎn)換為我們所需要的數(shù)據(jù)分析模型,對于該模型而言,其是針對我們原有挖掘算法而建立的,而這種分析模型的建立也是我們開展數(shù)據(jù)挖掘工作的重要基礎(chǔ)與重點環(huán)節(jié)。

1.3 數(shù)據(jù)挖掘

數(shù)據(jù)挖掘正是我們本次工作的核心環(huán)節(jié),需要對所有數(shù)據(jù)預(yù)處理完成的、經(jīng)過轉(zhuǎn)換的數(shù)據(jù)進(jìn)行全面的挖掘。在此過程中,除了需要我們以人工的方式對適合本次挖掘工作所使用的算法進(jìn)行選擇之外,其余的工作都會以自動的方式開展。

1.4 結(jié)果解釋與評價

在我們數(shù)據(jù)挖掘工作結(jié)束之后,往往會得到一系列規(guī)則集,而這部分規(guī)則集通常需要在專業(yè)人員對其進(jìn)行一定的研究與合理的解釋才能夠被人們更好的掌握。對此,就需要我們對本次數(shù)據(jù)挖掘結(jié)果進(jìn)行適當(dāng)?shù)慕忉屌c評價,進(jìn)而使其能夠具有更好的易用性以及廣泛性。

2氣象資料特點

2.1 數(shù)據(jù)量大

氣象資料可以說是我國歷史最為久遠(yuǎn)、保存最為系統(tǒng)且完善的一類資源信息。尤其隨著改革開放之后,我國已經(jīng)積累了數(shù)量非常多的氣象基礎(chǔ)數(shù)據(jù)以及信息,且新的氣象數(shù)據(jù)資料也以非常快的速度在每年增長,在我們實際處理時經(jīng)常會出現(xiàn)冗余情況。

2.2 多樣性

氣象信息具有著非常多樣化的種類,如高空氣象資料、農(nóng)業(yè)氣象資料、日地物理資料、雷達(dá)資料、氣象輻射資料、冰雪圈資料、土壤與植被資料、氣象災(zāi)害資料、地面氣象資料、水文氣象資料以及衛(wèi)星資料等等。而氣象資料所具有的載體也具有著很多種方式,如不同氣象站所的氣象原始報表,不同省市所的氣象衛(wèi)星云圖以及雷達(dá)圖等等。

2.3 多維性

在氣象資料中,通常都具有著較多的氣象要素,如高空資料以及地面資料往往具有著溫度、日照以及氣溫等很多種要素。而在每一類要素中,也都具有著其所獨特的屬性維度。也正是根據(jù)這種特點,則使氣象資料往往具有著較為明顯的多為特征。

2.4 復(fù)雜性

氣象資料中所常見的數(shù)據(jù)類型主要有標(biāo)稱類型、二元類型、數(shù)值類型以及序列類型等等。比如降雨與否為二元類型、氣壓為數(shù)值類型等等。

2.5 連續(xù)性

在氣象站中,無論是高空站還是地面站,其所具有的氣象要素屬性值都是一種具有連續(xù)特征的數(shù)值,比如氣壓、溫度以及氣溫要素。

3 氣象資料預(yù)處理

3.1 缺失值處理

在SPSS軟件中,具有著很多種對于數(shù)據(jù)的缺失值處理方式。而對于氣象數(shù)據(jù)來說,由于其所具有的變化是一個能量的動態(tài)變化過程,對此,我們對于氣象數(shù)據(jù)所具有的缺失值則使用Mean of nearby points方式進(jìn)行,并對其中所具有的缺失值根據(jù)鄰近三個小時所具有的數(shù)據(jù)平均值對缺失值進(jìn)行替代。

3.2 氣象資料屬性泛化

在數(shù)據(jù)維度泛化方面,需要嚴(yán)格的按照我國相關(guān)標(biāo)準(zhǔn)開展工作,比如在二氧化硫數(shù)據(jù)的泛化方面,其是否存在超標(biāo)情況則需要根據(jù)我國所制定的污染物濃度標(biāo)準(zhǔn)對其進(jìn)行泛化。即如果CO2所執(zhí)行的為一級標(biāo)準(zhǔn),那么則可以根據(jù)其每小時所具有的濃度值同標(biāo)準(zhǔn)中的參考值0.15進(jìn)行比對,并以此幫助我們判斷該項參數(shù)是否存在超標(biāo)的現(xiàn)象。而對于其所具有的超標(biāo)、不超標(biāo)現(xiàn)象來說,我們則需要在對結(jié)果判斷之后將其標(biāo)記為(是,否)二元屬性值。

3.3 氣象資料標(biāo)準(zhǔn)化

在氣象數(shù)據(jù)資料中,不同維度間數(shù)據(jù)往往具有著不一致的量綱,而我們在對其開展定量量測以及聚類分析時,也經(jīng)常由于量綱所具有的不同而對最終的分析結(jié)果產(chǎn)生較大的影響。一般情況下,氣象資料中所具有的風(fēng)向數(shù)值都會控制在0至360之間,而如果污染因子的單位為毫克,那么其所具有的范圍則會在0至1之間,我們在對聚類進(jìn)行應(yīng)用時如果以距離作為評價,其主要依據(jù)則會在兩個維度中更加傾向于風(fēng)向維護(hù)。而為了能夠?qū)@部分維度間所具有的影響進(jìn)行消除,就需要我們對這部分重點維度開展標(biāo)準(zhǔn)化預(yù)處理。在氣象數(shù)據(jù)的標(biāo)準(zhǔn)化處理中,具有著很多種方式,Z標(biāo)準(zhǔn)化是我們應(yīng)用較多的一類方式,即均值為0,方差為1。

3.4 氣象資料維歸約

在氣象資料中有時候維度之間具有很強的依賴性或者說相關(guān)性,對于維度之間的這種依賴性或者相關(guān)性有時候在數(shù)據(jù)分析時候由于數(shù)據(jù)量巨大會導(dǎo)致多余的計算,所以對于一些需要把握主要的或者消除冗余的數(shù)據(jù)來進(jìn)行數(shù)據(jù)分析時就可以采用主成分分析方法或者計算相關(guān)性來消除這些冗余的屬性維度。

4 氣象資料孤立點分析

在氣象資料中的龐大數(shù)據(jù)中,我們在對其進(jìn)行分析時往往忽略了孤立點的存在,或者忽略了孤立點所具有的特殊意義。通常來說,人們認(rèn)為孤立點僅僅是噪聲數(shù)據(jù)的一種,且經(jīng)常將孤立點分析這項工作作為了數(shù)據(jù)預(yù)處理進(jìn)行處理,僅僅對其中可能對數(shù)據(jù)挖掘整體結(jié)果產(chǎn)生影響的因素進(jìn)行了剔除。但是,在氣象數(shù)據(jù)中,這部分孤立點往往具有著非常特殊的意義,通過孤立點數(shù)據(jù)的分析與檢測,很容易幫助我們對很多災(zāi)害氣象進(jìn)行分析。目前,對于孤立點進(jìn)行分析的技術(shù)主要有以下幾種:

4.1 基于統(tǒng)計方式

首先,需要假設(shè)我們所具有的數(shù)據(jù)集能夠滿足某一種概率的分布形式,之后再根據(jù)其所具有的這種獨特概率對數(shù)據(jù)集進(jìn)行擬合,并通過不一致檢驗方式的應(yīng)用對其中很多個數(shù)據(jù)對象開展不一致性測試。如果經(jīng)過測試發(fā)現(xiàn)其存在著不符合的情況,就可以認(rèn)為其是一個孤立點。

4.2 基于距離方式

在該種方式中,我們可以將對于孤立點的分析視作鄰居對象不充分的集合,且這種鄰居對象也是根據(jù)對象所具有的距離進(jìn)行定義的。通常來說,人們僅僅會通過DB(p,d)的應(yīng)用對全局孤立點進(jìn)行發(fā)現(xiàn),而對于局部孤立點卻很難判斷。對此,我們則可以認(rèn)為孤立點概念不需要以一分為二的屬性對其分離,而可以通過對象孤立度的制定對其所具有的模糊度進(jìn)行衡量。

4.3 基于密度方式

基于密度的孤立點分析就是探測局部密度,通過不同的密度估計策略來檢查

孤立點。密度即指任一點和 p 距離小于給定半徑 R 的領(lǐng)域空間數(shù)據(jù)點的個數(shù)。基于密度的孤立點分析最顯著的特點就是給定了對象是孤立點程度的定量量度,并且是數(shù)據(jù)具有不同密度的區(qū)域也能得到很好的處理。基于密度的孤立點分析較基于距離的孤立點分析更合理,但數(shù)據(jù)的計算復(fù)雜度較基于距離的孤立點分析要高許多。

4.4 基于聚類方式

聚類分析是用來發(fā)現(xiàn)數(shù)據(jù)集中強相關(guān)聯(lián)的對象組,而孤立點檢測是發(fā)現(xiàn)不與其他對象組強關(guān)聯(lián)的對象。因此,孤立點分析與聚類是兩個相互對立的過程。首先聚類所有的對象,然后評估對象屬于簇的程度,對于基原型的聚類,可以用對象到它的簇中心的距離來衡量對象屬于簇的程度。

總得來說,數(shù)據(jù)挖掘技術(shù)在我國現(xiàn)今的氣象數(shù)據(jù)處理中具有著較為重要的作用。在上文中,我們對于數(shù)據(jù)挖掘技術(shù)在氣象數(shù)據(jù)中的應(yīng)用進(jìn)行了一定的研究,而在實際操作過程中,也需要我們在聯(lián)系數(shù)據(jù)類別的基礎(chǔ)上通過數(shù)據(jù)挖掘技術(shù)的應(yīng)用獲得更好的氣象分析效果。

參考文獻(xiàn):

篇(4)

根據(jù)波特的影響企業(yè)的利益相關(guān)者理論,企業(yè)有五個利益相關(guān)者,分別是客戶、競爭對手、供應(yīng)商、分銷商和政府等其他利益相關(guān)者。其中,最重要的利益相關(guān)者就是客戶。現(xiàn)代企業(yè)的競爭優(yōu)勢不僅體現(xiàn)在產(chǎn)品上,還體現(xiàn)在市場上,誰能獲得更大的市場份額,誰就能在競爭中占據(jù)優(yōu)勢和主動。而對市場份額的爭奪實質(zhì)上是對客戶的爭奪,因此,企業(yè)必須完成從“產(chǎn)品”導(dǎo)向向“客戶”導(dǎo)向的轉(zhuǎn)變,對企業(yè)與客戶發(fā)生的各種關(guān)系進(jìn)行管理。進(jìn)行有效的客戶關(guān)系管理,就要通過有效的途徑,從儲存大量客戶信息的數(shù)據(jù)倉庫中經(jīng)過深層分析,獲得有利于商業(yè)運作,提高企業(yè)市場競爭力的有效信息。而實現(xiàn)這些有效性的關(guān)鍵技術(shù)支持就是數(shù)據(jù)挖掘,即從海量數(shù)據(jù)中挖掘出更有價值的潛在信息。正是有了數(shù)據(jù)挖掘技術(shù)的支持,才使得客戶關(guān)系管理的理念和目標(biāo)得以實現(xiàn),滿足現(xiàn)代電子商務(wù)時代的需求和挑戰(zhàn)。

一、客戶關(guān)系管理(CRM)

CRM是一種旨在改善企業(yè)與客戶之間關(guān)系的新型管理方法。它是企業(yè)通過富有意義的交流和溝通,理解并影響客戶行為,最終實現(xiàn)提高客戶獲取、客戶保留、客戶忠誠和客戶創(chuàng)利的目的。它包括的主要內(nèi)容有客戶識別、客戶關(guān)系的建立、客戶保持、客戶流失控制和客戶挽留。通過客戶關(guān)系管理能夠提高企業(yè)銷售收入,改善企業(yè)的服務(wù),提高客戶滿意度,同時能提高員工的生產(chǎn)能力。

二、數(shù)據(jù)挖掘(DM)

數(shù)據(jù)挖掘(DataMining,簡稱DM),簡單的講就是從大量數(shù)據(jù)中挖掘或抽取出知識。數(shù)據(jù)挖掘概念的定義描述有若干版本。一個通用的定義是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應(yīng)用數(shù)據(jù)中提取人們感興趣的知識,這些知識是隱諱的、事先未知的、潛在有用的信息。

常用的數(shù)據(jù)挖掘方法有:(1)關(guān)聯(lián)分析。即從給定的數(shù)據(jù)集中發(fā)現(xiàn)頻繁出現(xiàn)的項集模式知識。例如,某商場通過關(guān)聯(lián)分析,可以找出若干個客戶在本商場購買商品時,哪些商品被購置率較高,進(jìn)而可以發(fā)現(xiàn)數(shù)據(jù)庫中不同商品的聯(lián)系,進(jìn)而反映客戶的購買習(xí)慣。(2)序列模式分析。它與關(guān)聯(lián)分析相似,其目的也是為了控制挖掘出的數(shù)據(jù)間的聯(lián)系。但序列模式分析的側(cè)重點在于分析數(shù)據(jù)間的前后(因果)關(guān)系。例如,可以通過分析客戶在購買A商品后,必定(或大部分情況下)隨著購買B商品,來發(fā)現(xiàn)客戶潛在的購買模式。(3)分類分析。是找出一組能夠描述數(shù)據(jù)集合典型特征的模型,以便能夠分類識別未知數(shù)據(jù)的歸屬或類別。例如,銀行可以根據(jù)客戶的債務(wù)水平、收入水平和工作情況,可對給定用戶進(jìn)行信用風(fēng)險分析。(4)聚類分析。是從給定的數(shù)據(jù)集中搜索數(shù)據(jù)對象之間所存在的有價值聯(lián)系。在商業(yè)上,聚類可以通過顧客數(shù)據(jù)將顧客信息分組,并對顧客的購買模式進(jìn)行描述,找出他們的特征,制定針對性的營銷方案。(5)孤立點分析。孤立點是數(shù)據(jù)庫中與數(shù)據(jù)的一般模式不一致的數(shù)據(jù)對象,它可能是收集數(shù)據(jù)的設(shè)備出現(xiàn)故障、人為輸入時的輸入錯誤等。孤立點分析就是專門挖掘這些特殊信息的方法。例如,銀行可以利用孤立點分析發(fā)現(xiàn)信用卡詐騙,電信部門可以利用孤立點分析發(fā)現(xiàn)電話盜用等。

三、數(shù)據(jù)挖掘在客戶關(guān)系管理中的應(yīng)用

1.進(jìn)行客戶分類

客戶分類是將大量的客戶分成不同的類別,在每一類別里的客戶具有相似的屬性,而不同類別里的客戶的屬性不同。數(shù)據(jù)挖掘可以幫助企業(yè)進(jìn)行客戶分類,針對不同類別的客戶,提供個性化的服務(wù)來提高客戶的滿意度,提高現(xiàn)有客戶的價值。細(xì)致而可行的客戶分類對企業(yè)的經(jīng)營策略有很大益處。例如,保險公司在長期的保險服務(wù)中,積累了很多的數(shù)據(jù)信息,包括對客戶的服務(wù)歷史、對客戶的銷售歷史和收入,以及客戶的人口統(tǒng)計學(xué)資料和生活方式等。保險公司必須將這些眾多的信息資源綜合起來,以便在數(shù)據(jù)庫里建立起一個完整的客戶背景。在客戶背景信息中,大批客戶可能在保險種類、保險年份和保險金額上具有極高的相似性,因而形成了具有共性的客戶群體。經(jīng)過數(shù)據(jù)挖掘的聚類分析,可以發(fā)現(xiàn)他們的共性,掌握他們的保險理念,提供有針對性的服務(wù),提高保險公司的綜合服務(wù)水平,并可以降低業(yè)務(wù)服務(wù)成本,取得更高的收益。

2.進(jìn)行客戶識別和保留

(1)在CRM中,首先應(yīng)識別潛在客戶,然后將他們轉(zhuǎn)化為客戶

這時可以采用DM中的分類方法。首先是通過對數(shù)據(jù)庫中各數(shù)據(jù)進(jìn)行分析,從而建立一個描述已知數(shù)據(jù)集類別或概念的模型,然后對每一個測試樣本,用其已知的類別與學(xué)習(xí)所獲模型的預(yù)測類別做比較,如果一個學(xué)習(xí)所獲模型的準(zhǔn)確率經(jīng)測試被認(rèn)可,就可以用這個模型對未來對象進(jìn)行分類。例如,圖書發(fā)行公司利用顧客郵件地址數(shù)據(jù)庫,給潛在顧客發(fā)送用于促銷的新書宣傳冊。該數(shù)據(jù)庫內(nèi)容有客戶情況的描述,包括年齡、收入、職業(yè)、閱讀偏好、訂購習(xí)慣、購書資金、計劃等屬性的描述,顧客被分類為“是”或“否”會成為購買書籍的顧客。當(dāng)新顧客的信息被輸入到數(shù)據(jù)庫中時,就對該新顧客的購買傾向進(jìn)行分類,以決定是否給該顧客發(fā)送相應(yīng)書籍的宣傳手冊。

(2)在客戶保留中的應(yīng)用

客戶識別是獲取新客戶的過程,而客戶保留則是留住老顧客、防止客戶流失的過程。對企業(yè)來說,獲取一個新顧客的成本要比保留一個老顧客的成本高。在保留客戶的過程中,非常重要的一個工作就是要找出顧客流失的原因。例如,某專科學(xué)校的招生人數(shù)在逐漸減少,那么就要找出減少的原因,經(jīng)過廣泛的搜集信息,發(fā)現(xiàn)原因在于本學(xué)校對技能培訓(xùn)不夠重視,學(xué)生只能學(xué)到書本知識,沒有實際的技能,在就業(yè)市場上找工作很難。針對這種情況,學(xué)校應(yīng)果斷的抽取資金,購買先進(jìn)的、有針對性的實驗實訓(xùn)設(shè)備,同時修改教學(xué)計劃,加大實驗實訓(xùn)課時和考核力度,培訓(xùn)相關(guān)專業(yè)的教師。

(3)對客戶忠誠度進(jìn)行分析

客戶的忠誠意味著客戶不斷地購買公司的產(chǎn)品或服務(wù)。數(shù)據(jù)挖掘在客戶忠誠度分析中主要是對客戶持久性、牢固性和穩(wěn)定性進(jìn)行分析。比如大型超市通過會員的消費信息,如最近一次消費、消費頻率、消費金額三個指標(biāo)對數(shù)據(jù)進(jìn)行分析,可以預(yù)測出顧客忠誠度的變化,據(jù)此對價格、商品的種類以及銷售策略加以調(diào)整和更新,以便留住老顧客,吸引新顧客。

(4)對客戶盈利能力分析和預(yù)測

對于一個企業(yè)而言,如果不知道客戶的價值,就很難做出合適的市場策略。不同的客戶對于企業(yè)而言,其價值是不同的。研究表明,一個企業(yè)的80%的利潤是由只占客戶總數(shù)的20%的客戶創(chuàng)造的,這部分客戶就是有價值的優(yōu)質(zhì)客戶。為了弄清誰才是有價值的客戶,就需要按照客戶的創(chuàng)利能力來劃分客戶,進(jìn)而改進(jìn)客戶關(guān)系管理。數(shù)據(jù)挖掘技術(shù)可以用來分析和預(yù)測不同市場活動情況下客戶盈利能力的變化,幫助企業(yè)制定合適的市場策略。商業(yè)銀行一般會利用數(shù)據(jù)挖掘技術(shù)對客戶的資料進(jìn)行分析,找出對提高企業(yè)盈利能力最重要的客戶,進(jìn)而進(jìn)行針對性的服務(wù)和營銷。

(5)交叉銷售和增量銷售

交叉銷售是促使客戶購買尚未使用的產(chǎn)品和服務(wù)的營銷手段,目的是可以拓寬企業(yè)和客戶間的關(guān)系。增量銷售是促使客戶將現(xiàn)有產(chǎn)品和服務(wù)升級的銷售活動,目的在于增強企業(yè)和客戶的關(guān)系。這兩種銷售都是建立在雙贏的基礎(chǔ)上的,客戶因得到更多更好符合其需求的服務(wù)而獲益,公司也因銷售增長而獲益。數(shù)據(jù)挖掘可以采用關(guān)聯(lián)性模型或預(yù)測性模型來預(yù)測什么時間會發(fā)生什么事件,判斷哪些客戶對交叉銷售和增量銷售很有意向,以達(dá)到交叉銷售和增量銷售的目的。例如,保險公司的交叉營銷策略:保險公司對已經(jīng)購買某險種的客戶推薦其它保險產(chǎn)品和服務(wù)。這種策略成功的關(guān)鍵是要確保推銷的保險險種是用戶所感興趣的,否則會造成用戶的反感。

四、客戶關(guān)系管理應(yīng)用數(shù)據(jù)挖掘的步驟

1.需求分析

只有確定需求,才有分析和預(yù)測的目標(biāo),然后才能提取數(shù)據(jù)、選擇方法,因此,需求分析是數(shù)據(jù)挖掘的基礎(chǔ)條件。數(shù)據(jù)挖掘的實施過程也是圍繞著這個目標(biāo)進(jìn)行的。在確定用戶的需求后,應(yīng)該明確所要解決的問題屬于哪種應(yīng)用類型,是屬于關(guān)聯(lián)分析、分類、聚類及預(yù)測,還是其他應(yīng)用。應(yīng)對現(xiàn)有資源如已有的歷史數(shù)據(jù)進(jìn)行評估,確定是否能夠通過數(shù)據(jù)挖掘技術(shù)來解決用戶的需求,然后將進(jìn)一步確定數(shù)據(jù)挖掘的目標(biāo)和制定數(shù)據(jù)挖掘的計劃。

2.建立數(shù)據(jù)庫

這是數(shù)據(jù)挖掘中非常重要也非常復(fù)雜的一步。首先,要進(jìn)行數(shù)據(jù)收集和集成,其次,要對數(shù)據(jù)進(jìn)行描述和整合。數(shù)據(jù)主要有四個方面的來源:客戶信息、客戶行為、生產(chǎn)系統(tǒng)和其他相關(guān)數(shù)據(jù)。這些數(shù)據(jù)通過抽取、轉(zhuǎn)換和裝載,形成數(shù)據(jù)倉庫,并通過OLAP和報表,將客戶的整體行為結(jié)果分析等數(shù)據(jù)傳遞給數(shù)據(jù)庫用戶。

3.選擇合適的數(shù)據(jù)挖掘工具

如果從上一步的分析中發(fā)現(xiàn),所要解決的問題能用數(shù)據(jù)挖掘比較好地完成,那么需要做的第三步就是選擇合適的數(shù)據(jù)挖掘技術(shù)與方法。將所要解決的問題轉(zhuǎn)化成一系列數(shù)據(jù)挖掘的任務(wù)。數(shù)據(jù)挖掘主要有五種任務(wù):分類,估值預(yù)測,關(guān)聯(lián)規(guī)則,聚集,描述。前三種屬于直接的數(shù)據(jù)挖掘。在直接數(shù)據(jù)挖掘中,目標(biāo)是應(yīng)用可得到的數(shù)據(jù)建立模型,用其它可得到的數(shù)據(jù)來描述感興趣的變量。后兩種屬于間接數(shù)據(jù)挖掘。在間接數(shù)據(jù)挖掘中,沒有單一的目標(biāo)變量,目標(biāo)是在所有變量中發(fā)現(xiàn)某些聯(lián)系。

4.建立模型

建立模型是選擇合適的方法和算法對數(shù)據(jù)進(jìn)行分析,得到一個數(shù)據(jù)挖掘模型的過程。一個好的模型沒必要與已有數(shù)據(jù)完全相符,但模型對未來的數(shù)據(jù)應(yīng)有較好的預(yù)測。需要仔細(xì)考察不同的模型以判斷哪個模型對所需解決的問題最有用。如決策樹模型、聚類模型都是分類模型,它們將一個事件或?qū)ο髿w類。回歸是通過具有已知值的變量來預(yù)測其它變量的值。時間序列是用變量過去的值來預(yù)測未來的值。這一步是數(shù)據(jù)挖掘的核心環(huán)節(jié)。建立模型是一個反復(fù)進(jìn)行的過程,它需要不斷地改進(jìn)或更換算法以尋找對目標(biāo)分析作用最明顯的模型,最后得到一個最合理、最適用的模型。

5.模型評估

為了驗證模型的有效性、可信性和可用性,從而選擇最優(yōu)的模型,需要對模型進(jìn)行評估。我們可以將數(shù)據(jù)中的一部分用于模型評估,來測試模型的準(zhǔn)確性,模型是否容易被理解模型的運行速度、輸入結(jié)果的速度、實現(xiàn)代價、復(fù)雜度等。模型的建立和檢驗是一個反復(fù)的過程,通過這個階段階段的工作,能使數(shù)據(jù)以用戶能理解的方式出現(xiàn),直至找到最優(yōu)或較優(yōu)的模型。

6.部署和應(yīng)用

將數(shù)據(jù)挖掘的知識歸檔和報告給需要的群體,根據(jù)數(shù)據(jù)挖掘發(fā)現(xiàn)的知識采取必要的行動,以及消除與先前知識可能存在的沖突,并將挖掘的知識應(yīng)用于應(yīng)用系統(tǒng)。在模型的應(yīng)用過程中,也需要不斷地對模型進(jìn)行評估和檢驗,并做出適當(dāng)?shù)恼{(diào)整,以使模型適應(yīng)不斷變化的環(huán)境。

參考文獻(xiàn):

[1]羅納德.S.史威福特.客戶關(guān)系管理[M].楊東龍譯.北京:中國經(jīng)濟出版社,2002

[2]馬剛:客戶關(guān)系管理[M]大連:東北財經(jīng)大學(xué)出版社,2008

[3]朱美珍:以數(shù)據(jù)挖掘提升客戶關(guān)系管理[J].高科技產(chǎn)業(yè)技術(shù)與創(chuàng)新管理,2006,(27)

篇(5)

[中圖分類號]TP[文獻(xiàn)標(biāo)識碼]A[文章編號]1007-9416(2010)02-0079-02

1 前言

數(shù)據(jù)挖掘能幫助企業(yè)減少不必要投資的同時提高資金回報。數(shù)據(jù)挖掘給企業(yè)帶來的潛在的投資回報幾乎是無止境的。世界范圍內(nèi)具有創(chuàng)新性的公司都開始采用數(shù)據(jù)挖掘技術(shù)來判斷哪些是他們的最有價值客戶、重新制定他們的產(chǎn)品推廣策略,以用最小的花費得到最好的銷售。

2 數(shù)據(jù)挖掘概述

數(shù)據(jù)挖掘是一種決策支持過程,是一類深層次的數(shù)據(jù)分析方法。它主要基于AI、機器學(xué)習(xí)、統(tǒng)計學(xué)等技術(shù),高度自動化地分析企業(yè)原有的數(shù)據(jù),作出歸納性地推理,從中挖掘出潛在的模式,預(yù)測客戶行為,幫助企業(yè)的決策者調(diào)整市場策略,減少風(fēng)險,做出正確的決策。數(shù)據(jù)挖掘的商業(yè)應(yīng)用可以描述為:按企業(yè)既定業(yè)務(wù)目標(biāo),對大量的企業(yè)數(shù)據(jù)進(jìn)行探索和分析,揭示隱藏的、未知的或驗證已知的規(guī)律性,并進(jìn)一步將其模型化的先進(jìn)有效的方法。數(shù)據(jù)挖掘是一個利用各種分析工具在海量數(shù)據(jù)中發(fā)現(xiàn)模型和數(shù)據(jù)間關(guān)系的過程,這些模型和關(guān)系可以用來做出預(yù)測。數(shù)據(jù)挖掘,還可以稱為數(shù)據(jù)庫中的知識發(fā)現(xiàn)(Knowledge Discovery in Database, KDD),是從大量數(shù)據(jù)中提取出可信、新穎、有效并能被人理解的信息的高級處理過程。

2.1 數(shù)據(jù)挖掘是在數(shù)據(jù)庫技術(shù)、人工智能技術(shù)、概率與數(shù)理統(tǒng)計的基礎(chǔ)上發(fā)展起來的一種的技術(shù)。

2.1.1 數(shù)據(jù)庫技術(shù)

SQL統(tǒng)治數(shù)據(jù)庫查詢語言標(biāo)準(zhǔn)三十多年這一事實本身就與現(xiàn)在 IT 發(fā)展的節(jié)拍不符,難道我們“只會查詢”嗎?所以就有很多專家紛紛轉(zhuǎn)向數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù),從數(shù)據(jù)查詢轉(zhuǎn)向數(shù)據(jù)挖掘、從數(shù)據(jù)演繹轉(zhuǎn)向數(shù)據(jù)歸納。傳統(tǒng)的數(shù)據(jù)庫系統(tǒng)的體系結(jié)構(gòu)也過于瘦少,只有不協(xié)調(diào)的兩層,這樣的結(jié)構(gòu)就造成了只有程序員能編程,老板只能求助于這些“專家”。

2.1.2 人工智能技術(shù)

人工智能技術(shù)的三大難題:“知識獲取、知識表示、缺乏常識”直接制約了它在現(xiàn)實技術(shù)市場上的作為。而在與數(shù)據(jù)倉庫技術(shù)的結(jié)合上,它可以發(fā)揮重要作用,這使得它轉(zhuǎn)向數(shù)據(jù)挖掘技術(shù)。

2.1.3 概率與數(shù)理統(tǒng)計

數(shù)理統(tǒng)計技術(shù)是應(yīng)用數(shù)學(xué)中最重要、最活躍的學(xué)科。但在與數(shù)據(jù)庫技術(shù)的結(jié)合上作為有限,這從 SQL 中那可憐的幾條匯總函數(shù)便可看出。隨著數(shù)據(jù)挖掘?qū)Σ樵儭w納對演繹需求的進(jìn)化,概率與數(shù)理統(tǒng)計將獲得新的生命力。

2.2 數(shù)據(jù)挖掘中最常用的技術(shù):

2.2.1 工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Networks)

人工神經(jīng)網(wǎng)絡(luò)是仿照生理神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的非線性預(yù)測模型,通過學(xué)習(xí)進(jìn)行模式識別。神經(jīng)網(wǎng)絡(luò)常用于兩類問題:分類和回歸。在結(jié)構(gòu)上,可以把一個神經(jīng)網(wǎng)絡(luò)劃分為輸入層、輸出層和隱含層。而神經(jīng)網(wǎng)絡(luò)的知識體現(xiàn)在網(wǎng)絡(luò)連接的權(quán)值上,是一個分布式矩陣結(jié)構(gòu);神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)體現(xiàn)在神經(jīng)網(wǎng)絡(luò)權(quán)值的逐步計算上,為的是防止訓(xùn)練過度和控制訓(xùn)練的速度,如圖1所示:

2.2.2 決策樹 (Decision Tree)

決策樹方法是利用信息論中的互信息(信息增益)尋找數(shù)據(jù)庫中具有最大信息量的屬性字段,建立決策樹的一個節(jié)點,再根據(jù)概述性字段的不同取值建立樹的分支;在每個分支子集中重復(fù)建立樹的下層節(jié)點和分支過程。決策樹的基本組成部分:決策節(jié)點、分支和葉子。比如,在貸款申請中,要對申請的風(fēng)險大小做出判斷,為了解決這個問題而建立的一棵決策樹,如圖2所示:

2.2.3 臨近搜索方法(Nearest Neighbor Method)

臨近搜索方法將數(shù)據(jù)集合中每一個記錄進(jìn)行分類的方法。

2.2.4 規(guī)則推理(Rule Induction)

從統(tǒng)計意義上對數(shù)據(jù)中的“如果-那么”規(guī)則進(jìn)行尋找和推導(dǎo)。

2.3 數(shù)據(jù)挖掘步驟

數(shù)據(jù)挖掘的數(shù)據(jù)分析過程可以分為三個步驟:

2.3.1 確定業(yè)務(wù)對象

清晰地定義出業(yè)務(wù)問題,認(rèn)清數(shù)據(jù)挖掘的目的是數(shù)據(jù)挖掘的重要一步,挖掘的最后結(jié)構(gòu)是不可預(yù)測的,但要探索的問題應(yīng)是有預(yù)見的,為了數(shù)據(jù)挖掘而數(shù)據(jù)挖掘則帶有盲目性,是不會成功的。

2.3.2 數(shù)據(jù)準(zhǔn)備(Data Preparation)

本階段又可進(jìn)一步細(xì)分為兩步:數(shù)據(jù)集成、數(shù)據(jù)選擇和預(yù)分析。

(1)集成(Integration)。在這一步中,將從操作型環(huán)境中提取并集成數(shù)據(jù),解決語義二義問題,消除臟數(shù)據(jù)等等。很明顯,數(shù)據(jù)集成的目的和所利用的技術(shù)與數(shù)據(jù)倉庫的數(shù)據(jù)集成完全一致,都是為了建立統(tǒng)一的數(shù)據(jù)視圖。數(shù)據(jù)挖掘不一定需要建立在數(shù)據(jù)倉庫的基礎(chǔ)上,但如果數(shù)據(jù)挖掘與數(shù)據(jù)倉庫能協(xié)同工作,則必將大大地提高數(shù)據(jù)挖掘的工作效率。

(2)數(shù)據(jù)選擇和預(yù)分析(Data Selection and Pre-Analysis)。這一步將負(fù)責(zé)縮小數(shù)據(jù)范圍,提高數(shù)據(jù)挖掘的質(zhì)量,前面提到的驗證型工具長于對數(shù)據(jù)的細(xì)致,深入地觀察和表述,在這一步中可以發(fā)揮相當(dāng)?shù)淖饔谩?/p>

2.3.3 挖掘(Mining)

數(shù)據(jù)挖掘(Data Mining processor)綜合利用前面提到的四種數(shù)據(jù)挖掘方法分析數(shù)據(jù)庫中的數(shù)據(jù)。

2.3.4 表述(Presentation)

與驗證型工具一樣,數(shù)據(jù)挖掘?qū)@取的信息以便于用戶理解和觀察的方式反映給用戶,這時可以利用可視化工具。由于用戶要求的不同,DM分析的數(shù)據(jù)的范圍會有所不同,這樣DM系統(tǒng)會得出不同的結(jié)論。這些基于不同數(shù)據(jù)集合的分析結(jié)果除了通過可視化工具提供給用戶外還可以存儲在知識庫中,供日后進(jìn)一步分析和比較。

2.3.5 評價(Assess)

如果分析人員對分析結(jié)果不滿意,可以遞歸的執(zhí)行上述三個過程,直到滿意為止。

3 數(shù)據(jù)挖掘在企業(yè)決策過程中的作用

3.1 數(shù)據(jù)挖掘的功能

數(shù)據(jù)挖掘(Data Mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。數(shù)據(jù)挖掘就是對海量數(shù)據(jù)進(jìn)行精加工。嚴(yán)格地說,數(shù)據(jù)挖掘是一種技術(shù),從大量的數(shù)據(jù)中抽取出潛在的、不為人知的有價值信息、模式和趨勢,然后以易于理解的可視化形式表達(dá)出來,其目的是為了提高市場決策能力、檢測異常模式、控制可預(yù)見風(fēng)險、在經(jīng)驗?zāi)P突A(chǔ)上預(yù)言未來趨勢等。數(shù)據(jù)挖掘技術(shù)在商業(yè)領(lǐng)域已經(jīng)不是一個新名詞,最早成功應(yīng)用于高投入、高風(fēng)險、高回報的金融領(lǐng)域,正在不斷向電信、保險、零售等客戶資源信息密集的行業(yè)拓展。美國財富雜志500強之一的第一數(shù)據(jù)公司(First Data Corp.)就在為第一國家銀行(First National Bank)、美國在線交易(Ameritrade holding Co.)、奧馬哈保險公司(Mutual of Omaha Co.)等著名的金融證券和保險公司提供數(shù)據(jù)挖掘的產(chǎn)品服務(wù),這些企業(yè)在風(fēng)險控制、挖掘客戶、降低成本方面的年收益數(shù)以億計。

3.2 在企業(yè)決策過程中利用數(shù)據(jù)挖掘的作用

本文為全文原貌 未安裝PDF瀏覽器用戶請先下載安裝 原版全文

目前,商業(yè)數(shù)據(jù)挖掘的應(yīng)用重點集中在對企業(yè)內(nèi)部信息資源的加工處理,指導(dǎo)企業(yè)運營的戰(zhàn)術(shù)策略的實施。具體地說,就是在以客戶需求為價值源泉、進(jìn)銷存為價值鏈的各環(huán)節(jié)進(jìn)行數(shù)據(jù)增值分析,并將分析結(jié)果迅速向鏈條的上一環(huán)節(jié)傳遞,調(diào)整鏈條上游的執(zhí)行達(dá)到改善下游環(huán)節(jié)執(zhí)行結(jié)果的目的,最終形成以客戶終端需求為導(dǎo)向的價值增值。

部分企業(yè)資源計劃軟件中集成了對計劃、生產(chǎn)、產(chǎn)品銷售進(jìn)行數(shù)據(jù)挖掘的模塊,能夠提供商業(yè)智能的分析結(jié)果;另外,客戶需求的價值鏈終端是另一個數(shù)據(jù)挖掘技術(shù)應(yīng)用的重點,客戶關(guān)系管理的目的就是創(chuàng)造、挽留客戶并不斷升級對客戶的服務(wù),以保證企業(yè)利潤的持續(xù)增長。“以客戶為中心”的數(shù)據(jù)挖掘內(nèi)容涵蓋了客戶需求分析、客戶忠誠度分析、客戶等級評估分析等三部分,有些還包括產(chǎn)品銷售。

客戶需求分析包括:消費習(xí)慣、消費頻度、產(chǎn)品類型、服務(wù)方式、交易歷史記錄、需求變化趨勢等因素分析。

客戶忠誠度分析包括:客戶服務(wù)持續(xù)時間、交易總數(shù)、客戶滿意程度、客戶地理位置分布、客戶消費心理等因素分析。

客戶等級評估分析包括:客戶消費規(guī)模、消費行為、客戶履約情況、客戶信用度等因素分析。

產(chǎn)品銷售分析包括:區(qū)域市場、渠道市場、季節(jié)銷售等因素分析。

然而,數(shù)據(jù)挖掘不僅僅用于客戶關(guān)系管理,ERP更不能夠完全覆蓋數(shù)據(jù)挖掘的整個內(nèi)涵。企業(yè)數(shù)據(jù)挖掘的內(nèi)容不僅包括企業(yè)的內(nèi)部信息資源,更包括大量的企業(yè)外部信息資源。商業(yè)數(shù)據(jù)挖掘的下一個應(yīng)用熱點將建立在兩類信息資源充分整合的基礎(chǔ)上。

相對于內(nèi)部信息資源而言,企業(yè)外部的宏觀政策環(huán)境、市場需求動向和競爭對手情報等信息資源左右著企業(yè)戰(zhàn)略決策與宏觀發(fā)展規(guī)劃,也直接決定企業(yè)市場戰(zhàn)術(shù)策略的實施,所以對信息資源的整合利用以及競爭情報分析將成為企業(yè)級數(shù)據(jù)挖掘應(yīng)用的重點。

以IBM為例,為了導(dǎo)正企業(yè)戰(zhàn)略決策方向,IBM于1993年提出三項競爭策略:立即加強對競爭對手的研究、建立一個協(xié)調(diào)統(tǒng)一的競爭情報運行機制以及將可操作的競爭情報運用于公司戰(zhàn)略、市場計劃及銷售策略。其新的競爭策略通過研究市場格局和競爭對手的狀況、合理定位并改善自身的產(chǎn)品和服務(wù)兩個途徑有效地提升了企業(yè)核心競爭力,采用的競爭情報運行機制及競爭情報規(guī)劃能夠把全公司的競爭情報力量集中于主要的競爭對手和主要威脅,不斷地優(yōu)化現(xiàn)有的情報資源。

隨著企業(yè)市場競爭的日益加劇,企業(yè)競爭情報已經(jīng)不限于原有意義上的數(shù)據(jù)采集、整理、分類、的概念,“在線”需求逐步超越“離線”需求,“受動式服務(wù)”正為“主動式、自助式”服務(wù)所取代,數(shù)據(jù)挖掘技術(shù)已經(jīng)成為“信息分析”這個企業(yè)競爭情報系統(tǒng)中核心模塊的技術(shù)支撐。“數(shù)據(jù)在線服務(wù)”和“競爭情報個性化服務(wù)”將成為企業(yè)級數(shù)據(jù)挖掘應(yīng)用的新熱點需求,也將成為知識經(jīng)濟下新興的數(shù)據(jù)服務(wù)模式。

4 結(jié)語

數(shù)據(jù)挖掘的核心技術(shù)是人工智能、機器學(xué)習(xí)、統(tǒng)計學(xué)等,但一個DM系統(tǒng)不是多項技術(shù)的簡單組合,而是一個完整的整體,它還需要其他輔助技術(shù)的支持,才能完成數(shù)據(jù)采集、預(yù)處理、數(shù)據(jù)分析、結(jié)果表述這一系列任務(wù),最后將分析結(jié)果呈現(xiàn)在用戶面前。

[參考文獻(xiàn)]

[1] 胡百敬,SQL Server 2000 數(shù)據(jù)轉(zhuǎn)換服務(wù)[M],北京:中國鐵道出版社,2003.1.

[2] Reed Jacobson,SQL Server 2000 Analysis services 學(xué)習(xí)指南[M].北京:機械工業(yè)出版社,2001.

[3] 韓加煒J.(Han,JiaWei),數(shù)據(jù)挖掘:概念與技術(shù)[M].北京:機械工業(yè)出版社,2001.

[4] 陳京民,數(shù)據(jù)倉庫與數(shù)據(jù)挖掘[M],北京:電子工業(yè)出版社,2002.

[5] 李真文, SQL Server 2000 開發(fā)人員指南[M].北京:北京希望電子出版社,2001.

[6] 石鈞.ADO編程技術(shù)[M].北京:清華大學(xué)出版社,2001.

篇(6)

doi:10.3969/j.issn.1673-0194.2015.02.044

[中圖分類號]F270.7-TP311.13 [文獻(xiàn)標(biāo)識碼]A [文章編號]1673-0194(2015)02-0058-01

1 數(shù)據(jù)挖掘技術(shù)的分析方法

現(xiàn)在作為數(shù)據(jù)挖掘的主要工作就是分析方法,只有科學(xué)、可信賴的算法才能夠幫助數(shù)據(jù)進(jìn)行挖掘工作,找尋數(shù)據(jù)中隱藏的一些規(guī)律。只有利用不同的分析方法,才能解決各種不同的問題。而現(xiàn)在常見的分析方法有聚類分析、分類和事先推測、關(guān)聯(lián)分析。

1.1 聚類

聚類分析是將一組數(shù)據(jù)分類成相近性及有異性這樣幾個種類,這樣做的目的就是將同一種類型的數(shù)據(jù)之間的相近性發(fā)展到最大化,不同種類之間數(shù)據(jù)的相近性盡可能的降低。這項分析方法可以用到客戶團(tuán)體的分類、客戶背景分析、客戶購買的事先推測、市場細(xì)分等。聚類分析廣泛的存在于心理學(xué)、醫(yī)學(xué)、數(shù)據(jù)識別等領(lǐng)域中。

1.2 分類及事先推測

分類是將數(shù)據(jù)庫里面的數(shù)據(jù)對象的相同點按照分類的形式將其歸為不同的類型。這樣做的目的就是經(jīng)過分類的形式把數(shù)據(jù)庫中的數(shù)據(jù)項反射到特點的一個類型。這可以用到客戶的分類、特性、滿意程度、購買趨勢等。而事先的推測是建立連續(xù)值函數(shù)模型,常見的方法有局勢外推測法、時間序列法、回歸分析的方法。

1.3 關(guān)聯(lián)分析

在自然界中,每個事物之間都有一定的聯(lián)系,如果發(fā)生一件事情,肯定會關(guān)聯(lián)到其他的相應(yīng)事件。關(guān)聯(lián)分析就是利用到來事物之間存在的聯(lián)系和相互之間的依賴性的規(guī)律,對于這些事件進(jìn)行的預(yù)測。在數(shù)據(jù)庫中的表現(xiàn)就是數(shù)據(jù)項之間存在的問題之間的關(guān)聯(lián),就是一個事物中的某一項事物可能會導(dǎo)致其他一系列事項的出現(xiàn)。對于企業(yè)的客戶管理有著非常大的幫助,對于數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行挖掘,找出影響市場的因素,為各種活動提供依據(jù)。

1.4 特征

特征分析方法就是將數(shù)據(jù)庫里面的一組數(shù)據(jù)抽取出有關(guān)這組數(shù)據(jù)的特征式,這種特征式能夠表現(xiàn)出數(shù)據(jù)的整體的特征。就像營銷工作人員對于客戶流失數(shù)據(jù)的提取能夠了解到原因,利用這些數(shù)據(jù)找到原因后就能幫助挽留客戶。

2 數(shù)據(jù)挖掘在企業(yè)中的應(yīng)用

2.1 市場營銷和經(jīng)營

數(shù)據(jù)挖掘最早應(yīng)用的行業(yè)就是市場營銷,市場營銷行業(yè)利用數(shù)據(jù)挖掘技術(shù)對于用戶進(jìn)行分析挖掘來獲得客戶的消費習(xí)慣和特征,這樣做的目的是來提升銷售的業(yè)績。當(dāng)然,現(xiàn)在數(shù)據(jù)挖掘不僅是在超市購物上被利用,還普及到很多的金融行業(yè)。

經(jīng)營上使用的具體實例:一些郵件類的廣告上,可以根據(jù)數(shù)據(jù)挖掘幫助確定客戶可能會購買的產(chǎn)品,這樣可以節(jié)約很多的郵資,還能夠幫助管理客戶之間的關(guān)系,也就是經(jīng)過分析那些可能走向競爭對手的客戶的特點,這樣就能針對性的來留住顧客。購買方式:利用數(shù)據(jù)挖掘技術(shù)給零售商提供方便,零售商能夠通過這一技術(shù)確定顧客會購買哪些商品,還有就是在商店中該放那樣的商品供顧客選擇,目的是方便顧客購買,這樣能夠幫助銷售量的提高。當(dāng)然數(shù)據(jù)挖掘技術(shù)還能夠幫助用戶分析、評判促銷活動會產(chǎn)生的成效。

2.2 電力、電信行業(yè)

隨著數(shù)據(jù)挖掘技術(shù)的發(fā)展,電網(wǎng)業(yè)務(wù)在不斷的進(jìn)步和豐富。而電信行業(yè)快速的發(fā)展,電信技術(shù)和服務(wù)成為一個巨大的混合載體,對于市場關(guān)系、技術(shù)服務(wù)有極大的影響。對于企業(yè)的資源進(jìn)行有效的整體和結(jié)合,形成一個非常大的關(guān)系網(wǎng)和信息數(shù)據(jù)系統(tǒng)。對這些數(shù)據(jù)進(jìn)行挖掘成為解決各種問題的有效方法,為企業(yè)的發(fā)展有著非常重要的推動作用。

2.3 互聯(lián)網(wǎng)和云計算機

互聯(lián)網(wǎng)對于數(shù)據(jù)挖掘有很多的應(yīng)用,比如搜索引擎、電子商務(wù)等。這些都是利用數(shù)據(jù)挖掘技術(shù)在龐大的數(shù)據(jù)海洋中找尋能夠符合客戶要求的信息。常見的就是根據(jù)預(yù)測分類算法來預(yù)測出客戶應(yīng)該需要的信息。

2.4 金融行業(yè)

銀行、通信公司、保險行業(yè)這些在評估客戶的信用等級上需要注意安全。數(shù)據(jù)挖掘的利用在金融行業(yè)是非常的重要,當(dāng)然數(shù)據(jù)挖掘技術(shù)在這方面取得了很好的成績,可以幫助這些金融企業(yè)正確的識別出詐騙行為、控制風(fēng)險。如2003年春天,廣東分行在進(jìn)行信貸電子數(shù)據(jù)分析的時候,發(fā)現(xiàn)了一些異常的現(xiàn)象,發(fā)現(xiàn)除了南海華光公司的馮某對于銀行進(jìn)行的詐騙行為,其中有74億元被騙取,這并不是通過舉報而獲得線索,而是經(jīng)過數(shù)據(jù)挖掘技術(shù),發(fā)現(xiàn)馮某公司信貸出現(xiàn)的異常,然后被審計人員發(fā)現(xiàn)并驗證這一詐騙行為,若不是數(shù)據(jù)挖掘要想發(fā)現(xiàn)這一詐騙可謂是難上加難。

3 結(jié) 語

篇(7)

前言

最近幾年,信息技術(shù)的不斷發(fā)展,使得目前三季度產(chǎn)生的數(shù)據(jù)量是以前幾百年的總和,且處于持續(xù)增長的狀態(tài)。盡管激增的數(shù)據(jù)量擴展了人們的信息范圍,然而無形中也提高了企業(yè)或個人從大量數(shù)據(jù)中挖掘出有價值信息的困難程度。針對該問題,基于云計算的大量數(shù)據(jù)挖掘技術(shù)實現(xiàn)了資源配置和利用的優(yōu)化,具有虛擬性、實用性等特征,符合數(shù)據(jù)挖掘快速、準(zhǔn)確的要求。由此可見,將云計算技術(shù)應(yīng)用于數(shù)據(jù)挖掘是目前提高數(shù)據(jù)利用效率的有效方式。基于此,本文提出的以云計算為基礎(chǔ)的海量數(shù)據(jù)挖掘模型,旨在提供給各企業(yè)快速有效的數(shù)據(jù)挖掘服務(wù),從而減少生產(chǎn)成本和提升生產(chǎn)效率。

1云計算技術(shù)

1.1基本概念

至今為止,關(guān)于云計算的定義尚未有統(tǒng)一標(biāo)準(zhǔn),維基百科上關(guān)于云計算的介紹如下:云計算是通過網(wǎng)絡(luò)提供給用戶相關(guān)服務(wù)的新計算模式,主要提供可動態(tài)變化的虛擬資源,無需用戶掌握基本支持設(shè)施的應(yīng)用和管理。也就是說,云計算是一種新商機,借助價格低、可連接的計算機聯(lián)網(wǎng)進(jìn)行任務(wù)處理,為各系統(tǒng)提供數(shù)據(jù)存儲、運算或其他功能。就技術(shù)面而言,云計算技術(shù)起步較早,是虛擬技術(shù)的拓展、分布計算技術(shù)的發(fā)展,是資源統(tǒng)一管理和智能控制的重要表現(xiàn)。和傳統(tǒng)計算機技術(shù)相比,云計算技術(shù)推動了觀念創(chuàng)新和方法改進(jìn)。就商業(yè)角度而言,云計算技術(shù)的應(yīng)用目標(biāo)是提供服務(wù),用戶產(chǎn)生需求時會主動購買和應(yīng)用,適應(yīng)企業(yè)發(fā)展和系統(tǒng)升級。通常來講,云計算技術(shù)發(fā)展衍生出三種商業(yè)契機,包括服務(wù)即平臺、服務(wù)即架構(gòu)和服務(wù)即軟件三種。圖1所示是云計算商業(yè)模式邏輯圖。

1.2基于云計算技術(shù)的并行運算模型

為了實現(xiàn)對海量數(shù)據(jù)的并行處理,谷歌公司開發(fā)出Ma-pReduce,是一個分布并行運算架構(gòu)或模型。某個MapReduce可分解成多個Reduce和Map任務(wù),其會將海量數(shù)據(jù)分解成多個單獨運算的Map任務(wù),同時配發(fā)到對應(yīng)計算機進(jìn)行運算處理,生成一定格式的中間數(shù)據(jù),最后由相關(guān)Reduce任務(wù)對其進(jìn)行合并反饋運算結(jié)果。谷歌公司關(guān)于云計算技術(shù)的研發(fā)比較成功,其五大主要技術(shù)有分布式文件系統(tǒng)、大容量分布式數(shù)據(jù)庫、分布式鎖機制、集群管理和MapReduce。基于上述主要技術(shù),云計算方能提供大量數(shù)據(jù)挖掘服務(wù)和運算系統(tǒng)。總而言之,云計算平臺會將大量數(shù)據(jù)分解成統(tǒng)一規(guī)格的數(shù)據(jù)模塊,并分布存儲在云端服務(wù)器中,之后通過MapReduce并行運算模型進(jìn)行數(shù)據(jù)處理,其是谷歌公司在網(wǎng)絡(luò)搜索引擎方面的重大突破。盡管通過MapReduce并行運算模型可進(jìn)行海量數(shù)據(jù)處理,然而其要求數(shù)據(jù)結(jié)構(gòu)相同、運算過程簡單。關(guān)于數(shù)據(jù)挖掘這類密集型的數(shù)據(jù)處理技術(shù),可能涉及迭代、近似求解等復(fù)雜算法,運算過程比較困難。在這種情況下,以云計算技術(shù)為基礎(chǔ)的大量數(shù)據(jù)挖掘受到IT行業(yè)的重視,是社會熱點問題之一。

2基于云計算技術(shù)的海量數(shù)據(jù)挖掘

2.1數(shù)據(jù)挖掘

所謂的數(shù)據(jù)挖掘,是發(fā)現(xiàn)數(shù)據(jù)庫中有價值信息的過程,即從大量數(shù)據(jù)中挖掘出有價值或有意義的信息。就企業(yè)角度而言,數(shù)據(jù)挖掘的目的是從大量數(shù)據(jù)中發(fā)現(xiàn)有利于企業(yè)經(jīng)營管理的信息,而且數(shù)據(jù)量越大,信息準(zhǔn)確性越高。一般而言,海量數(shù)據(jù)挖掘?qū)W(wǎng)絡(luò)環(huán)境和應(yīng)用條件要求較高,而云計算技術(shù)的應(yīng)用有效提高了數(shù)據(jù)挖掘效率。基于云計算的資源管理系統(tǒng)可存儲大量數(shù)據(jù),并結(jié)合數(shù)據(jù)挖掘要求來合理配發(fā)網(wǎng)絡(luò)資源,提高數(shù)據(jù)挖掘算法的延伸性,且具有一定的容錯性,提高了數(shù)據(jù)挖掘的可靠性和安全性。

2.2云計算技術(shù)在數(shù)據(jù)挖掘中的應(yīng)用優(yōu)勢

(1)基于云計算技術(shù)的數(shù)據(jù)挖掘可進(jìn)行分布式并行處理,提高了數(shù)據(jù)挖掘的實時性和有效性。并且適合各種規(guī)模的企業(yè),降低了中小企業(yè)數(shù)據(jù)應(yīng)用成本,減少大型企對特殊數(shù)據(jù)應(yīng)用軟件和設(shè)備的依賴性;(2)以云計算技術(shù)為基礎(chǔ)的海量數(shù)據(jù)挖掘更便捷、更快速,用戶層被隱藏起來了,不需要用戶進(jìn)行數(shù)據(jù)分類、數(shù)據(jù)分配和任務(wù)控制等操作;(3)云計算實現(xiàn)了數(shù)據(jù)挖掘的并行處理,可提升傳統(tǒng)設(shè)備的海量數(shù)據(jù)處理能力,增加了多個控制節(jié)點,具有一定的容錯性;(4)以云計算為基礎(chǔ)的數(shù)據(jù)挖掘?qū)崿F(xiàn)了數(shù)據(jù)應(yīng)用技術(shù)的共享,滿足了不同類型用戶的數(shù)據(jù)挖掘需要。

2.3基于云計算技術(shù)的海量數(shù)據(jù)挖掘模型

云計算技術(shù)在海量數(shù)據(jù)挖掘中的應(yīng)用體現(xiàn)在云計算提供了并行處理能力和大容量存儲能力,有效解決了當(dāng)前海量數(shù)據(jù)挖掘的難點。圖2所示是關(guān)于基于云計算技術(shù)的海量數(shù)據(jù)挖掘模型的結(jié)構(gòu)圖。據(jù)圖,以云計算技術(shù)為基礎(chǔ)的海量數(shù)據(jù)挖掘模型包括云服務(wù)層、數(shù)據(jù)運算層和用戶層三層。云服務(wù)層是最基層,負(fù)責(zé)存儲海量數(shù)據(jù)和提供分布并行數(shù)據(jù)處理功能。云計算環(huán)境除了要保證數(shù)據(jù)的實用性之外,還要確保數(shù)據(jù)的安全可靠性。關(guān)于數(shù)據(jù)的存儲,云計算采取分布存儲形式,提供了數(shù)據(jù)副本冗余存儲功能,確保在數(shù)據(jù)遺失等情況下用戶的正常運轉(zhuǎn)。當(dāng)前,比較普遍的云計算數(shù)據(jù)存儲技術(shù)有開源的HDFS和非開源的GFS兩種。除此之外,云計算數(shù)據(jù)挖掘?qū)崿F(xiàn)了數(shù)據(jù)的并行處理,可在多用戶發(fā)出指令的情況下,及時回復(fù)并提供數(shù)據(jù)挖掘服務(wù)。圖2基于云計算技術(shù)的海量數(shù)據(jù)挖掘模型的架構(gòu)圖第二層是數(shù)據(jù)挖掘運算層,主要負(fù)責(zé)數(shù)據(jù)的預(yù)處理和挖掘算法的并行處理。數(shù)據(jù)預(yù)處理是對大量無規(guī)則的數(shù)據(jù)進(jìn)行預(yù)先整理,基于云計算的MapReduce并行運算模型只適合同一結(jié)構(gòu)的數(shù)據(jù)挖掘,常見的數(shù)據(jù)預(yù)處理方法有數(shù)據(jù)轉(zhuǎn)化、數(shù)據(jù)分類、數(shù)據(jù)抽調(diào)、數(shù)據(jù)約束等。對數(shù)據(jù)進(jìn)行預(yù)處理是提升數(shù)據(jù)挖掘質(zhì)量的重要保障,使海量數(shù)據(jù)挖掘更實時、更快速。用戶層是最頂層,直接面向用戶,主要負(fù)責(zé)接收用戶請求,同時將數(shù)據(jù)傳遞到下一層,并且將數(shù)據(jù)挖掘的運算結(jié)果反饋給用戶。除此之外,用戶還可通過可視化界面來監(jiān)督和控制任務(wù)進(jìn)度,并實時查看任務(wù)執(zhí)行結(jié)果。基于云計算技術(shù)的數(shù)據(jù)挖掘的流程是:用戶在輸入模塊中發(fā)出數(shù)據(jù)挖掘指令,并傳遞給系統(tǒng)服務(wù)器,服務(wù)器自動根據(jù)用戶的挖掘指令在數(shù)據(jù)庫中調(diào)出數(shù)據(jù),同時在算法庫中調(diào)出最優(yōu)的挖掘算法,對數(shù)據(jù)進(jìn)行預(yù)處理之后,傳遞到MapReduce運算模塊進(jìn)行深入數(shù)據(jù)挖掘,最后將挖掘結(jié)果反饋到可視化界面,以便用戶查看和了解。

2.4云計算技術(shù)應(yīng)用于數(shù)據(jù)挖掘的缺陷和應(yīng)對措施

云計算技術(shù)尚處于發(fā)展階段,勢必會存在諸多問題或缺陷,以云計算為基礎(chǔ)的數(shù)據(jù)挖掘也存在如下問題:(1)用戶需求問題。以云計算技術(shù)為基礎(chǔ)的數(shù)據(jù)挖掘勢必會成為一種新服務(wù)形式,用戶需求也會更多樣化、個性化;(2)數(shù)據(jù)容量問題。就數(shù)據(jù)容量而言,未來可能要處理TB甚至PB容量以上的數(shù)據(jù),同時還包括噪音數(shù)據(jù)、動態(tài)數(shù)據(jù)和高維數(shù)據(jù)等,某種程度增加了數(shù)據(jù)挖掘的難度;(3)算法選擇問題。數(shù)據(jù)挖掘效果受算法是否最優(yōu)和是否并行化等影響顯著,算法設(shè)計、參數(shù)設(shè)置等都對數(shù)據(jù)挖掘結(jié)果有直接作用;(4)不確定性問題。數(shù)據(jù)挖掘過程中不確定因素較多,比如任務(wù)需求描述不準(zhǔn)確、數(shù)據(jù)采集和預(yù)處理不確定、算法選擇不確定等。針對上述問題,可從以下幾點入手加強云計算技術(shù)在海量數(shù)據(jù)挖掘中的應(yīng)用:(1)基本設(shè)施的構(gòu)建。要結(jié)合用戶具體的個性化要求,同時考慮各行各業(yè)的特點,建立合適的云計算數(shù)據(jù)挖掘系統(tǒng);(2)虛擬技術(shù)為云計算在數(shù)據(jù)挖掘中的應(yīng)用提供了重要保障,未來要加強虛擬技術(shù)的研發(fā),并推動其成果的最大限度應(yīng)用,可有效控制網(wǎng)絡(luò)資源的配發(fā)和控制;(3)關(guān)于各種云計算產(chǎn)品的研發(fā),要充分結(jié)合社會具體需要,引導(dǎo)大眾積極參與,從而提高數(shù)據(jù)挖掘的多樣化和個性化;(4)就可信度而言,設(shè)計和應(yīng)用的算法要具備一定的通用性,滿足后續(xù)調(diào)查和檢驗的要求;(5)關(guān)于數(shù)據(jù)安全性方面,不可用傳統(tǒng)加密方式來保證數(shù)據(jù)安全,而要結(jié)合用戶的具體需要,在客戶端通過合適的加密方式來保證數(shù)據(jù)安全性。

篇(8)

中圖分類號:TP311文獻(xiàn)標(biāo)識碼:A文章編號:1007-9599 (2012) 01-0000-02

Application Analysis of the Data Mining Technology

Zhang Yihui

(Shandong Polytechnic,Jinan250104,China)

Abstract:With the advent and popularization of the Internet age,a lot of information get together,in the quick and easy at the same time to give people the agent has brought us a problem,how is the large amount of data to digest and true and false identification,followed by information how secure is to ensure that lay their unified approach method.This is a new term-data mining technology.Data mining is a relatively new database technology,there is a wide range of practical applications demand;made a comprehensive overview of data mining technology,citing a data mining system composition and mining method.

Keywords:Data mining;Technology;Application;Analysis

何為數(shù)據(jù)挖掘,所謂數(shù)據(jù)挖掘(Data Mining)在傳統(tǒng)的定義就是提取隱含在大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。意思簡單來講就是從一大堆亂七八糟的信息數(shù)據(jù)里提取一些對自己有用的數(shù)據(jù)知識。

一、數(shù)據(jù)挖掘的概念

從面的定義中我們對數(shù)據(jù)挖掘有了一個模糊的了解,其實數(shù)據(jù)挖掘技術(shù)通俗的從字面意思理解就是從數(shù)據(jù)中挖掘有用的數(shù)據(jù)。我國一些單位普遍都采用了計算機技術(shù)來處理單位的一些業(yè)務(wù),因為計算機的分析處理數(shù)據(jù)的能力比較強,所有產(chǎn)生了大量的業(yè)務(wù)數(shù)據(jù),通過計算機來分析這一大批數(shù)據(jù)不單單是為了研究的需要,更為重要的是從這些雜亂的數(shù)據(jù)中分析提取一些對自身企業(yè)有價值的數(shù)據(jù)信息。一些企業(yè)單位要從大批量的數(shù)據(jù)中獲取對自己有用的數(shù)據(jù)來進(jìn)行企業(yè)運作以及提高自身企業(yè)的競爭能力,這就好比從礦石中提煉金子一樣,提取的都是精華。所以數(shù)據(jù)挖掘越來越得到人們的重視。

隨著數(shù)據(jù)挖掘和知識發(fā)現(xiàn)核心技術(shù)研究的逐步深入,其核心模塊已經(jīng)強有力的形成了三大的技術(shù)領(lǐng)域:數(shù)據(jù)庫技術(shù)、人工智能和數(shù)理統(tǒng)計。隨著高性能的關(guān)系數(shù)據(jù)庫引擎的廣泛數(shù)據(jù)集成和相關(guān)理論研究和相關(guān)技術(shù)的成熟,,讓數(shù)據(jù)庫挖掘技術(shù)進(jìn)入了實用階段。

在國際上,由美國人工智能協(xié)會主辦的KDD(數(shù)據(jù)庫中的知識發(fā)現(xiàn),簡稱KDD)已經(jīng)漸漸被人們所接受,已經(jīng)召開了數(shù)十次國際研討會,隨著規(guī)模的不斷壯大,在注重多種發(fā)現(xiàn)策略和技術(shù)的集成,理論研究指導(dǎo)實踐應(yīng)用,以及多種學(xué)科之間的相互滲透的基礎(chǔ)上,研究重點也逐漸從發(fā)現(xiàn)方法轉(zhuǎn)向系統(tǒng)應(yīng)用,成為目前計算機領(lǐng)域的研究熱點;與國外相比,國內(nèi)研究起步較晚,主要是處在基礎(chǔ)理論上的研究。國家自然科學(xué)基金對于該領(lǐng)域的研究項目是1993年首次支持。目前,知識發(fā)現(xiàn)的基礎(chǔ)理論及其應(yīng)用研究在國內(nèi)的許多知名的高等院校和科研機構(gòu)已經(jīng)開展。

二、數(shù)據(jù)挖掘系統(tǒng)的組成

以下是典型的數(shù)據(jù)挖掘的幾個組成部分:

(一)數(shù)據(jù)挖掘所操作的最直接的對象就是數(shù)據(jù)庫,這些數(shù)據(jù)庫是一個或一組可以在數(shù)據(jù)上進(jìn)行數(shù)據(jù)收集、存儲、處理和集成的數(shù)據(jù)庫、數(shù)據(jù)倉庫或其他類型的信息庫。

(二)數(shù)據(jù)庫或數(shù)據(jù)倉庫服務(wù)器:在數(shù)據(jù)處理過程中,根據(jù)客戶的數(shù)據(jù)挖掘請求的指令信息,數(shù)據(jù)庫或數(shù)據(jù)倉庫服務(wù)器負(fù)責(zé)提取相關(guān)數(shù)據(jù)反饋信息。

(三)知識庫:數(shù)據(jù)挖掘的關(guān)鍵技術(shù)就是知識庫,它是用于指導(dǎo)數(shù)據(jù)搜索、查找、分析或擬合評估模式的興趣度的領(lǐng)域知識集。另外將數(shù)據(jù)信息集中屬性或?qū)傩灾到M成不同的數(shù)據(jù)抽象層的概念分層和用戶確信方面的知識數(shù)據(jù)也包括在里面。

(四)數(shù)據(jù)挖掘引擎:用于特征化、關(guān)聯(lián)、分類、聚類分析以及演變和偏差分析的一組功能模塊,這是數(shù)據(jù)挖掘系統(tǒng)的基本組成。

(五)模式評估模塊:這是數(shù)據(jù)挖掘?qū)崿F(xiàn)的關(guān)鍵所在,在數(shù)據(jù)挖掘過程中參照興趣度做度量,并與數(shù)據(jù)挖掘模塊交互配合,以便將數(shù)據(jù)搜索、歸并、聚焦在有趣模式的操作。根據(jù)所用數(shù)據(jù)挖掘方法的不同,模式評估模塊也可以使用興趣度閥值作為評定參數(shù),去過濾發(fā)現(xiàn)的模式挖掘數(shù)據(jù),也可以與數(shù)據(jù)挖掘模塊集成在一起使用。

(六)圖形用戶界面:是以圖形界面的形式給出用戶數(shù)據(jù)查詢操作或指令任務(wù),并提供中間參考信息提示、幫助搜索、確定聚焦興趣度,根據(jù)數(shù)據(jù)挖掘的中間結(jié)果進(jìn)行探索式數(shù)據(jù)挖掘的操作模塊,是在用戶和數(shù)據(jù)挖掘系統(tǒng)之間通信的橋梁,是用戶與系統(tǒng)交互的中介。

三、數(shù)據(jù)挖掘方法

數(shù)據(jù)挖掘方法的來源主要是由人工智能和機器學(xué)習(xí)的方法發(fā)展來的,結(jié)合傳統(tǒng)的統(tǒng)計分析方法、模糊數(shù)學(xué)方法以及科學(xué)計算可視化技術(shù),以數(shù)據(jù)庫為研究對象,形成的數(shù)據(jù)挖掘的方法和技術(shù)。數(shù)據(jù)挖掘是數(shù)據(jù)和信息系統(tǒng)及其應(yīng)用的學(xué)科前沿,是綜合了數(shù)據(jù)庫、專家系統(tǒng)和可視化等領(lǐng)域的相關(guān)技術(shù)的多學(xué)科和多種網(wǎng)絡(luò)技術(shù)交叉結(jié)合的新領(lǐng)域,在商業(yè)利益的強大推動下,每年都有新的數(shù)據(jù)挖掘方法和模型的出現(xiàn),數(shù)據(jù)挖掘的方法和技術(shù)可以分為六大類。

(一)關(guān)聯(lián)分析(Association Analysis)。在數(shù)據(jù)處理中,隨著大量數(shù)據(jù)不停的收集、存儲和處理,關(guān)聯(lián)規(guī)則在數(shù)據(jù)挖掘中發(fā)現(xiàn)大量數(shù)據(jù)項集之間有趣的關(guān)聯(lián)和相互聯(lián)系,因此許多業(yè)界人士對于通過關(guān)聯(lián)規(guī)則從相關(guān)數(shù)據(jù)庫中挖掘有用的信息,并從中組織和處理這些有用的數(shù)據(jù)是越來越感興趣。

(二)聚類方法(Clustering Approach)。在數(shù)據(jù)處理中,按一定的規(guī)則(參照距離或相似尺寸等)將數(shù)據(jù)分成一系列相互區(qū)別的數(shù)據(jù)組或數(shù)據(jù)集,這種操作不需要用戶的事先提示相關(guān)操作和背景知識而去直接挖掘、發(fā)現(xiàn)有意義的數(shù)據(jù)結(jié)構(gòu)或數(shù)據(jù)模式的方法。

(三)決策樹方法(Decision Tree Approach)。該方法是一種常用于預(yù)測模型的算法,具有信息描述簡單、查找速度快的特點,適合于大規(guī)模的數(shù)據(jù)挖掘。建立決策樹的過程:首先根據(jù)信息論中的信息增益尋找數(shù)據(jù)庫中具有最大信息量的字段,從中找到潛在的、有價值的信息,然后建立決策樹的節(jié)點,再根據(jù)字段的不同取值建立樹的各個分枝,然后在每個分枝子集上分別遞歸上述過程,即可。

(四)神經(jīng)網(wǎng)絡(luò)方法(Neural Network Approach)。神經(jīng)網(wǎng)絡(luò)由于本身的特性適合解決數(shù)據(jù)挖掘問題,因此,近年來越來越被關(guān)注。以HEBB學(xué)習(xí)規(guī)則和MP模型為基礎(chǔ)的模擬人腦神經(jīng)元方法,建立了三大類多種神經(jīng)網(wǎng)絡(luò)模型:反饋式網(wǎng)絡(luò)模型、前饋式網(wǎng)絡(luò)模型和自組織網(wǎng)絡(luò)模型。

(五)遺傳算法(Genetic Algorithms)。遺傳算法是模擬生物自然選擇與遺傳機理的(進(jìn)化過程)隨機的算法,由繁殖(選擇)、交叉(重組)、變異(突變)三個基本算子組成的仿生全局優(yōu)化方法。遺傳算法所具有的特有性質(zhì)已在數(shù)據(jù)挖掘中發(fā)揮了顯著作用。

(六)可視化方法(Visualization Approach)。可視化方法增強人們認(rèn)識能力,拓寬了傳統(tǒng)的圖表展示功能,增強了用戶對數(shù)據(jù)反饋的感知度,使用戶對數(shù)據(jù)的剖析更加清楚。例如,在數(shù)據(jù)庫表中,將多維數(shù)據(jù)變成多種線性圖形(如線圖、柱圖),增加直觀性,使用戶更好、更快速的理解和掌握,并充分揭示數(shù)據(jù)的內(nèi)涵、內(nèi)在本質(zhì)及規(guī)律起了很大的作用。

四、數(shù)據(jù)挖掘的應(yīng)用領(lǐng)域

數(shù)據(jù)挖掘所應(yīng)用的領(lǐng)域非常廣泛,目前,數(shù)據(jù)挖掘應(yīng)用最集中的領(lǐng)域包括醫(yī)療保健、金融、司法、市場、零售業(yè)、制造業(yè)、工程與科學(xué)等。但每個領(lǐng)域又有其特定的應(yīng)用問題和應(yīng)用背景。

(一)醫(yī)療保健。在我過國,醫(yī)療保健行業(yè)有大量的數(shù)據(jù)需要處理。這個行業(yè)中數(shù)據(jù)挖掘最關(guān)鍵的任務(wù)是進(jìn)行數(shù)據(jù)處理理,系統(tǒng)可以從大型多變的數(shù)據(jù)庫中發(fā)現(xiàn)并整理,預(yù)測醫(yī)療保健費用。由實驗室開發(fā)的解釋保健數(shù)據(jù),在定量范圍內(nèi)解釋偏差,生成報表。

(二)金融。數(shù)據(jù)挖掘技術(shù)在金融行業(yè)中的應(yīng)用不但指的是對金融事務(wù)數(shù)據(jù)的開采,能夠發(fā)現(xiàn)某個客戶、消費群體或組織的金融和商業(yè)興趣,并且還可以融市場的變化趨勢。

(三)司法。在司法方面,數(shù)據(jù)挖掘技術(shù)可應(yīng)用在案件調(diào)查、詐騙監(jiān)測、洗錢認(rèn)證、犯罪組織分析等工作中,這將給司法工作帶來巨大的收益,例如:美國財政部開發(fā)的系統(tǒng),對各類金融事務(wù)進(jìn)行監(jiān)測,識別洗錢、詐騙等。

(四)數(shù)字城市。數(shù)據(jù)挖掘技術(shù)應(yīng)用于數(shù)字城市建設(shè)中的數(shù)據(jù)整合系統(tǒng)是指通過對不同的數(shù)據(jù)庫資源進(jìn)行連接,根據(jù)需要獲取不同的數(shù)據(jù)庫資源的數(shù)據(jù)內(nèi)容,組合形成所需要的數(shù)據(jù)資源,支持分析決策。在這種機制下,即實現(xiàn)了數(shù)據(jù)集市的建立,又解決了與城市信息化建設(shè)中業(yè)已建成的各種信息系統(tǒng)運行上獨立,數(shù)據(jù)上統(tǒng)一的問題。

(五)制造業(yè)。制造業(yè)應(yīng)用數(shù)據(jù)挖掘技術(shù)進(jìn)行零部件故障診斷、資源優(yōu)化、生產(chǎn)過程分析等。例如進(jìn)行彩色掃描儀的生產(chǎn)過程分析。他們基于大約公司個參數(shù)建立了一個自動數(shù)據(jù)收集系統(tǒng),產(chǎn)生了難以手工處理的大量數(shù)據(jù),通過使用,工程師們能夠?qū)?shù)據(jù)進(jìn)行分析并對最重要的參數(shù)進(jìn)行認(rèn)定。

五、利用WEKA編寫算法

作為數(shù)據(jù)挖掘愛好者自然要對WEKA的源代碼進(jìn)行分析并以及改進(jìn),努力寫出自己的數(shù)據(jù)挖掘算法。我一直覺得對于機器學(xué)習(xí)算法來說,weka是很有特色的工具,算法非常多。而且還有諸如clementine之類的數(shù)據(jù)流處理工具。相比之下,clementine的算法就會失色很多。但是weka的可視化做的不好。這是它的缺點。如果在weka的基礎(chǔ)上再做些二次開發(fā),加強可視化的應(yīng)用應(yīng)該很不錯。最近看到一本書叫《可視化數(shù)據(jù)》,作者竟然包裝了java的圖形庫,自己創(chuàng)作出了個processing語言來做數(shù)據(jù)可視化,似乎效果不錯,而且也是開源的。如果能在這個基礎(chǔ)上做些研發(fā)應(yīng)該會不錯的。

六、結(jié)語

在現(xiàn)今社會,數(shù)據(jù)挖掘技術(shù)已經(jīng)可以被應(yīng)用與所有的領(lǐng)域和行業(yè)中。在人們生活里的各個方面幾乎都可以用到數(shù)據(jù)挖掘技術(shù)數(shù)據(jù)挖掘技術(shù)不但給我們的日常生活帶來了巨大的改變和影響,并且這種影響還深深的改變著我們的生活方式。

參考文獻(xiàn):

[1]韓少鋒,陳立潮.數(shù)據(jù)挖掘技術(shù)及應(yīng)用綜述[J].機械管理開發(fā),2006,2

[2]顏惠,吳小穗.MetaCrawler集成搜索引擎[J].圖書館工作與究,2002,3:46-47

[3]周黎明,邱均平.基于網(wǎng)絡(luò)的內(nèi)容分析法[J].情報學(xué)報,2005,5:594-599

篇(9)

作者簡介 胡珊珊(1982-),女,江西經(jīng)濟管理干部學(xué)院講師、審計師、碩士,研究方向為審計。(江西南昌 330000)

隨著經(jīng)濟的發(fā)展,企業(yè)活動的日益錯綜復(fù)雜,交易數(shù)量的龐大對各項交易進(jìn)行記錄、分析的過程如果仍然依靠手工操作,會導(dǎo)致工作效率嚴(yán)重低下,并且工作成本大大增加。與此同時,隨著計算機技術(shù)和網(wǎng)絡(luò)的普及,人工智能系統(tǒng)已經(jīng)被引入企業(yè)管理,如供應(yīng)鏈管理系統(tǒng)(SCM)和企業(yè)資源計劃系統(tǒng)(ERP),這些系統(tǒng)使企業(yè)的眾多交易活動都可以通過計算機實時在線錄入,形成大量的數(shù)據(jù),現(xiàn)代審計面臨著數(shù)據(jù)庫中的海量數(shù)據(jù),如何從中尋找出一定的數(shù)據(jù)特征,發(fā)現(xiàn)可疑數(shù)據(jù),以提高審計效率和降低審計風(fēng)險,是審計人員面臨的嶄新課題。

一、數(shù)據(jù)挖掘技術(shù)在現(xiàn)代審計中的應(yīng)用

數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的但又是潛在的信息和知識過程。這一概念要求數(shù)據(jù)源必須是真實的、海量的、有噪聲的。數(shù)據(jù)挖掘是一個完整的過程,該過程從大型數(shù)據(jù)庫中挖掘先前未知的、有效的且可用的信息,并利用這些信息做出決策或者豐富知識。

數(shù)據(jù)挖掘改變了審計實踐的方式。由于信息技術(shù)的普及,很多企業(yè)引入人工智能系統(tǒng),這些系統(tǒng)使企業(yè)的眾多交易活動都可以實時在線錄入,各種事件包含大量會計數(shù)據(jù)和經(jīng)營管理數(shù)據(jù)。審計人員通過對數(shù)據(jù)的分析獲得審計線索,獲取有用的審計證據(jù),并發(fā)表適當(dāng)?shù)膶徲嬕庖姟?shù)據(jù)挖掘可以從大量的數(shù)據(jù)中發(fā)現(xiàn)隱藏于數(shù)據(jù)中的新的或者不可預(yù)見的模式,可以回答審計人員可能根本沒有想過的問題。

在審計過程中運用數(shù)據(jù)挖掘技術(shù)的基本思路是這樣的:首先接受日志收集信息系統(tǒng)各部件提交的統(tǒng)一格式的審計數(shù)據(jù),然后對這些數(shù)據(jù)進(jìn)行預(yù)處理,比如轉(zhuǎn)換格式、數(shù)字提煉等。接下來運用合適的數(shù)據(jù)挖掘算法對審計數(shù)據(jù)進(jìn)行處理,提取數(shù)據(jù)中隱藏的知識,并對實踐進(jìn)行統(tǒng)計。最后系統(tǒng)地進(jìn)行審計數(shù)據(jù)的分析處理及趨勢預(yù)測。

目前應(yīng)用于現(xiàn)代審計業(yè)務(wù)的數(shù)據(jù)挖掘技術(shù)主要有以下幾種方法:

(一)離群點挖掘

離群點挖掘是從大量復(fù)雜的數(shù)據(jù)中挖掘出存在于小部分異常數(shù)據(jù)中新穎的、與常規(guī)數(shù)據(jù)模式顯著不同的數(shù)據(jù)模式。利用離群點挖掘,一方面可以對審計數(shù)據(jù)進(jìn)行有效的預(yù)處理,減少審計數(shù)據(jù)量,快速定位數(shù)據(jù),從而提高審計效率;另一方面可以自動的從數(shù)據(jù)中提取難以發(fā)現(xiàn)的業(yè)務(wù)模式和管理模式行為,減少人工參與,減輕審計人員工作負(fù)擔(dān)。

(二)孤立點檢測

孤立點是在數(shù)據(jù)源中與眾不同的數(shù)據(jù),使人懷疑這些數(shù)據(jù)并非隨機偏差,而是產(chǎn)生于完全不同的機制。由于審計中可疑數(shù)據(jù)往往表現(xiàn)為孤立點,所以通過檢測并去除數(shù)據(jù)源中的孤立點可以達(dá)到數(shù)據(jù)清理的目的,從而提高數(shù)據(jù)質(zhì)量,以達(dá)到審計目的。

(三)異常點檢測

異常點檢測是數(shù)據(jù)挖掘技術(shù)中重要的研究內(nèi)容。它是從大量審計數(shù)據(jù)對象中挖掘少量具有異常行為模式的數(shù)據(jù)對象,很多情況下,這些審計數(shù)據(jù)對象包含了跟多審計人員感興趣的信息。

(四)聚類分析

數(shù)據(jù)聚類是將審計資料數(shù)據(jù)中較為接近的數(shù)據(jù)劃為一類,根據(jù)不同數(shù)據(jù)的特征,將對象分成幾個群體。聚類分析可應(yīng)用于控制測試階段,為測試各控制環(huán)節(jié)的執(zhí)行情況將具有相似特征的交易分組。繼而更有利于審計人員對相似數(shù)據(jù)進(jìn)行分析、挖掘。

(五)關(guān)聯(lián)規(guī)則

關(guān)聯(lián)規(guī)則發(fā)現(xiàn)是通過分析資料,找出某一事件或資料中會同時出現(xiàn)的東西。關(guān)聯(lián)規(guī)則挖掘用于發(fā)現(xiàn)大量數(shù)據(jù)集合間有意義的關(guān)聯(lián),它側(cè)重于數(shù)據(jù)中不同領(lǐng)域之間的聯(lián)系。審計信息系統(tǒng)運用關(guān)聯(lián)規(guī)則提取數(shù)據(jù)之間的聯(lián)系,能有效的分析經(jīng)濟業(yè)務(wù)中數(shù)據(jù)的相關(guān)性,從而使審計人員更準(zhǔn)確的發(fā)現(xiàn)數(shù)據(jù)之間的聯(lián)系。

隨著信息技術(shù)的迅猛發(fā)展和審計實踐的變化,這些技術(shù)還在實踐中不斷的完善和發(fā)展,將來必定有更多更有用的數(shù)據(jù)挖掘方法應(yīng)用于審計實踐。

二、數(shù)據(jù)挖掘技術(shù)應(yīng)用于現(xiàn)代審計工作的意義

隨著信息技術(shù)的發(fā)展和網(wǎng)絡(luò)的廣泛普及,審計數(shù)據(jù)和網(wǎng)絡(luò)數(shù)據(jù)以驚人的速度增長。審計過程中利用計算機技術(shù)的程度越來越高,很多大型組織已經(jīng)建立并運行著特大數(shù)量級的應(yīng)用數(shù)據(jù)庫,并積累了大量的歷史數(shù)據(jù)。審計人員面對的也不再是紙質(zhì)的會計資料,每一個被審計單位的計算機系統(tǒng)和網(wǎng)絡(luò)系統(tǒng)中都存在著大量的財務(wù)數(shù)據(jù)或非財務(wù)數(shù)據(jù)。在審計系統(tǒng)中引入數(shù)據(jù)挖掘技術(shù),顯示出了巨大的優(yōu)勢,尤其是在大規(guī)模網(wǎng)絡(luò)環(huán)境下進(jìn)行的數(shù)據(jù)挖掘,不但可以提高系統(tǒng)的運行效率,還能增強系統(tǒng)的智能性。

數(shù)據(jù)挖掘作為一種新興的技術(shù),與以往的單純的統(tǒng)計方法相比,其優(yōu)勢在于它能從數(shù)據(jù)中發(fā)現(xiàn)人們未知的知識和規(guī)律。我們引入數(shù)據(jù)挖掘技術(shù)的目的是建立一種系統(tǒng)化和自動化的創(chuàng)建入侵檢測系統(tǒng)的方法,這種方法采用以數(shù)據(jù)為中心的視點,將入侵檢測視為一個數(shù)據(jù)分析過程。這種方法符合現(xiàn)代審計的需要,其核心是將數(shù)據(jù)挖掘技術(shù)應(yīng)用于審計數(shù)據(jù),從中分別提煉出正常和入侵情況下的用戶行為模式,再由生成的模式庫匹配入侵檢測系統(tǒng)所采集到的數(shù)據(jù)以捕獲網(wǎng)絡(luò)入侵。它不僅可以處理大規(guī)模的數(shù)據(jù),而且不需要審計人員提供主觀評價信息,這種技術(shù)能發(fā)現(xiàn)容易被審計人員主觀忽視和隱藏的信息,有利于避免有價值的線索被人為的主觀因素所忽略的情況。

三、數(shù)據(jù)挖掘技術(shù)應(yīng)用的局限性

數(shù)據(jù)挖掘技術(shù)在西方審計中還處于初級階段,它的應(yīng)用還有一定的局限性。

1.數(shù)據(jù)質(zhì)量難以保證

數(shù)據(jù)挖掘技術(shù)的基礎(chǔ)在于數(shù)據(jù)本身的質(zhì)量,如果數(shù)據(jù)本身是虛假的、錯誤的,特別是作為審計對象的那些數(shù)據(jù)如果被審計單位篡改了,那么再先進(jìn)、再成熟的數(shù)據(jù)挖掘技術(shù)也無法得出有意義的結(jié)論。

2.使用成本高

數(shù)據(jù)挖掘技術(shù)要應(yīng)用于實際工作中,必須要產(chǎn)生相應(yīng)的數(shù)據(jù)編制成本、維護(hù)成本、分析成本和人員培訓(xùn)成本,一些數(shù)據(jù)軟件的成本費用更是高的驚人。成本因素也是數(shù)據(jù)挖掘技術(shù)應(yīng)用于審計工作中的一個局限。

3.對審計人員的素質(zhì)要求高

由于審計數(shù)據(jù)特征和測度是根據(jù)建模者的經(jīng)驗和知識選擇的,因此數(shù)據(jù)挖掘技術(shù)要真正應(yīng)用到現(xiàn)代審計工作中來,不僅需要審計人員具有豐富的審計理論知識和實踐經(jīng)驗,而且還要求他們掌握計算機的專業(yè)知識,熟悉數(shù)據(jù)庫和數(shù)據(jù)挖掘的技能。他們不僅要能識別、運用挖掘技術(shù),而且還要對結(jié)果做出有效的分析和評價。

四、結(jié)論

盡管數(shù)據(jù)挖掘技術(shù)應(yīng)用于現(xiàn)代審計技術(shù)還處于初級階段,但它的巨大優(yōu)勢是傳統(tǒng)審計方法無可比擬的,相信在不久的將來隨著審計人員技術(shù)水平的提高和對數(shù)據(jù)挖掘技術(shù)研究的深入,數(shù)據(jù)挖掘技術(shù)必定將在現(xiàn)代審計中有更廣闊的應(yīng)用前景。

篇(10)

1 關(guān)于數(shù)據(jù)挖掘技術(shù)

數(shù)據(jù)挖掘技術(shù)是20世紀(jì)80年代誕生的一門新興學(xué)科。對數(shù)據(jù)挖掘技術(shù)從技術(shù)的角度來看,顧名思義就是從大量的、復(fù)雜的、不規(guī)則的、隨機的、模糊的數(shù)據(jù)中獲取隱含的、人們事先沒有察覺的、有潛在價值的信息和知識的過程。而從商業(yè)角度來看,數(shù)據(jù)挖掘技術(shù)就是從海量的數(shù)據(jù)庫當(dāng)中進(jìn)行抽取、轉(zhuǎn)換、分析一些潛在規(guī)律和價值,從而獲得輔助商業(yè)決策的關(guān)鍵信息和有用的知識的過程。

計算機的數(shù)據(jù)挖掘技術(shù)對于海量的數(shù)據(jù)可以起著整理的作用,不僅對于企事業(yè)的工作生產(chǎn)起著巨大的作用,同時對于學(xué)校的校園生活也提供了很好的幫助,除此,計算機的數(shù)據(jù)挖掘技術(shù)還應(yīng)用在許許多多的不同領(lǐng)域當(dāng)中。

2 數(shù)據(jù)挖掘的基本流程

2.1 數(shù)據(jù)準(zhǔn)備階段

由于海量的原始數(shù)據(jù)是長期的、無規(guī)律積累的結(jié)果,而且這些原始的數(shù)據(jù)是不適合進(jìn)行數(shù)據(jù)挖掘的,因此必須要進(jìn)行預(yù)處理的過程,在海量的原始數(shù)據(jù)中進(jìn)行數(shù)據(jù)的選擇、清洗、推測、轉(zhuǎn)換等相關(guān)的操作,在進(jìn)行數(shù)據(jù)準(zhǔn)備階段的時候,一般分為三個子步驟,既是:數(shù)據(jù)集成,就是從多個數(shù)據(jù)源中來提取整合的數(shù)據(jù),并對這些數(shù)據(jù)進(jìn)行處理;數(shù)據(jù)收集,就是根據(jù)要挖掘數(shù)據(jù)的目的來對數(shù)據(jù)進(jìn)行縮小范圍的操作,從而提高挖掘的數(shù)據(jù)的質(zhì)量;數(shù)據(jù)預(yù)處理,就是對已經(jīng)挖掘的數(shù)據(jù)做進(jìn)一步的準(zhǔn)備和分析,來確定進(jìn)行挖掘的類型。這一系列的過程就被稱之為數(shù)據(jù)準(zhǔn)備階段,數(shù)據(jù)準(zhǔn)備的好與壞是直接決定數(shù)據(jù)挖掘的質(zhì)量和效率的。

2.2 數(shù)據(jù)挖掘階段

當(dāng)原始數(shù)據(jù)進(jìn)行相應(yīng)的處理之后,就進(jìn)入相當(dāng)關(guān)鍵的階段,按照數(shù)據(jù)挖掘的目標(biāo)要求,來選擇恰當(dāng)?shù)乃惴ǎ诰驍?shù)據(jù)的規(guī)律,一般來說,常用的算法主要包括決策樹、分類、神經(jīng)網(wǎng)絡(luò)等,具體操作就是進(jìn)行算法的選擇和參數(shù)的確定,不斷反復(fù)的進(jìn)行重復(fù)的操作,直到對挖掘的數(shù)據(jù)滿意之后,此過程被稱之為數(shù)據(jù)挖掘階段。

2.3 數(shù)據(jù)的評價分析及知識運用

對進(jìn)行數(shù)據(jù)挖掘之后的結(jié)果進(jìn)行解釋、分析,來提取有意義的或者是有使用價值的規(guī)律,將這些數(shù)據(jù)進(jìn)行還原的操作,使之成為能夠被用戶所謂理解的數(shù)據(jù)語言。將挖掘到的評估結(jié)果在現(xiàn)實的決策中進(jìn)行運用,就是所說的知識運用,這樣是一個非常重要的過程,是數(shù)據(jù)挖掘的最終實現(xiàn)的目的。

3 數(shù)據(jù)挖掘技術(shù)的應(yīng)用

計算機數(shù)據(jù)挖掘技術(shù)作為一門新興的學(xué)科,是順應(yīng)時展的潮流的,自從此項技術(shù)誕生以后,就備受矚目,由于自身的特點也受到廣大用戶的親睞,因此,在許多的行業(yè)范圍之內(nèi),計算機數(shù)據(jù)挖掘技術(shù)也得到了充分的發(fā)揮和使用。

3.1 在金融領(lǐng)域的應(yīng)用

金融領(lǐng)域所涉及的層面較為廣泛,包括諸如銀行、金融機構(gòu)、金融分析領(lǐng)域等不同的方面,對于這些海量的數(shù)據(jù)來說,對金融的投資方面的風(fēng)險和股票交易的方面的預(yù)測,則更是讓投資者和決策者大傷腦筋,這就要求大家對如此的海量進(jìn)行判斷,而如果通過個人的經(jīng)驗進(jìn)行判斷的話,可能容易導(dǎo)致錯誤的發(fā)生,在這時,計算機的數(shù)據(jù)挖掘技術(shù)就恰恰迎合了用戶的心理,可以通過此項技術(shù)在海量的信息當(dāng)中提取自己所需的各種信息,以及信息之間的關(guān)聯(lián)和關(guān)系,對風(fēng)險進(jìn)行規(guī)避,對股票進(jìn)行很好的預(yù)測。

3.2 在教育領(lǐng)域的應(yīng)用

教育信息化不斷的發(fā)展,已經(jīng)成為近幾年教育培養(yǎng)的新趨勢。學(xué)校已經(jīng)摒棄了較為傳統(tǒng)的時間空間比較固定的教育模式,而是開始了學(xué)生、教師、學(xué)校三者之間的較為繁雜多樣的交流方式,數(shù)據(jù)挖掘技術(shù)也為教育領(lǐng)域開辟了新思路。比如在學(xué)校中的學(xué)生信息的管理系統(tǒng)、教師的教務(wù)管理系統(tǒng)、選課系統(tǒng)等都體現(xiàn)了數(shù)據(jù)挖掘技術(shù)的優(yōu)勢。此外,還包括學(xué)生在校園中的圖書館借閱的功能、飯卡充值等一卡化的功能,也離不開計算機數(shù)據(jù)挖掘技術(shù)的應(yīng)用。因此,計算機的數(shù)據(jù)挖掘技術(shù)也很大程度的輔助了信息化教學(xué)的持續(xù)發(fā)展。

3.3 在電子商務(wù)領(lǐng)域的應(yīng)用

電子商務(wù)已經(jīng)成為計算機用戶每天必不可少的一個環(huán)節(jié),尤其對于年輕人而言,很多用戶每天瀏覽于各個電子商務(wù)網(wǎng)站,同時企業(yè)又很期望自己的網(wǎng)站或者是產(chǎn)品能夠被更多的用戶所瀏覽和點擊,從而來完成訂單的操作,獲得利潤。那這時,計算機的數(shù)據(jù)挖掘技術(shù)便起了巨大的作用,用戶或者企業(yè)可以通過此技術(shù)對一些的數(shù)據(jù)進(jìn)行歸納匯總、分析、判斷,最終得以整合,使得用戶可以選到滿意的產(chǎn)品,同時,企業(yè)也可以在眾多的競爭對手中處于不敗之地。

3.4 在軍事領(lǐng)域的應(yīng)用

隨著信息化和科技化的不斷加強,軍事領(lǐng)域的任務(wù)也不單單是傳統(tǒng)的關(guān)注了,更多的需要進(jìn)行新興的媒體技術(shù)對存在的數(shù)據(jù)進(jìn)行收集、分析、整理,這樣,既可以掌握自己的軍事實力,同時,又能有效的去了解和監(jiān)管其他方面的軍事情況。事實上,在當(dāng)今的形勢之下,任何一個國家,都非常的重視數(shù)據(jù)挖掘技術(shù)對所需信息的使用,同時,也需要大量的計算機能力很強的人才,愛國敬業(yè),計算機挖掘技術(shù)在軍事領(lǐng)域的應(yīng)用是絕對不可小覷的。

4 結(jié)語

總之,隨著數(shù)據(jù)挖掘技術(shù)的不斷發(fā)展,許多的人們也越來越認(rèn)可數(shù)據(jù)挖掘技術(shù)的重要性,對信息的價值性越來越重視,因此,如何從大量的數(shù)據(jù)中去挖掘出自己日常所需的數(shù)據(jù)知識已經(jīng)日益重要。同時,計算機的數(shù)據(jù)挖掘技術(shù)已經(jīng)廣泛的被應(yīng)用到各個領(lǐng)域當(dāng)中,充分發(fā)揮著作用。

參考文獻(xiàn)

[1]趙楊杰,王樹斌.數(shù)據(jù)挖掘技術(shù)的前景探究[J].科技創(chuàng)新導(dǎo)報,2014(15).

[2]許芳芳,丁雷道.淺談數(shù)據(jù)挖掘技術(shù)及其相關(guān)問題解析[J].數(shù)字技術(shù)與應(yīng)用,2014.(04).

上一篇: 醫(yī)學(xué)檢驗技術(shù)論文 下一篇: 工作失誤檢討書
相關(guān)精選
相關(guān)期刊
主站蜘蛛池模板: 郧西县| 枣强县| 桃江县| 吉木乃县| 金乡县| 玛纳斯县| 措勤县| 武宣县| 荔波县| 新闻| 宁蒗| 浦城县| 红河县| 开远市| 遵义市| 大石桥市| 辽阳市| 无为县| 邓州市| 游戏| 区。| 三江| 边坝县| 万盛区| 铜梁县| 遂宁市| 蒙山县| 宜丰县| 苏尼特左旗| 浑源县| 清水县| 灌阳县| 呼玛县| 留坝县| 武冈市| 克山县| 海林市| 阿克陶县| 建瓯市| 大化| 木兰县|