發(fā)布時(shí)間:2023-03-31 08:39:16
序論:好文章的創(chuàng)作是一個(gè)不斷探索和完善的過(guò)程,我們?yōu)槟扑]一篇數(shù)據(jù)挖掘的聚類(lèi)分析算法研究范例,希望它們能助您一臂之力,提升您的閱讀品質(zhì),帶來(lái)更深刻的閱讀感受。
引言:“以學(xué)生為中心”是當(dāng)下教育環(huán)境所產(chǎn)生的一種新式教育理念,這種理念的目的與傳統(tǒng)教育的目的不一樣,不再是“老師教,學(xué)生聽(tīng)”,而是“老師引導(dǎo),學(xué)生實(shí)踐與創(chuàng)新”,更加注重學(xué)生的實(shí)踐能力與創(chuàng)新能力,以適應(yīng)未來(lái)所需要的能力結(jié)構(gòu),并具備足夠的競(jìng)爭(zhēng)力.該教育理念在實(shí)踐中有三個(gè)基本點(diǎn):
1)讓學(xué)生具備自主學(xué)習(xí)能力與語(yǔ)言組織能力;
2)讓學(xué)生擁有綜合知識(shí)應(yīng)用能力與團(tuán)隊(duì)協(xié)作能力;
3)以學(xué)生需求為出發(fā)點(diǎn),讓學(xué)生擁有創(chuàng)新能力.學(xué)生之間是有差異性的,制定的指標(biāo)需要?jiǎng)側(cè)岵?jì),除了統(tǒng)一指標(biāo)的達(dá)成外,還需要根據(jù)具體的學(xué)生進(jìn)行制定相應(yīng)的達(dá)成指標(biāo),也就是我們所說(shuō)的因材施教,而且社會(huì)需要的是多樣化的人才,這樣教學(xué)上就需要多種方式相結(jié)合,培養(yǎng)出高素質(zhì)復(fù)合型的人才.基于“以學(xué)生為中心”的教育理念,在人工智能和互聯(lián)網(wǎng)的高速發(fā)展下,又誕生了智能教育的理念,旨在用互聯(lián)網(wǎng)和人工智能輔助教學(xué),讓學(xué)生學(xué)習(xí)不再局限于傳統(tǒng)的課堂.在智能教育提出后,太原師范學(xué)院緊跟時(shí)代發(fā)展形勢(shì),與京東(山西)數(shù)字經(jīng)濟(jì)產(chǎn)業(yè)園、科大訊飛股份有限公司等企業(yè)合作創(chuàng)立智能教育產(chǎn)業(yè)學(xué)院.目的是采集、處理和分析教育數(shù)據(jù),為政府相關(guān)部門(mén)提供決策依據(jù),服務(wù)地方教育.采集和處理后的數(shù)據(jù)量非常龐大,如何更高效地分析數(shù)據(jù)成為了一大難點(diǎn),為了更好地解決分析數(shù)據(jù)這一難點(diǎn),選取了數(shù)據(jù)挖掘領(lǐng)域中的聚類(lèi)分析算法進(jìn)行數(shù)據(jù)分析.聚類(lèi)分析算法屬于機(jī)器學(xué)習(xí)算法中無(wú)監(jiān)督學(xué)習(xí)算法的一種,與監(jiān)督學(xué)習(xí)算法不同的是,在無(wú)監(jiān)督學(xué)習(xí)算法中,數(shù)據(jù)是沒(méi)有標(biāo)簽的,數(shù)據(jù)只擁有一系列的特征值,例如,在二維坐標(biāo)系中表示的就是一些離散的點(diǎn),如圖1[1].在無(wú)監(jiān)督學(xué)習(xí)中,需要將一系列未標(biāo)記的數(shù)據(jù)輸入到算法中,然后告訴算法在結(jié)構(gòu)或分布上找到數(shù)據(jù)的內(nèi)部規(guī)律.比如在圖1中,有一種算法將上面的數(shù)據(jù)點(diǎn)有效分成3類(lèi),那么這個(gè)算法就是聚類(lèi)分析算法.
1問(wèn)題的提出
隨著中國(guó)的高速發(fā)展,現(xiàn)在的高校學(xué)生在校生活越來(lái)越豐富,尤其是互聯(lián)網(wǎng)已經(jīng)占據(jù)了高校學(xué)生在校生活的大部分,比如購(gòu)物、游戲、網(wǎng)上學(xué)習(xí)、觀影、聊天等等.為了能夠更好地觀察當(dāng)下高校學(xué)生在校上網(wǎng)行為對(duì)成績(jī)的影響,采集了太原師范學(xué)院2020級(jí)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院學(xué)生的相關(guān)數(shù)據(jù)進(jìn)行分析.在大量數(shù)據(jù)中進(jìn)行手工分析顯然是低效的.為了有效地解決這個(gè)問(wèn)題,數(shù)據(jù)挖掘技術(shù)中的聚類(lèi)分析及其算法已經(jīng)在實(shí)踐中展現(xiàn)了其重要的效用.通過(guò)對(duì)聚類(lèi)分析及其相關(guān)算法特性的簡(jiǎn)要論述,從多個(gè)方面系統(tǒng)地比較了當(dāng)前這些聚類(lèi)分析算法的特點(diǎn)和優(yōu)缺點(diǎn),然后基于高校學(xué)生在校上網(wǎng)行為的數(shù)據(jù),將改進(jìn)的k-means算法應(yīng)用于聚類(lèi)分析軟件SPSS中分析高校學(xué)生上網(wǎng)行為對(duì)成績(jī)的影響.
2聚類(lèi)算法分析
聚類(lèi)分析是一種直接比較各種事物屬性的分析方法.其中,具有相似性質(zhì)的事物歸屬為相同屬性的類(lèi)別,差異性較大的事物歸屬為不同屬性的類(lèi)別.在學(xué)生產(chǎn)出的數(shù)據(jù)實(shí)踐應(yīng)用中,像是學(xué)生成績(jī)分析,經(jīng)常還需要對(duì)學(xué)生做分類(lèi)判斷的工作.例如,需要根據(jù)每個(gè)學(xué)生的單科成績(jī)分布情況、專(zhuān)業(yè)成績(jī)分布情況和整體成績(jī)分布情況進(jìn)行問(wèn)題反饋和學(xué)習(xí)指導(dǎo)建議等等;或者制定一系列的疏導(dǎo)建議和應(yīng)對(duì)措施,將其分為適用于心理問(wèn)題輕微的、適用于心理問(wèn)題較重的和適用于心理問(wèn)題嚴(yán)重的疏導(dǎo)建議和應(yīng)對(duì)措施.多年來(lái),聚類(lèi)算法得到了廣泛的研究和應(yīng)用,誕生了不少聚類(lèi)分析算法的工具,在各種統(tǒng)計(jì)和分析的系統(tǒng)中也集成了這些工具,例如,S-Plus、SPSS和SAS.聚類(lèi)分析算法根據(jù)使用方法大體上分為五大類(lèi):1)劃分方法(Partitioning Methods).通過(guò)獲取一個(gè)有n個(gè)數(shù)據(jù)的對(duì)象集行,將這個(gè)數(shù)據(jù)對(duì)象集行劃分為k個(gè)子簇,每個(gè)子簇代表一個(gè)類(lèi)(k≤n).此外,這k個(gè)子分組應(yīng)滿(mǎn)足兩個(gè)條件:每組至少包含一條數(shù)據(jù)記錄;每個(gè)數(shù)據(jù)記錄僅屬于一個(gè)組.基于此的算法有k-means算法、FCM算法和CLARANS算法等[2].2)層次方法(Hierarchical Methods).通過(guò)對(duì)數(shù)據(jù)節(jié)點(diǎn)的相似程度從高到低逐步連接.該方法的優(yōu)點(diǎn)是不需要事先設(shè)定簇的數(shù)量,我們可以選擇看上去最好的簇的數(shù)量.層次聚類(lèi)方法一般不單獨(dú)使用,通常是與其他方法結(jié)合起來(lái)使用比較可靠,如BIRCH和CURE.3)基于密度的方法(Density-based Methods).該方法的核心思想是,只要數(shù)據(jù)集的密度大于某一閾值,該數(shù)據(jù)集就會(huì)被添加到最近的聚類(lèi)簇中.這類(lèi)算法可發(fā)現(xiàn)任意形狀的聚類(lèi),且對(duì)噪聲數(shù)據(jù)不敏感.基于此的算法有DBSCAN[3].4)基于網(wǎng)格的方法(Grid-based Methods).?dāng)?shù)據(jù)空間被劃分為網(wǎng)格單元,將數(shù)據(jù)對(duì)象映射到網(wǎng)格單元中,并計(jì)算每個(gè)單元的密度,由差值將數(shù)據(jù)對(duì)象劃分在高密度的網(wǎng)格單元.優(yōu)點(diǎn)是執(zhí)行效率高.STING就是一種基于網(wǎng)格的多分辨率的聚類(lèi)技術(shù)[4].5)基于模型的方法(Model-based Methods).首先給每個(gè)簇定義一個(gè)模型,然后將滿(mǎn)足這個(gè)模型的數(shù)據(jù)集歸入其中.模型沒(méi)有限制,無(wú)論是多維空間還是數(shù)據(jù)點(diǎn)的密度分布函數(shù).模型是由一系列的概率分布決定,所以也被稱(chēng)為基于概率模型的方法.一般有兩種應(yīng)用方向:統(tǒng)計(jì)和神經(jīng)網(wǎng)絡(luò)[5].不同的聚類(lèi)分析算法都有各自的特點(diǎn),表1為具有代表性的不同聚類(lèi)分析類(lèi)型算法的優(yōu)缺點(diǎn),可以作為聚類(lèi)分析研究及應(yīng)用的參考.
3高校學(xué)生上網(wǎng)行為分析
聚類(lèi)分析主要有以下三個(gè)方面的應(yīng)用:1)隨著發(fā)展,聚類(lèi)分析已經(jīng)成為了統(tǒng)計(jì)和分析系統(tǒng)中不可或缺的部分,在其中作為一個(gè)能夠單獨(dú)處理分析數(shù)據(jù)的分布情況,觀察不同簇的分布特點(diǎn),選取對(duì)我們有價(jià)值的簇進(jìn)一步分析的工具.例如:S-Plus能夠直接提供給使用者所需要的統(tǒng)計(jì)分析結(jié)果,并且能以很直觀的方式展示給使用者,特點(diǎn)是它的交互性很強(qiáng),能夠提供多種維度讓使用者去發(fā)現(xiàn)數(shù)據(jù)中的價(jià)值;SPSS是調(diào)研、統(tǒng)計(jì),尤其是政府和企業(yè)數(shù)據(jù)應(yīng)用最廣泛的統(tǒng)計(jì)分析工具.可用于各種數(shù)據(jù)的分析,最終為相關(guān)單位提供科學(xué)決策服務(wù).SAS是一個(gè)模塊化、集成化的大型應(yīng)用軟件系統(tǒng).優(yōu)點(diǎn)在于完備的數(shù)據(jù)統(tǒng)一視圖、易于使用的圖形用戶(hù)界面和快速簡(jiǎn)便自助的模型開(kāi)發(fā).使用SPSS對(duì)高校學(xué)生上網(wǎng)行為進(jìn)行分析.在SPSS中調(diào)用k-means cluster過(guò)程可以完成指定數(shù)據(jù)集的聚類(lèi)分析,聚類(lèi)分析通常是將初始數(shù)據(jù)集進(jìn)行簡(jiǎn)單分類(lèi),然后通過(guò)迭代得到最終分類(lèi).為系統(tǒng)研究高校學(xué)生在校上網(wǎng)行為對(duì)成績(jī)的影響,通過(guò)采集太原師范學(xué)院2020級(jí)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院的254名本科學(xué)生的相關(guān)數(shù)據(jù),主要收集了這些學(xué)生的每日觀影時(shí)長(zhǎng)、每日游戲時(shí)長(zhǎng)、每周網(wǎng)上學(xué)習(xí)時(shí)長(zhǎng)和成績(jī).因?yàn)檫@些數(shù)據(jù)的數(shù)量級(jí)不同,本文將這些數(shù)據(jù)進(jìn)行了Z-Score標(biāo)準(zhǔn)化處理,公式如下:Z=X-X-()/S(1)式(1)中:X為原始數(shù)據(jù),X-為X的算數(shù)平均值,S為X的標(biāo)準(zhǔn)差.說(shuō)明:標(biāo)準(zhǔn)化的數(shù)據(jù)值圍繞0上下波動(dòng),大于0說(shuō)明高于平均水平,小于0說(shuō)明低于平均水平.SPSS的整體操作步驟如下:激活數(shù)據(jù)分組管理窗口,定義變量名,輸入數(shù)據(jù);標(biāo)準(zhǔn)化數(shù)據(jù),選擇分析-降維-因子進(jìn)行標(biāo)準(zhǔn)化數(shù)據(jù);統(tǒng)計(jì)分析,選擇分析-分類(lèi)指定初始簇的中心點(diǎn),選擇k-means算法進(jìn)行迭代分類(lèi);方差分析聚類(lèi)結(jié)果的DSS,DSS越小,聚類(lèi)效果越好;重復(fù)執(zhí)行前兩步,使得DSS最小化;可視化最終結(jié)果,以散點(diǎn)圖的形式展示最終聚類(lèi)的結(jié)果.最終,參加研究的254名同學(xué)被分成了4種類(lèi)型,如表2所示,表中4種上網(wǎng)行為與成績(jī)的數(shù)據(jù)均是該類(lèi)型對(duì)應(yīng)的中心值.由于數(shù)據(jù)有4個(gè)維度,為了在2維坐標(biāo)圖中展示觀測(cè)數(shù)據(jù)集的分布,需要對(duì)數(shù)據(jù)進(jìn)行降維,經(jīng)過(guò)降維處理后,所呈現(xiàn)的散點(diǎn)分布圖如圖2所示.將觀測(cè)數(shù)據(jù)集進(jìn)行降維后,繪制出了不同類(lèi)別樣本點(diǎn)的散點(diǎn)分布圖.其中,分布在圖的左下方區(qū)域的是標(biāo)號(hào)為0的樣本數(shù)據(jù)點(diǎn),用圓點(diǎn)作圖;分布在圖的右下方區(qū)域的是標(biāo)號(hào)為1的樣本數(shù)據(jù)點(diǎn),用五角星作圖;分布在圖的左上方區(qū)域的是標(biāo)號(hào)為2的樣本數(shù)據(jù)點(diǎn),用方塊作圖.分布在圖的右上方區(qū)域的是標(biāo)號(hào)為3的樣本數(shù)據(jù)點(diǎn),用三角形作圖.每個(gè)類(lèi)型的樣本點(diǎn)都正好分布在類(lèi)簇中心點(diǎn)周?chē)⑶颐總€(gè)類(lèi)別之間沒(méi)有交集,說(shuō)明每個(gè)類(lèi)別之間界限清晰,即聚類(lèi)效果好[6].通過(guò)總結(jié),表3將高校學(xué)生上網(wǎng)行為對(duì)高校學(xué)生學(xué)習(xí)影響情況分為以下4類(lèi),并做了相應(yīng)的評(píng)價(jià).2)聚類(lèi)分析可以方便地對(duì)數(shù)據(jù)進(jìn)行分析,利用分析的結(jié)果,可以對(duì)高校學(xué)生的學(xué)習(xí)情況進(jìn)行督導(dǎo),讓高校學(xué)生擁有一個(gè)良好的學(xué)習(xí)環(huán)境.本文以改進(jìn)的k-means算法作為一個(gè)例子來(lái)說(shuō)明高校學(xué)生上網(wǎng)行為對(duì)高校學(xué)生學(xué)習(xí)的影響.算法描述如下:輸入標(biāo)準(zhǔn)化的數(shù)據(jù)和簇個(gè)數(shù),使用基于簇中對(duì)象平均值的k-means作為前綴算法,通過(guò)方差分析使得DSS最小化,迭代前兩步最終得到理想的目標(biāo)結(jié)果.改進(jìn)的k-means算法中運(yùn)用了下面兩個(gè)公式:聚類(lèi)結(jié)果簇中對(duì)象之間的距離平方和,即Ep=∑ki=1∑p∈Cip-mi2(2)式(2)中,Ci是聚類(lèi)簇,p是簇中對(duì)象,mi是Ci的平均值.聚類(lèi)結(jié)果簇中對(duì)象i與對(duì)象j之間的相異度,即dij2=∑kδijkdijk2∑kδijk(3)式(3)中,dijk2為加權(quán)歐氏距離,即dijk2=W1Xi1-Xj12+W2Xi2-Xj22+…+WpXip-Xjp2(4)式(4)中,i=(Xi1,Xi2,…,Xip)、j=(Xj1,Xj2,…,Xjp)是兩個(gè)p維數(shù)據(jù)對(duì)象.δijk是第k個(gè)值與對(duì)象i、對(duì)象j之間的權(quán)重.聚類(lèi)結(jié)果簇中對(duì)象之間的距離平方和是聚類(lèi)結(jié)果好壞的重要指標(biāo),最終要使簇中對(duì)象之間的距離平方和最小化,這樣就能夠使生成的聚類(lèi)結(jié)果盡可能緊湊和獨(dú)立[7].3)聚類(lèi)分析也可用于分析異常值.異常值是數(shù)據(jù)集中的數(shù)據(jù)明顯離散很大,所以也稱(chēng)為離散值[8].異常值的分析有著廣泛的應(yīng)用,例如故障分析,判斷電路故障;偏離值分析,判斷經(jīng)濟(jì)變化的影響因素;漸變、突變分析,看數(shù)據(jù)走勢(shì)變化.
4總結(jié)
智能教育理念的產(chǎn)生,變革了傳統(tǒng)的教學(xué)模式,太原師范學(xué)院緊跟時(shí)事創(chuàng)立了智能教育產(chǎn)業(yè)學(xué)院,通過(guò)采集、處理和分析教育數(shù)據(jù),給予相關(guān)部門(mén)決策依據(jù),服務(wù)地方教育.如何更好地分析數(shù)據(jù)是一大難點(diǎn),手工顯然不現(xiàn)實(shí),所以數(shù)據(jù)挖掘領(lǐng)域的聚類(lèi)分析算法成了較好的選擇.研究和應(yīng)用聚類(lèi)分析算法,首先是闡述了不同的聚類(lèi)類(lèi)型的特點(diǎn)與優(yōu)缺點(diǎn),接著從聚類(lèi)分析軟件SPSS的應(yīng)用和改進(jìn)的k-means算法兩方面進(jìn)行論述高校學(xué)生上網(wǎng)行為對(duì)高校學(xué)生成績(jī)的影響,確定了高校學(xué)生受互聯(lián)網(wǎng)影響的類(lèi)型,并針對(duì)每種類(lèi)型進(jìn)行了相應(yīng)的評(píng)價(jià),提供了相應(yīng)的處理方法.
參考文獻(xiàn):
[1] 鐘文精,焦中明,蔡 樂(lè).基于K-Means算法的學(xué)生成績(jī)聚類(lèi)分析[J].教育信息技術(shù),2021(5):56-58.
[2] 劉連宏.密度聚類(lèi)算法在巖石圖像中的研究與應(yīng)用[D].西安:西安石油大學(xué),2021.
[3] 孫海軍.基于MapReduce和網(wǎng)格密度的文本聚類(lèi)分析研究[J].信息系統(tǒng)工程,2014(10):25-26.
[4] 劉柏林.基于電網(wǎng)運(yùn)行數(shù)據(jù)集的電力系統(tǒng)運(yùn)行評(píng)估及優(yōu)化研究[D].北京:華北電力大學(xué)(北京),2017.
[5] 周樹(shù)功.基于K-means聚類(lèi)分析算法的大學(xué)生在線(xiàn)學(xué)習(xí)行為分析[J].信息與電腦(理論版),2020,32(16):220-222.
[6] 趙 麗.全局K-均值聚類(lèi)算法研究與改進(jìn)[D].西安:西安電子科技大學(xué),2013.
[7] 況成忠,彭偉雄,黃萍.基于聚類(lèi)分析的電纜局部放電分析[J].電子世界,2014(9):51.
[8] 呂明磊,劉冬梅,曾智勇.基于改進(jìn)K-means算法的圖像檢索方法[J].計(jì)算機(jī)應(yīng)用,2013,33(S1):195-198.
作者:嚴(yán)武軍 孫志其 單位:太原師范學(xué)院 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院