數(shù)據(jù)挖掘技術(shù)綜述

作者：尤楠來(lái)源：http://www.zzqkw.com日期：2013-01-31人氣：1427

數(shù)據(jù)挖掘（DM）是一門(mén)新興的交叉學(xué)科，也是現(xiàn)代科學(xué)技術(shù)相互滲透的必然結(jié)果，其基本目標(biāo)就是從大量的數(shù)據(jù)中提取隱藏的、潛在的和有用的知識(shí)和信息。這一技術(shù)自20世紀(jì)末提出以來(lái)，引起了許專(zhuān)家學(xué)者的廣泛關(guān)注，并應(yīng)用到金融業(yè)、零售業(yè)、醫(yī)療保健和政府決策等各個(gè)領(lǐng)域，取得了良好的社會(huì)效益和經(jīng)濟(jì)效益，具有廣闊的開(kāi)發(fā)前景和應(yīng)用前景。從數(shù)據(jù)挖掘的發(fā)展過(guò)程來(lái)看，其應(yīng)用主要經(jīng)歷了以下四個(gè)過(guò)程一、數(shù)據(jù)挖掘模型與算法具體來(lái)講，現(xiàn)在的數(shù)據(jù)挖掘技術(shù)主要涉及神經(jīng)網(wǎng)絡(luò)、決策樹(shù)、遺傳算法、數(shù)理統(tǒng)計(jì)分析、關(guān)聯(lián)規(guī)則和聚類(lèi)分析等方法和學(xué)科（一）神經(jīng)網(wǎng)絡(luò) 神經(jīng)網(wǎng)絡(luò)為解決大復(fù)雜度問(wèn)題提供了一種相對(duì)來(lái)說(shuō)比較有效的簡(jiǎn)單方法，它是模仿人腦神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)和某些工作機(jī)制而建立的一種非線形預(yù)測(cè)模型，經(jīng)過(guò)學(xué)習(xí)進(jìn)行模式識(shí)別的。其工作機(jī)理是通過(guò)學(xué)習(xí)改變神經(jīng)元之間的連接強(qiáng)度。神經(jīng)網(wǎng)絡(luò)有前向神經(jīng)網(wǎng)絡(luò)、反饋神經(jīng)網(wǎng)絡(luò)、自組織神經(jīng)網(wǎng)絡(luò)等，在神經(jīng)網(wǎng)絡(luò)中，由權(quán)重和網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)決定了它所能識(shí)別的模式類(lèi)型。（二）決策樹(shù) 決策樹(shù)學(xué)習(xí)著眼于從一組無(wú)次序、無(wú)規(guī)則的事例中推理出決策樹(shù)表示形式的分類(lèi)規(guī)則。它采用自頂向下的遞歸方式，在決策樹(shù)的內(nèi)部結(jié)點(diǎn)進(jìn)行屬性值的比較并根據(jù)不同的屬性值判斷從該結(jié)點(diǎn)向下的分支，在決策樹(shù)的葉結(jié)點(diǎn)得到結(jié)論。所以，從根到葉結(jié)點(diǎn)的一條路徑就對(duì)應(yīng)著一條合取規(guī)則，整棵決策樹(shù)就對(duì)應(yīng)著一組析取表達(dá)式規(guī)則?；跊Q策樹(shù)的學(xué)習(xí)算法的一個(gè)最大的優(yōu)點(diǎn)就是它在學(xué)習(xí)過(guò)程中不需要使用者了解很多背景知識(shí)（這也同時(shí)是它最大的缺點(diǎn)），只要訓(xùn)練例子能夠用屬性-結(jié)論式的方式表達(dá)出來(lái)，就能使用該算法來(lái)學(xué)習(xí)。（三）遺傳算法遺傳算法是一種優(yōu)化技術(shù)，是模擬生物進(jìn)化過(guò)程的算法?；谶M(jìn)化理論，并采用遺傳結(jié)合、遺傳變異以及自然選擇等設(shè)計(jì)方法。遺傳算法已在優(yōu)化計(jì)算、分類(lèi)、機(jī)器學(xué)習(xí)等方面發(fā)揮了顯著作用。在數(shù)據(jù)挖掘中，它還可以用于評(píng)估其它算法的適合度，在處理組合優(yōu)化問(wèn)題方面有一定的優(yōu)勢(shì)，可用于聚類(lèi)分析等。遺傳算法的最大特點(diǎn)在于演算簡(jiǎn)單，但其用于數(shù)據(jù)挖掘也存在一些問(wèn)題：算法較復(fù)雜，還有收斂于局部極小的過(guò)早收斂等難題未得到徹底解決。（四）數(shù)理統(tǒng)計(jì)分析這類(lèi)技術(shù)建立在傳統(tǒng)的數(shù)理統(tǒng)計(jì)的基礎(chǔ)上。在數(shù)據(jù)庫(kù)字段項(xiàng)之間存在兩種關(guān)系：函數(shù)關(guān)系（能用函數(shù)公式表示的確定性關(guān)系）和相關(guān)關(guān)系（不能用函數(shù)公式表示，但仍是相關(guān)確定性關(guān)系），對(duì)它們的分析可采用判別分析、因子分析、相關(guān)分析、多元回歸分析及偏最小二乘回歸方法等。傳統(tǒng)統(tǒng)計(jì)分析可用于分類(lèi)挖掘和聚類(lèi)挖掘，SAS，SPSS和BMDP是目前國(guó)際上最具影響力的3大統(tǒng)計(jì)分析軟件。（五）聚類(lèi)分析聚類(lèi)分析是多元統(tǒng)計(jì)分析方法之一，也是統(tǒng)計(jì)模式識(shí)別中非監(jiān)督模式識(shí)別的一個(gè)重要分支。在統(tǒng)計(jì)分析和模式識(shí)別領(lǐng)域，聚類(lèi)已經(jīng)被廣泛研究了多年，提出了大量的理論和方法，取得了豐碩的研究成果。聚類(lèi)的研究主要包括以下幾方面：（1）聚類(lèi)有效性問(wèn)題。聚類(lèi)有效性問(wèn)題的研究是圍繞硬c-均值聚類(lèi)算法和模糊c-均值聚類(lèi)算法進(jìn)行的，實(shí)際應(yīng)用中，定義聚類(lèi)有效性函數(shù)是最常用的方法。目前對(duì)聚類(lèi)有效性問(wèn)題的研究已延伸到非球狀數(shù)據(jù)分布的數(shù)據(jù)集中，如線狀和殼狀數(shù)據(jù)集。（2）迭代優(yōu)化聚類(lèi)的初始化問(wèn)題?，F(xiàn)有的聚類(lèi)初始化研究大致分為三種途徑：隨機(jī)采樣法，距離優(yōu)化法以及密度估計(jì)法。目前各種初始化方法各有優(yōu)缺點(diǎn)，而且許多現(xiàn)有的初始化方法本身就是一種聚類(lèi)方法或是多種聚類(lèi)方法的綜合，因而優(yōu)化過(guò)程中也會(huì)出現(xiàn)初始化的問(wèn)題。（3）分類(lèi)屬性數(shù)據(jù)聚類(lèi)。圍繞分類(lèi)數(shù)據(jù)類(lèi)型和混合數(shù)據(jù)類(lèi)型聚類(lèi)問(wèn)題，專(zhuān)家學(xué)者提出了很多新的概念和方法。其中，研究較為深入的是概念和層次聚類(lèi)算法。由于概念聚類(lèi)和層次聚類(lèi)計(jì)算復(fù)雜，隨著新的分類(lèi)屬性數(shù)據(jù)的相似度和距離函數(shù)的提出，面向分類(lèi)屬性數(shù)據(jù)的基于劃分的聚類(lèi)算法逐漸也應(yīng)用于數(shù)據(jù)挖掘中。二、數(shù)據(jù)挖掘未來(lái)的發(fā)展方向預(yù)計(jì)在未來(lái)的一段時(shí)間內(nèi)，數(shù)據(jù)挖掘的研究還會(huì)深入下去，研究焦點(diǎn)可能會(huì)集中到以下幾個(gè)方面：（一）數(shù)據(jù)挖掘算法的效率和可擴(kuò)展性目前數(shù)據(jù)庫(kù)數(shù)據(jù)量大，維數(shù)高，使得數(shù)據(jù)挖掘的搜索空間增大，發(fā)現(xiàn)知識(shí)的盲目性提高。如何充分利用領(lǐng)域的知識(shí)，剔除與發(fā)現(xiàn)任務(wù)無(wú)關(guān)的數(shù)據(jù)，有效地降低問(wèn)題的維數(shù)，設(shè)計(jì)出高效率的知識(shí)發(fā)現(xiàn)算法是下一步發(fā)展的重點(diǎn)。（二）數(shù)據(jù)的時(shí)序性在應(yīng)用領(lǐng)域的數(shù)據(jù)庫(kù)中，數(shù)據(jù)在不斷地更新，隨著時(shí)間的推移，原先發(fā)現(xiàn)的知識(shí)將不再有用，我們需要隨時(shí)間逐步修正發(fā)現(xiàn)模式來(lái)指導(dǎo)新的發(fā)現(xiàn)過(guò)程。（三）互聯(lián)網(wǎng)上知識(shí)的發(fā)現(xiàn) Www正日益普及，從中可以找到很多新的知識(shí)，已有一些資源發(fā)現(xiàn)工具來(lái)發(fā)現(xiàn)含有關(guān)鍵字的文本，但對(duì)在www上發(fā)現(xiàn)知識(shí)的研究不多。人們現(xiàn)在面臨的問(wèn)題是如何從復(fù)雜的數(shù)據(jù)（例如多媒體數(shù)據(jù)）中提取有用的信息，對(duì)多層數(shù)據(jù)庫(kù)的維護(hù)，如何處理數(shù)據(jù)的異類(lèi)性和自主性等等。

關(guān)鍵字：科技論文論文篇發(fā)表論文

上一篇：略談實(shí)驗(yàn)室信息管理系統(tǒng)的設(shè)計(jì)及實(shí)現(xiàn)
下一篇：ＰＬＣ控制系統(tǒng)中的抗干擾分析及措施

數(shù)據(jù)挖掘技術(shù)綜述

欄目分類(lèi)