數(shù)據(jù)挖掘技術(shù)綜述
數(shù)據(jù)挖掘(DM)是一門(mén)新興的交叉學(xué)科,也是現(xiàn)代科學(xué)技術(shù)相互滲透的必然結(jié)果,其基本目標(biāo)就是從大量的數(shù)據(jù)中提取隱藏的、潛在的和有用的知識(shí)和信息。這一技術(shù)自20世紀(jì)末提出以來(lái),引起了許專(zhuān)家學(xué)者的廣泛關(guān)注,并應(yīng)用到金融業(yè)、零售業(yè)、醫(yī)療保健和政府決策等各個(gè)領(lǐng)域,取得了良好的社會(huì)效益和經(jīng)濟(jì)效益,具有廣闊的開(kāi)發(fā)前景和應(yīng)用前景。 從數(shù)據(jù)挖掘的發(fā)展過(guò)程來(lái)看,其應(yīng)用主要經(jīng)歷了以下四個(gè)過(guò)程 一、數(shù)據(jù)挖掘模型與算法 具體來(lái)講,現(xiàn)在的數(shù)據(jù)挖掘技術(shù)主要涉及神經(jīng)網(wǎng)絡(luò)、決策樹(shù)、遺傳算法、數(shù)理統(tǒng)計(jì)分析、關(guān)聯(lián)規(guī)則和聚類(lèi)分析等方法和學(xué)科 (一)神經(jīng)網(wǎng)絡(luò) 神經(jīng)網(wǎng)絡(luò)為解決大復(fù)雜度問(wèn)題提供了一種相對(duì)來(lái)說(shuō)比較有效的簡(jiǎn)單方法,它是模仿人腦神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)和某些工作機(jī)制而建立的一種非線形預(yù)測(cè)模型,經(jīng)過(guò)學(xué)習(xí)進(jìn)行模式識(shí)別的。其工作機(jī)理是通過(guò)學(xué)習(xí)改變神經(jīng)元之間的連接強(qiáng)度。神經(jīng)網(wǎng)絡(luò)有前向神經(jīng)網(wǎng)絡(luò)、反饋神經(jīng)網(wǎng)絡(luò)、自組織神經(jīng)網(wǎng)絡(luò)等,在神經(jīng)網(wǎng)絡(luò)中,由權(quán)重和網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)決定了它所能識(shí)別的模式類(lèi)型。 (二)決策樹(shù) 決策樹(shù)學(xué)習(xí)著眼于從一組無(wú)次序、無(wú)規(guī)則的事例中推理出決策樹(shù)表示形式的分類(lèi)規(guī)則。它采用自頂向下的遞歸方式,在決策樹(shù)的內(nèi)部結(jié)點(diǎn)進(jìn)行屬性值的比較并根據(jù)不同的屬性值判斷從該結(jié)點(diǎn)向下的分支,在決策樹(shù)的葉結(jié)點(diǎn)得到結(jié)論。所以,從根到葉結(jié)點(diǎn)的一條路徑就對(duì)應(yīng)著一條合取規(guī)則,整棵決策樹(shù)就對(duì)應(yīng)著一組析取表達(dá)式規(guī)則?;跊Q策樹(shù)的學(xué)習(xí)算法的一個(gè)最大的優(yōu)點(diǎn)就是它在學(xué)習(xí)過(guò)程中不需要使用者了解很多背景知識(shí)(這也同時(shí)是它最大的缺點(diǎn)),只要訓(xùn)練例子能夠用屬性-結(jié)論式的方式表達(dá)出來(lái),就能使用該算法來(lái)學(xué)習(xí)。 (三)遺傳算法 遺傳算法是一種優(yōu)化技術(shù),是模擬生物進(jìn)化過(guò)程的算法?;谶M(jìn)化理論,并采用遺傳結(jié)合、遺傳變異以及自然選擇等設(shè)計(jì)方法。遺傳算法已在優(yōu)化計(jì)算、分類(lèi)、機(jī)器學(xué)習(xí)等方面發(fā)揮了顯著作用。在數(shù)據(jù)挖掘中,它還可以用于評(píng)估其它算法的適合度,在處理組合優(yōu)化問(wèn)題方面有一定的優(yōu)勢(shì),可用于聚類(lèi)分析等。遺傳算法的最大特點(diǎn)在于演算簡(jiǎn)單,但其用于數(shù)據(jù)挖掘也存在一些問(wèn)題:算法較復(fù)雜,還有收斂于局部極小的過(guò)早收斂等難題未得到徹底解決。 (四)數(shù)理統(tǒng)計(jì)分析 這類(lèi)技術(shù)建立在傳統(tǒng)的數(shù)理統(tǒng)計(jì)的基礎(chǔ)上。在數(shù)據(jù)庫(kù)字段項(xiàng)之間存在兩種關(guān)系:函數(shù)關(guān)系(能用函數(shù)公式表示的確定性關(guān)系)和相關(guān)關(guān)系(不能用函數(shù)公式表示,但仍是相關(guān)確定性關(guān)系),對(duì)它們的分析可采用判別分析、因子分析、相關(guān)分析、多元回歸分析及偏最小二乘回歸方法等。傳統(tǒng)統(tǒng)計(jì)分析可用于分類(lèi)挖掘和聚類(lèi)挖掘,SAS,SPSS和BMDP是目前國(guó)際上最具影響力的3大統(tǒng)計(jì)分析軟件。 (五)聚類(lèi)分析 聚類(lèi)分析是多元統(tǒng)計(jì)分析方法之一,也是統(tǒng)計(jì)模式識(shí)別中非監(jiān)督模式識(shí)別的一個(gè)重要分支。在統(tǒng)計(jì)分析和模式識(shí)別領(lǐng)域,聚類(lèi)已經(jīng)被廣泛研究了多年,提出了大量的理論和方法,取得了豐碩的研究成果。 聚類(lèi)的研究主要包括以下幾方面: (1)聚類(lèi)有效性問(wèn)題。聚類(lèi)有效性問(wèn)題的研究是圍繞硬c-均值聚類(lèi)算法和模糊c-均值聚類(lèi)算法進(jìn)行的,實(shí)際應(yīng)用中,定義聚類(lèi)有效性函數(shù)是最常用的方法。目前對(duì)聚類(lèi)有效性問(wèn)題的研究已延伸到非球狀數(shù)據(jù)分布的數(shù)據(jù)集中,如線狀和殼狀數(shù)據(jù)集。 (2)迭代優(yōu)化聚類(lèi)的初始化問(wèn)題?,F(xiàn)有的聚類(lèi)初始化研究大致分為三種途徑:隨機(jī)采樣法,距離優(yōu)化法以及密度估計(jì)法。目前各種初始化方法各有優(yōu)缺點(diǎn),而且許多現(xiàn)有的初始化方法本身就是一種聚類(lèi)方法或是多種聚類(lèi)方法的綜合,因而優(yōu)化過(guò)程中也會(huì)出現(xiàn)初始化的問(wèn)題。 (3)分類(lèi)屬性數(shù)據(jù)聚類(lèi)。圍繞分類(lèi)數(shù)據(jù)類(lèi)型和混合數(shù)據(jù)類(lèi)型聚類(lèi)問(wèn)題,專(zhuān)家學(xué)者提出了很多新的概念和方法。其中,研究較為深入的是概念和層次聚類(lèi)算法。由于概念聚類(lèi)和層次聚類(lèi)計(jì)算復(fù)雜,隨著新的分類(lèi)屬性數(shù)據(jù)的相似度和距離函數(shù)的提出,面向分類(lèi)屬性數(shù)據(jù)的基于劃分的聚類(lèi)算法逐漸也應(yīng)用于數(shù)據(jù)挖掘中。 二、數(shù)據(jù)挖掘未來(lái)的發(fā)展方向 預(yù)計(jì)在未來(lái)的一段時(shí)間內(nèi),數(shù)據(jù)挖掘的研究還會(huì)深入下去,研究焦點(diǎn)可能會(huì)集中到以下幾個(gè)方面: (一)數(shù)據(jù)挖掘算法的效率和可擴(kuò)展性 目前數(shù)據(jù)庫(kù)數(shù)據(jù)量大,維數(shù)高,使得數(shù)據(jù)挖掘的搜索空間增大,發(fā)現(xiàn)知識(shí)的盲目性提高。如何充分利用領(lǐng)域的知識(shí),剔除與發(fā)現(xiàn)任務(wù)無(wú)關(guān)的數(shù)據(jù),有效地降低問(wèn)題的維數(shù),設(shè)計(jì)出高效率的知識(shí)發(fā)現(xiàn)算法是下一步發(fā)展的重點(diǎn)。 (二)數(shù)據(jù)的時(shí)序性 在應(yīng)用領(lǐng)域的數(shù)據(jù)庫(kù)中,數(shù)據(jù)在不斷地更新,隨著時(shí)間的推移,原先發(fā)現(xiàn)的知識(shí)將不再有用,我們需要隨時(shí)間逐步修正發(fā)現(xiàn)模式來(lái)指導(dǎo)新的發(fā)現(xiàn)過(guò)程。 (三)互聯(lián)網(wǎng)上知識(shí)的發(fā)現(xiàn) Www正日益普及,從中可以找到很多新的知識(shí),已有一些資源發(fā)現(xiàn)工具來(lái)發(fā)現(xiàn)含有關(guān)鍵字的文本,但對(duì)在www上發(fā)現(xiàn)知識(shí)的研究不多。人們現(xiàn)在面臨的問(wèn)題是如何從復(fù)雜的數(shù)據(jù)(例如多媒體數(shù)據(jù))中提取有用的信息,對(duì)多層數(shù)據(jù)庫(kù)的維護(hù),如何處理數(shù)據(jù)的異類(lèi)性和自主性等等。
欄目分類(lèi)
- 人工智能翻譯對(duì)文學(xué)翻譯的挑戰(zhàn) ——以ChatGPT對(duì)《遠(yuǎn)大前程》的翻譯為例
- 指紋顯現(xiàn)技術(shù)優(yōu)化及實(shí)戰(zhàn)應(yīng)用
- 人工智能驅(qū)動(dòng)成人教育管理與學(xué)生培養(yǎng)機(jī)制的創(chuàng)新
- 人工智能賦能高校思政教育高質(zhì)量發(fā)展
- AI賦能下數(shù)學(xué)建模課程的改革與實(shí)踐
- 人工智能時(shí)代下高校美育實(shí)踐創(chuàng)新研究
- 基于超星平臺(tái)的《電力拖動(dòng)控制系統(tǒng)》課程改革探索
- AI數(shù)字技術(shù)助力珠寶首飾創(chuàng)新設(shè)計(jì)的探索與實(shí)踐
- 擁抱大模型時(shí)代背景下DEEPSEEK技術(shù)對(duì)企業(yè)戰(zhàn)略調(diào)整機(jī)制的影響研究
- 人工智能驅(qū)動(dòng)學(xué)術(shù)英語(yǔ)寫(xiě)作教學(xué)模式創(chuàng)新
- 喜報(bào)!《中國(guó)博物館》入選CSSCI擴(kuò)展版來(lái)源期刊(最新CSSCI南大核心期刊目錄2025-2026版)!新入選!
- 2025年中科院分區(qū)表已公布!Scientific Reports降至三區(qū)
- 2023JCR影響因子正式公布!
- 國(guó)內(nèi)核心期刊分級(jí)情況概覽及說(shuō)明!本篇適用人群:需要發(fā)南核、北核、CSCD、科核、AMI、SCD、RCCSE期刊的學(xué)者
- 我用了一個(gè)很復(fù)雜的圖,幫你們解釋下“23版最新北大核心目錄有效期問(wèn)題”。
- CSSCI官方早就公布了最新南核目錄,有心的人已經(jīng)拿到并且投入使用!附南核目錄新增期刊!
- 北大核心期刊目錄換屆,我們應(yīng)該熟知的10個(gè)知識(shí)點(diǎn)。
- 注意,最新期刊論文格式標(biāo)準(zhǔn)已發(fā)布,論文寫(xiě)作規(guī)則發(fā)生重大變化!文字版GB/T 7713.2—2022 學(xué)術(shù)論文編寫(xiě)規(guī)則
- 盤(pán)點(diǎn)那些評(píng)職稱(chēng)超管用的資源,1,3和5已經(jīng)“絕種”了
- 職稱(chēng)話(huà)題| 為什么黨校更認(rèn)可省市級(jí)黨報(bào)?是否有什么說(shuō)據(jù)?還有哪些機(jī)構(gòu)認(rèn)可黨報(bào)?