面向大數據的高維數據挖掘技術研究
1 大數據的發(fā)展挑戰(zhàn)
1.1 在技術架構形式上
現階段,數據庫正在全球化,立足于該發(fā)展模式,分布式模式需要得以創(chuàng)建,除了需要龐大機器之外,還需要有效處理龐大的數據信息。但是面對大數據時代,針對飛速激增的數據量,傳統(tǒng)數據分析已經不能滿足需求,在以下3個方面得到體現:
1.1.1 數據處理的時效性
面對大數據不斷推行,為了符合現階段數據處理實際需求,數據實現在線處理。在此基礎上,無論是數據處理選擇,還是數據處理模式,都不斷改變,處理具有實時性,除了能夠實現流處理之外,批處理也成功實現。立足于大數據實時性處理,無論是業(yè)務需求,還是根據應用,都逐步發(fā)生改變。
1.1.2 實現了動態(tài)變化環(huán)境中的索引形式
在索引形式的基礎上,關系數據庫查詢速度將不斷提升,可是使用傳統(tǒng)數據管理模式,索引形式并不可以產生變化,在此基礎上,無論是更新效率,還是創(chuàng)建方式,都不斷形成。針對大數據信息的變化特點,除了需要具備設計簡潔的特點,創(chuàng)建索引方式還需要具有高效的特點,由此針對大數據變化,無論是數據信息的需求調整,還是數據信息的處理,都可以良好使用。所以說,針對大數據變化,全新的索引形式需要成功設計,在此基礎上確保查詢工作順利實施。
1.1.3 先驗知識的缺失
立足于傳統(tǒng)數據分析結構,在關系型保存模式基礎上,無論是出現先驗知識,還是隱藏內部關系,都早已出現。比如說,對信息屬性進行分析過程中,可能存在的取值范圍需要確定,并且在實際分析之前,數據的了解就已經形成。針對大數據分析,無論是非結構化數據,還是半結構化數據,都需要創(chuàng)建類似數據,并且正式關系式需要實現。但是數據流的產生是不間斷進行的,所以說針對實時發(fā)生的數據,先驗知識并不會創(chuàng)建完善,在此情況下,對無先驗知識,需要及時發(fā)現并及時處置。
2 高維數據挖掘中的問題
2.1 高維數據簡介
在大數據庫飛速增加的基礎上,維數同樣在急劇擴大,一旦增長到瓶頸出,數據處理將難以進行,人們將該數據就叫做高維數據。相對于傳統(tǒng)數據挖掘而言,除了具有復雜性的特點之外,高維數據還具有多信息量性,由此成為數據挖掘的核心所在。
2.2 高維數據的特點
(1)稀疏性:實質就是數據庫相對龐大時,即便高維數據非常多,但是能夠符合使用要求的,相對較少。
(2)維度災難:挖掘高維數據的過程中,往往存在較多的屬性變化,在此情況下,索引結構性能將不斷降低,特別是無論最近鄰,還是最遠鄰,和查詢點的距離往往都一樣,由此最近鄰往往是沒有意義的,為此數據挖掘難度將急劇增加。
2.3 高維數據對于數據挖掘產生的影響
結合大數據特征,實際挖掘數據過程中,使用最近鄰法,在龐大數據中查詢效率將急劇提升,最近鄰法往往依賴索引結構進行的,可是針對高維數據存在維度災難的特點,最近鄰查詢往往被索引結構支持度將不斷降低,甚至是使得最近鄰查詢無法有效進行。
無論是進行高維數據的分類聚類分析,還是進行高維數據的異常檢測,受制于索引結構的制約,效果將大打折扣,甚至是失去效果,由此無論是異常檢測算法還是聚類分析性能將不斷降低;除此之外,針對同樣的數據點距離,使得分類聚類概念意義不斷消失,針對高??臻g數據具備的稀疏性,任何數據點都能夠視為異常點,此時針對高維數據異常檢測將變得困難重重。
2.4 高維數據挖掘的研究方向
(1)距離函數或相似性度量函數:無論是重新定義距離函數,還是重新定義相似性度量函數,都能夠成功避免“維度災難”的制約。
(2)選維和降維:在不斷降低高維數據維度的基礎上,使得其成功形成低維數據,由此進行低維數據的數據挖掘。同時該方法最為人們所接受。
(3)高效的聚類算法和異常檢測算法:為成功解決算法效率不高的難題,存在三個方面的措施:第一,設計性能更好的索引結構;第二,增量算法;第三,并行算法。
3 大數據的高維數據挖掘技術
3.1 大數據儲存的三維矩陣模型
針對不一樣來源的數據,往往可以選取不一樣的數據處理方式。比如說,通常情況下,在分解數據種類的基礎上,能夠將調研數據分為三類:第一,單選;第二,多選;第三,排序。無論是傳統(tǒng)數據記錄,還是傳統(tǒng)數據分析過程中,都是立足于同樣數據庫開展的,由此增加維度的不一樣,無論是數據分析,還是數據處理,都將受到制約。
所以說,針對大數據時代,數據模型的創(chuàng)建除了需要具有內容多的特征,還需要存在極強的通用性。同樣以上文例子為例,在數據調研過程中,無論是單選,還是多選,都能夠依據向量來有效表達,對應的題目排序可以利用矩陣來表現,在社會網絡數據的基礎上進行,并且結合關鍵性類別來實際代表選題方式,最后模型轉換則是建立在三維矩陣和傳統(tǒng)數據庫基礎之上的(如圖1),處理關鍵數據,由此不一樣的空間形式將存在空間維度之上,此時三維矩陣將有全部數據來源構成,進行有效組合之后,形成立體式模型,如圖2。
3.2 關聯規(guī)則的三維矩陣挖掘
實際進行大數據挖掘過程中,關聯規(guī)則挖掘是最受人們青睞的。無論是不一樣的屬性,還是項目關系,都是沒有辦法隱藏,同時也是沒有辦法預知的,只有在統(tǒng)計方法和數據庫的基礎上加以實現?,F階段,關聯規(guī)則挖掘技術憑借其良好的性能,成為了使用廣泛的技術之一,在關聯規(guī)則挖掘過程中存在以下核心要素:
(1)置信度:主要用于度量衡量強度以及準確性;
(2)支持度:主要用于衡量度量重要性。
在日常生活和工作中,在關聯規(guī)則挖掘過程中,只有上訴核心因素數值最小的時候,支持度同樣也對應最小值,由此才得以成功處于關聯規(guī)則內。假如需要使得關聯規(guī)則可靠性最低,此時置信度需要確保為最低。
想要使得多維數據成功在空間中表現,立足于空間特種,能夠在多維儲存模型的基礎上成功表現,由此無論是數據層次還是數據語言,都能夠有效表達。比如說:在檢測海洋數據過程中,氣象環(huán)境除了風力之外,還有降水等等;海底環(huán)境處理重力之外,還有水深等等;水體環(huán)境除了有水溫計鹽度之外,還有潮流和水聲,因素眾多且相互交織,由此多維數據得以形成。在模型建立的基礎上,使得多維數據能夠在空間成功表達,使得海洋多樣化的數據結構得以呈現。
3.3 基于超圖的聚類算法
在原始數據相互關系的基礎上,結合超圖數據集,使得圖形劃分方法不斷得到優(yōu)化,此為超圖聚類算法。在三維矩陣之中,利用分割算法進行圖像劃分,使用最為廣泛的即為HMETIS算法,存在如下步驟:
(1)首先是粗化階段,在最小超圖的基礎上,結合推進超圖,進行不斷壓縮。
(2)其次是初始劃分階段,在二次劃分超圖的基礎上,利用二次方法,來不斷強化超圖質量,使得工作效率有效提升。
(3)最后遷移優(yōu)化階段,分解超圖之后,在投影基礎上,使得分解質量不斷提升。
3.4 高維數據挖掘的工具
現階段,存在三種使用廣泛的高維數據挖掘工具:第一,SPSS;第二,Exterprise Miner;第三,SAS。存在如下特征:
(1)SAS:是建立在統(tǒng)計理論之上的,存在諸多功能,高維數據挖掘功能相對齊全,但是需要專業(yè)人士進行操作,并且存在極高的運用成本。
(2)Exterprise Miner:具有操作簡便的優(yōu)勢,高維數據的處理能力相對適中,但是不能進行數據搜索。
(3)SPSS:和SAS具有類似功能,但是相對而言具有較高性價比,高維數據挖掘功能較為出眾,除此之外,立足于集成以及發(fā)布功能,工作人員能夠較好的掌握挖掘結果,并且理解挖掘結果。
本文來源:《企業(yè)科技與發(fā)展》:http://www.00559.cn/w/kj/21223.html
- 2025年中科院分區(qū)表已公布!Scientific Reports降至三區(qū)
- 2023JCR影響因子正式公布!
- 國內核心期刊分級情況概覽及說明!本篇適用人群:需要發(fā)南核、北核、CSCD、科核、AMI、SCD、RCCSE期刊的學者
- 我用了一個很復雜的圖,幫你們解釋下“23版最新北大核心目錄有效期問題”。
- CSSCI官方早就公布了最新南核目錄,有心的人已經拿到并且投入使用!附南核目錄新增期刊!
- 北大核心期刊目錄換屆,我們應該熟知的10個知識點。
- 注意,最新期刊論文格式標準已發(fā)布,論文寫作規(guī)則發(fā)生重大變化!文字版GB/T 7713.2—2022 學術論文編寫規(guī)則
- 盤點那些評職稱超管用的資源,1,3和5已經“絕種”了
- 職稱話題| 為什么黨校更認可省市級黨報?是否有什么說據?還有哪些機構認可黨報?
- 《農業(yè)經濟》論文投稿解析,難度指數四顆星,附好發(fā)選題!