2.2.1 KDD*過程模型
基于雙庫協(xié)同機(jī)制的KDD*結(jié)構(gòu)模型用于處理結(jié)構(gòu)化數(shù)據(jù)挖掘問題,它區(qū)別于固有的KDD模型。在論證了數(shù)據(jù)子類結(jié)構(gòu)的可達(dá)范疇與挖掘知識庫的推理范疇之間的等價(jià)關(guān)系的基礎(chǔ)上,它通過啟發(fā)型協(xié)調(diào)器從知識庫中發(fā)現(xiàn)知識短缺,啟動挖掘進(jìn)程使機(jī)器自身主動聚焦,得到假設(shè)規(guī)則;并通過維護(hù)型協(xié)調(diào)器實(shí)時(shí)地到知識庫中對應(yīng)位置查找重復(fù)、冗余、矛盾等情況進(jìn)行知識庫的實(shí)時(shí)維護(hù)。該項(xiàng)內(nèi)容已獲國家發(fā)明專利《一種基于雙庫協(xié)同機(jī)制的KDD*方法及系統(tǒng)》(ZL 01145080.0)(見附件 )。
下面通過KDD*結(jié)構(gòu)模型與經(jīng)典的KDD結(jié)構(gòu)模型的對比做典型說明:
KDD結(jié)構(gòu)模型旨在為KDD提供宏觀指導(dǎo)和工程化方法。目前,國內(nèi)外學(xué)者已提出了若干模型,如Brachman等于1996年提出一種實(shí)用的KDD過程視圖,該視圖強(qiáng)調(diào)的是過程的交互性;NCR、SPSS、DaimlerChrysler和OHRA于1997年開始了KDD結(jié)構(gòu)模型工業(yè)標(biāo)準(zhǔn)的制定工作,并在1999年推出了CRISP-DM的KDD結(jié)構(gòu)模型工業(yè)標(biāo)準(zhǔn)的1.0版。這其中,F(xiàn)ayyad等提出的多階段模型以其通用性而被廣泛接受。這一模型如圖4所示:
圖4 Fayyad等提出的經(jīng)典的KDD結(jié)構(gòu)模型
基于雙庫協(xié)同原理(機(jī)制),我們提出了全新的KDD*結(jié)構(gòu)模型,其總體結(jié)構(gòu)如圖5所示:
圖5 KDD*系統(tǒng)總體結(jié)構(gòu)圖
與Fayyad等提出的結(jié)構(gòu)模型相比,KDD*有如下特征:
1) KDD*有機(jī)地溝通與融合了KDD*新發(fā)現(xiàn)的知識與基礎(chǔ)知識庫中固有的知識,使它們成為一個(gè)有機(jī)的整體;即實(shí)現(xiàn)了“用戶的先驗(yàn)知識與先前發(fā)現(xiàn)的知識可以耦合到發(fā)現(xiàn)過程中”。
2) 在知識發(fā)現(xiàn)過程中,KDD*對于冗余性的、重復(fù)性的、不相容的信息做出了實(shí)時(shí)處理(即知識庫的實(shí)時(shí)維護(hù)),有效地減少了由于過程積累而造成的問題的復(fù)雜性,同時(shí)為新舊知識的融合與合成提供了先決條件;實(shí)現(xiàn)了“知識與數(shù)據(jù)庫同步進(jìn)化”。
3) KDD*改變與優(yōu)化了知識發(fā)現(xiàn)的過程與運(yùn)行機(jī)制,實(shí)現(xiàn)了“多源頭”聚焦與減少評價(jià)量。
4) KDD*強(qiáng)化了知識發(fā)現(xiàn)的智能化程度,提高了認(rèn)知自主性(這將是今后相當(dāng)長的一階段內(nèi)保持的研究基調(diào)),較有效地克服領(lǐng)域?qū)<业淖陨砭窒扌,?shí)現(xiàn)了“采用領(lǐng)域知識輔助初始發(fā)現(xiàn)的聚焦”。
5) 作為KDD*的核心技術(shù)—雙庫協(xié)同機(jī)制的研究,揭示了在知識發(fā)現(xiàn)過程中,在一定的建庫原則下,知識庫與數(shù)據(jù)庫間的對應(yīng)關(guān)系;為實(shí)現(xiàn)“限制性的搜索”而減小搜索空間、提高發(fā)掘效率提供了有效的技術(shù)方法。
上一頁 [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] [12] [13] [14] [15] [16] [17] [18] [19] [20] [21] [22] [23] 下一頁
|