3) 關(guān)于雙庫(kù)協(xié)同機(jī)制具體實(shí)現(xiàn)的進(jìn)一步討論。例如:可達(dá)關(guān)系的概率估計(jì)定理:設(shè)p>2a+a2/(1-a);對(duì)定義的參數(shù)b和B, 令a<b<(1-a)p, 令(1-p+pa)/(1-a)<B<1-a. 則隨著論域X的數(shù)據(jù)庫(kù)Â(X)中元組數(shù)目S(R)的增加,本原知識(shí)庫(kù)中每一條正規(guī)則對(duì)應(yīng)的數(shù)據(jù)子類結(jié)構(gòu)庫(kù)中的關(guān)系為一個(gè)可達(dá)關(guān)系的概率均趨于1;每一條反規(guī)則對(duì)應(yīng)的關(guān)系為非可達(dá)關(guān)系的概率均趨于1。
1.2.2雙基融合機(jī)制 (兩個(gè)知識(shí)發(fā)現(xiàn)過(guò)程間的內(nèi)在聯(lián)系)
雙庫(kù)協(xié)同機(jī)制給出了特定結(jié)構(gòu)下數(shù)據(jù)庫(kù)與知識(shí)庫(kù)的對(duì)應(yīng)關(guān)系,那么基于數(shù)據(jù)庫(kù)的KDD與基于知識(shí)庫(kù)的KDK的兩個(gè)發(fā)現(xiàn)過(guò)程有無(wú)內(nèi)在聯(lián)系呢?我們得到了肯定的回答。
我們發(fā)現(xiàn)了表面上毫無(wú)關(guān)聯(lián)的兩個(gè)知識(shí)發(fā)現(xiàn)過(guò)程(KDD與KDK)的內(nèi)在聯(lián)系;雙基融合機(jī)制將兩者統(tǒng)一在一個(gè)知識(shí)發(fā)現(xiàn)系統(tǒng)(過(guò)程)中,使其相輔相成,是一種機(jī)器智能的較高境界。設(shè)計(jì)了R型協(xié)調(diào)器、S型協(xié)調(diào)器與T型協(xié)調(diào)器,解決了KDK依賴與部分地轉(zhuǎn)化為KDD的難題。該項(xiàng)內(nèi)容已正式申報(bào)國(guó)家發(fā)明專利《一種融入R型協(xié)調(diào)器的KDK系統(tǒng)》(200510086965.8)、《一種融入R型與S型協(xié)調(diào)器的KDK系統(tǒng)》(200510086964.3)和《一種基于雙基融合機(jī)制的的KDK*系統(tǒng)》(200510086966.2)(見(jiàn)附件 )。
1)(KDD與KDK)過(guò)程模型邏輯等價(jià)定理:設(shè)KDK的過(guò)程模型為M=,KDD的過(guò)程模型為N =,在依數(shù)據(jù)子類結(jié)構(gòu)構(gòu)建數(shù)據(jù)庫(kù),依知識(shí)結(jié)點(diǎn)網(wǎng)絡(luò)構(gòu)建知識(shí)庫(kù)的條件下,M與N各要素間建立了一一對(duì)應(yīng)關(guān)系,即M與N邏輯等價(jià)。其中:Q為結(jié)點(diǎn)集,R為認(rèn)知通達(dá)關(guān)系,f為正則測(cè)度函數(shù),g為正則確信度函數(shù);S為數(shù)據(jù)子類集,F(xiàn)為可達(dá)性關(guān)系,Sup為數(shù)據(jù)子類的支持度,Vel為F上的挖掘可信度。
依據(jù)該定理,我們可將部分KDK挖掘問(wèn)題轉(zhuǎn)化為KDD的挖掘問(wèn)題;同時(shí)為規(guī)則驗(yàn)證提供了轉(zhuǎn)換的根據(jù)。
2) 雙基融合機(jī)制的實(shí)現(xiàn):構(gòu)造了R型、S型、T型三個(gè)協(xié)調(diào)器,并設(shè)計(jì)了相應(yīng)的軟件。
1.2.3信息擴(kuò)張機(jī)制 (動(dòng)態(tài)挖掘進(jìn)程規(guī)律)
目前的挖掘算法與評(píng)價(jià)方法的討論基本上是在一個(gè)時(shí)間剖面上,相對(duì)穩(wěn)定的狀態(tài)下進(jìn)行的,而對(duì)于動(dòng)態(tài)挖掘進(jìn)程、實(shí)時(shí)與在線的挖掘進(jìn)程考慮得較少;擴(kuò)散、演化與預(yù)測(cè)性研究日趨重要。信息擴(kuò)張機(jī)制主要指當(dāng)數(shù)據(jù)挖掘過(guò)程從一個(gè)抽象級(jí)向下一個(gè)抽象級(jí)、從固有數(shù)據(jù)庫(kù)(知識(shí)庫(kù))向擴(kuò)展數(shù)據(jù)庫(kù)(知識(shí)庫(kù))過(guò)渡的時(shí)候,所呈現(xiàn)的運(yùn)行規(guī)律。如:規(guī)則價(jià)值的動(dòng)態(tài)評(píng)價(jià)、類似于"不動(dòng)點(diǎn)"的數(shù)據(jù)簇的尋求、"突變"協(xié)調(diào)算法、基于知識(shí)信息熵的預(yù)覽算法、數(shù)據(jù)挖掘復(fù)雜性研究等問(wèn)題。得到的主要結(jié)果如下:
1) 動(dòng)態(tài)挖掘進(jìn)程中規(guī)則參數(shù)的演化規(guī)律的研究:
基于認(rèn)知物理學(xué)的“語(yǔ)言場(chǎng)”與“信息擴(kuò)散原理”,發(fā)現(xiàn)了關(guān)聯(lián)規(guī)則的特類——意外規(guī)則參數(shù)演化的規(guī)律;
參數(shù)演化定理:在KDD的動(dòng)態(tài)挖掘進(jìn)程中的某一時(shí)間段內(nèi),在對(duì)實(shí)時(shí)數(shù)據(jù)庫(kù)DB實(shí)施分庫(kù)和每種參數(shù)只考慮上升、平行、下降三種演化情況的前提下,對(duì)于意外規(guī)則而言,其組.態(tài)空間可劃歸為S={<0,0,0,0,0>, <0,0,0,1,-1>, <0,0,0,-1,1>, <-1,0,-1,0,0>, <-1,0,-1,1,-1>, <-1,0,-1,-1,1>, <0,1,-1,0,1>, <0,1,-1,-1,1>, <0,1,-1,1,0>, <0,1,-1,1,1>, <0,1,-1,1,-1>, <-1,1,-1,0,1>, <-1,1,-1,-1,1>, <-1,1,-1,1,0>, <-1,1,-1,1,1>, <-1,1,-1,1,-1>}。
該定理將1024種參數(shù)演化的組態(tài)情況化歸為16種(波動(dòng)型除外,對(duì)于波動(dòng)型利用“信息擴(kuò)散原理”加以討論),并給出了被認(rèn)為是知識(shí)發(fā)現(xiàn)難點(diǎn)的可理解性討論的5類主題分析。
對(duì)于波動(dòng)型的討論:規(guī)則的參數(shù)波動(dòng)變化的情況有781種,對(duì)參數(shù)波動(dòng)變化的態(tài)勢(shì)可采用下述的方法處理----信息擴(kuò)散原理是一種在樣本不足的情況下,對(duì)樣本應(yīng)遵循的規(guī)律進(jìn)行認(rèn)識(shí)的模糊數(shù)據(jù)處理方法。我們提出的自動(dòng)評(píng)價(jià)方法可在領(lǐng)域?qū)<也唤槿氲那闆r下,利用知識(shí)(規(guī)則)的可計(jì)算參數(shù)進(jìn)行評(píng)價(jià);并由信息擴(kuò)散原理彌補(bǔ)參數(shù)相對(duì)不足的缺陷,得到規(guī)則參數(shù)的概率分布信息,據(jù)此客觀地展現(xiàn)規(guī)則特征,從而實(shí)現(xiàn)規(guī)則評(píng)價(jià)。
2) 矛盾域分布的研究:
定義 設(shè)在對(duì)真實(shí)數(shù)據(jù)庫(kù)的動(dòng)態(tài)挖掘時(shí),規(guī)則的兩個(gè)參數(shù)(支持度和可信度)的閾值
設(shè)為 和若下列兩參數(shù)聯(lián)立不等式:
① ②
有解。則稱所求的區(qū)間(或點(diǎn)集)為矛盾域。其中、為三維空間中規(guī)則兩參數(shù)對(duì)的函數(shù)。、為對(duì)應(yīng)矛盾規(guī)則(滿足矛盾規(guī)則概念模型)對(duì)的函數(shù)。
定理 研究數(shù)據(jù)挖掘中矛盾規(guī)則的問(wèn)題,可以抽象為在一個(gè)維向量空間中,求解規(guī)則(比如產(chǎn)生式規(guī)則P→Q)與其對(duì)應(yīng)的受矛盾規(guī)則概念模型約束的矛盾規(guī)則(P→┒Q)的參數(shù)向量同時(shí)落在閾值空間中的問(wèn)題。
3) 變論域下閾值設(shè)置的研究:
一般方法是先在數(shù)據(jù)屬性論域中,討論實(shí)際數(shù)據(jù)庫(kù)中數(shù)據(jù)項(xiàng)目屬性的特征,進(jìn)行模
糊綜合評(píng)判,確定各個(gè)項(xiàng)目客觀合理的最小支持度閾值(為“點(diǎn)值”類閾值);然后在時(shí)空論域中,從數(shù)據(jù)庫(kù)本身的動(dòng)態(tài)變化中尋找變化規(guī)律,使用閾值協(xié)調(diào)器計(jì)算規(guī)則的基礎(chǔ)的閾值取值區(qū)間;最后確定變論域下閾值設(shè)置的輸出函數(shù)( )。用戶只需依照該閾值設(shè)置函數(shù)對(duì)閾值進(jìn)行設(shè)置,將可以達(dá)到我們客觀合理地設(shè)置閾值的目的確。
4) 知識(shí)發(fā)現(xiàn)系統(tǒng)中信息熵方法的應(yīng)用研究:
理論物理研究的成果表明,熱力學(xué)熵適合于研究海量粒子的分布規(guī)律。現(xiàn)代信息論在通訊等領(lǐng)域的成功應(yīng)用表明,信息熵適用于研究人們有效獲取知識(shí)或信息的方法。
定理:如果表示任何一個(gè)元素在中出現(xiàn)的概率,是對(duì)中的任何一個(gè)元
素分類所需要的平均信息量,則對(duì)樣本空間中任一個(gè)元素分類所需要的信息量為:
這個(gè)結(jié)論比ID3算法的理論分析結(jié)果多出了一項(xiàng)。
此可克服ID3算法傾向于屬性值較多的屬性的缺陷。
信息熵一般表達(dá)式:我們應(yīng)用所建立的關(guān)于概念及其分解的符號(hào)體系得到了樹(shù)形概念分解之下,基于任何概念粒度的信息熵(信息蘊(yùn)含量)的一般表達(dá)式
上一頁(yè) [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] [12] [13] [14] [15] [16] [17] [18] [19] [20] [21] [22] [23] 下一頁(yè)
|