2003年8月27日在華盛頓召開了第九屆知識(shí)發(fā)現(xiàn)與數(shù)據(jù)挖掘國際會(huì)議,參與討論的專家一致認(rèn)為:數(shù)據(jù)挖掘正面臨著巨大的機(jī)遇和挑戰(zhàn);作為一門僅有17年歷史的新興交叉學(xué)科,當(dāng)前知識(shí)發(fā)現(xiàn)(數(shù)據(jù)挖掘)的研究進(jìn)展中,存在著兩個(gè)大的核心問題(難題): 其一是“缺乏基礎(chǔ)理論”;另一個(gè)是缺少“殺手锏”式的應(yīng)用。 U. Fayyad認(rèn)為:從科學(xué)發(fā)展的長(zhǎng)遠(yuǎn)來看,最大的絆腳石是基礎(chǔ)理論的缺乏以及所面臨的問題和挑戰(zhàn)的清晰明白的闡述。 他認(rèn)為對(duì)于我們要做什么,幾乎沒有理論甚至工程實(shí)踐來指導(dǎo):在今天它仍然是” 不為人知的藝術(shù)”。 我們需要理論來指導(dǎo)我們要做什么以及要如何作。這些理論能夠促使工程解決方法的出現(xiàn),這樣我們也可以將我們的 “手藝”更有效的教給其他人。而這種形勢(shì)與從業(yè)者以及對(duì)應(yīng)用感興趣的人們的巨大的熱情同時(shí)存在,這些人來自不同的領(lǐng)域,但是沒有科學(xué)根基以及持續(xù)的學(xué)術(shù)發(fā)展,本領(lǐng)域不可能得到發(fā)展與鞏固。
R.Uthurusamy也認(rèn)為:WEB的使用和生產(chǎn)廠家的大肆宣傳等都會(huì)在短期內(nèi)影響本領(lǐng)域的發(fā)展,它們會(huì)使得我們將更多的精力投向數(shù)據(jù)庫營(yíng)銷、CRM和OLAP等方面,而不是致力于使KDD從根本上或科學(xué)上有大的進(jìn)步。KDD的基礎(chǔ)研究界必須消除這些干擾而去努力解決KDD的真正的根本的問題。
有些學(xué)者在KDD的基礎(chǔ)理論的相關(guān)研究中做出一些成果,主要包括從數(shù)據(jù)庫的角度進(jìn)行研究,它強(qiáng)調(diào)知識(shí)發(fā)現(xiàn)的效率(efficiency);從機(jī)器學(xué)習(xí)的角度進(jìn)行研究,它強(qiáng)調(diào)知識(shí)發(fā)現(xiàn)的有效性(effectiveness)、從統(tǒng)計(jì)分析的角度進(jìn)行研究,它強(qiáng)調(diào)知識(shí)發(fā)現(xiàn)的正確性(valid)、以及從微觀經(jīng)濟(jì)學(xué)的角度進(jìn)行研究, 它強(qiáng)調(diào)的是知識(shí)發(fā)現(xiàn)的最大效用(maximum utility)等。但遺憾的是這些研究或者沒有深入探討其理論基礎(chǔ),或者沒有給出具體的實(shí)現(xiàn)方法,因此無法從根本上明顯提高現(xiàn)有知識(shí)發(fā)現(xiàn)的性能,也無法解決KDD發(fā)展過程中極富挑戰(zhàn)性的一些問題。事實(shí)上,上述的成果,只是提供了KDD的方法論基礎(chǔ),而要真正構(gòu)建其理論體系,必須抓住KDD的本質(zhì),形成與其本質(zhì)相適應(yīng)的理論基礎(chǔ)。KDD的本質(zhì)何在?至少有兩個(gè)可信的路徑:一個(gè)是將KDD過程(系統(tǒng))視為認(rèn)知過程(系統(tǒng));另一個(gè)是將KDD過程(系統(tǒng))視為非線性動(dòng)力系統(tǒng)中非平衡態(tài)轉(zhuǎn)化的過程(系統(tǒng))。
第一完成人是國內(nèi)較早進(jìn)入知識(shí)發(fā)現(xiàn)領(lǐng)域的學(xué)者。圍繞這兩個(gè)核心問題,早就開始在國家自然科學(xué)基金重點(diǎn)項(xiàng)目、863項(xiàng)目、教育部重點(diǎn)科技項(xiàng)目、國家九五攻關(guān)重點(diǎn)項(xiàng)目等11個(gè)項(xiàng)目的資助下,用十余年的時(shí)間全面、穩(wěn)定、系統(tǒng)地跟蹤前沿,另辟蹊徑地給出了令人信服的答案,即在這兩大核心問題上有所突破:1) 于1997年跳出主流發(fā)展,以認(rèn)知自主性為核心,在國際上開創(chuàng)了從內(nèi)在認(rèn)知機(jī)理出發(fā)、用認(rèn)知科學(xué)與系統(tǒng)論方法研究知識(shí)發(fā)現(xiàn)的新路徑;首次提出五個(gè)系列的原創(chuàng)性技術(shù)發(fā)明;進(jìn)而于2002年構(gòu)建并逐步完善與拓展了基于內(nèi)在認(rèn)知機(jī)理的知識(shí)發(fā)現(xiàn)技術(shù)理論體系(KDTICM),且據(jù)查至今國內(nèi)外尚無人像第一完成人那樣針對(duì)知識(shí)發(fā)現(xiàn)系統(tǒng)地提出一整套理論(包括作為理論的實(shí)現(xiàn)研發(fā)了相應(yīng)的集成化組合構(gòu)件式知識(shí)發(fā)現(xiàn)軟件系統(tǒng)ICCKDSS)。2) 利用七年時(shí)間深入實(shí)際,將KDTICM與ICCKDSS應(yīng)用于鋁電解生產(chǎn)領(lǐng)域,產(chǎn)生了較大的經(jīng)濟(jì)效益;以及農(nóng)業(yè)、氣象、現(xiàn)代遠(yuǎn)程教育網(wǎng)及國際商務(wù)等領(lǐng)域,產(chǎn)生了較大的社會(huì)效益;進(jìn)一步應(yīng)用到蛋白質(zhì)三維結(jié)構(gòu)預(yù)測(cè)這一國際性重大課題的研究中。以下分述之。
1. 科學(xué)發(fā)現(xiàn)導(dǎo)致技術(shù)發(fā)明,確保了技術(shù)發(fā)明的原創(chuàng)性
1.1 開創(chuàng)了知識(shí)發(fā)現(xiàn)研究的新路徑
我們首先進(jìn)行了若干先導(dǎo)性工作,主要集中在相關(guān)的邏輯基礎(chǔ)、方法論與哲學(xué)基礎(chǔ)方面的工作。比較典型的研究成果是:1) 提出基于語言場(chǎng)與語言值結(jié)構(gòu)的知識(shí)表示方法與數(shù)據(jù)歸約(離散化)方法,成為數(shù)據(jù)挖掘研究中貫穿性的方法;2) 形成因果聯(lián)系能行可判定方法——基于單一語言場(chǎng)的因果關(guān)系定性推理模型——基于綜合語言場(chǎng)的因果關(guān)系定性推理模型——廣義細(xì)胞自動(dòng)機(jī)及廣義歸納邏輯因果模型的系列性成果,這為后面的因果關(guān)聯(lián)規(guī)則的挖掘算法等研究奠定了基礎(chǔ);3) 結(jié)合專家系統(tǒng)研究,提出“一類不確定性歸納型自動(dòng)推理機(jī)制”和“專家知識(shí)的歸納獲取機(jī)制”,為KDK模型與算法的研究、新型實(shí)用智能系統(tǒng)的研究作了技術(shù)儲(chǔ)備;4) 提出了認(rèn)知自主性的實(shí)現(xiàn)策略與幾點(diǎn)哲學(xué)思考,成為內(nèi)在認(rèn)知機(jī)理研究中重要的思想來源。
在知識(shí)發(fā)現(xiàn)的主流發(fā)展中,特別是在復(fù)雜系統(tǒng)知識(shí)發(fā)現(xiàn)過程中,存在著許多富有挑戰(zhàn)性的問題。比如,1)迫切需要領(lǐng)域知識(shí)的參與;2)自主發(fā)現(xiàn)知識(shí)的機(jī)制;3)知識(shí)庫的實(shí)時(shí)維護(hù);4)盡量縮小搜索空間與挖掘空間;5) 免失重要的意外規(guī)則;6) 挖掘新知識(shí)的動(dòng)態(tài)評(píng)價(jià)等。這些問題靠傳統(tǒng)數(shù)據(jù)挖掘技術(shù)方法是難于處理或無法處理的,必須有與其復(fù)雜性相適應(yīng)的創(chuàng)新性技術(shù)方法來解決。第一完成人是國內(nèi)較早進(jìn)入知識(shí)發(fā)現(xiàn)領(lǐng)域的學(xué)者,于1997年開始逐步形成如下的解決方案:1) 從根基(機(jī)理)研究入手,另辟蹊徑地把知識(shí)發(fā)現(xiàn)過程(系統(tǒng))視為認(rèn)知過程(系統(tǒng)),用系統(tǒng)論與認(rèn)知科學(xué)的思想和方法(特別是模型化的方法)來研究復(fù)雜的知識(shí)發(fā)現(xiàn)過程,揭示了作為認(rèn)知系統(tǒng)的知識(shí)發(fā)現(xiàn)的潛在本質(zhì)、規(guī)律與復(fù)雜性;2) 機(jī)理研究導(dǎo)致數(shù)據(jù)挖掘技術(shù)的創(chuàng)新與發(fā)明——包括機(jī)制的實(shí)現(xiàn)技術(shù)、過程模型構(gòu)造方法、技術(shù)方法、系統(tǒng)構(gòu)造方法、作為其技術(shù)發(fā)明載體的軟件系統(tǒng);3) 將諸發(fā)明點(diǎn)(創(chuàng)新技術(shù))集成與系統(tǒng)化,形成技術(shù)理論體系;4) 擴(kuò)展原有的四個(gè)應(yīng)用領(lǐng)域,力求在工業(yè)生產(chǎn)中取得硬效益 (這是近一年多新做的工作)。
1.2 發(fā)現(xiàn)了三個(gè)機(jī)制
首次從認(rèn)知心理學(xué)、認(rèn)知物理學(xué)等新理念出發(fā),發(fā)現(xiàn)了知識(shí)發(fā)現(xiàn)系統(tǒng)內(nèi)在認(rèn)知機(jī)理涵蓋的三個(gè)機(jī)制(原理):雙庫協(xié)同機(jī)制(揭示了知識(shí)庫與數(shù)據(jù)庫間的內(nèi)在聯(lián)系)、雙基融合機(jī)制(揭示了基于數(shù)據(jù)庫和基于知識(shí)庫兩個(gè)發(fā)現(xiàn)過程的內(nèi)在聯(lián)系;與此相聯(lián)系的還獨(dú)立提出KDK)、信息擴(kuò)張機(jī)制(揭示了動(dòng)態(tài)挖掘過程中參數(shù)的演化規(guī)律等);分別相應(yīng)地給出其核心定理及其實(shí)現(xiàn)技術(shù)(通過協(xié)調(diào)器實(shí)現(xiàn))。內(nèi)在認(rèn)知機(jī)理的研究確保了技術(shù)發(fā)明的原創(chuàng)性,揭示了知識(shí)發(fā)現(xiàn)作為認(rèn)知系統(tǒng)潛在的本質(zhì)、規(guī)律與復(fù)雜性;在很大程度上解決了“用戶的先驗(yàn)知識(shí)與先前發(fā)現(xiàn)的知識(shí)可以耦合到發(fā)現(xiàn)過程中” 、“知識(shí)與數(shù)據(jù)庫的同步進(jìn)化” 、“知識(shí)庫的實(shí)時(shí)維護(hù)”等主流發(fā)展中極富挑戰(zhàn)性的問題;對(duì)主流發(fā)展產(chǎn)生重要的驅(qū)動(dòng)作用。其內(nèi)容將在以下具體論述。
1.2.1雙庫協(xié)同機(jī)制 (知識(shí)庫與數(shù)據(jù)庫間的內(nèi)在聯(lián)系)
認(rèn)知心理學(xué)興起于20世紀(jì)50年代中期,后來Neisser于1967年發(fā)表了心理學(xué)史上第一部以《認(rèn)知心理學(xué)》命名的專著。認(rèn)知心理學(xué)是以信息加工觀點(diǎn)為核心的心理學(xué),所謂信息加工觀點(diǎn)就是將人腦與計(jì)算機(jī)進(jìn)行類比,將人腦看作類似于計(jì)算機(jī)的信息加工系統(tǒng)。認(rèn)知心理學(xué)的研究范圍主要包括感知覺、注意、表象、學(xué)習(xí)記憶、思維和言語等心理過程或認(rèn)知過程,以及模式識(shí)別和知識(shí)的組織等;其核心是揭示認(rèn)知過程的內(nèi)部心理機(jī)制,即信息是如何獲取、貯存、加工和使用的。在知識(shí)發(fā)現(xiàn)系統(tǒng)中,模擬“創(chuàng)建意向”和“心理信息修復(fù)”這兩項(xiàng)認(rèn)知心理特征進(jìn)而提高系統(tǒng)的認(rèn)知自主性,正是我們研究的出發(fā)點(diǎn)。
數(shù)據(jù)挖掘在很大的程度上受領(lǐng)域知識(shí)與背景知識(shí)的制約,而這兩種知識(shí)如何真正具體地、可實(shí)現(xiàn)地參與到數(shù)據(jù)挖掘過程中?長(zhǎng)期以來只是原則上與直覺心理上意識(shí)到這個(gè)問題,但始終沒得到實(shí)實(shí)在在的解決。我們模擬認(rèn)知心理學(xué)的兩個(gè)重要特征,即“創(chuàng)建意向”與“心理信息修復(fù)”,為此用“啟發(fā)型協(xié)調(diào)器”實(shí)現(xiàn)前者(利用有向超圖鄰接矩陣發(fā)現(xiàn)知識(shí)短缺——產(chǎn)生創(chuàng)建意向——自主聚焦——定向挖掘);用“維護(hù)型協(xié)調(diào)器”實(shí)現(xiàn)后者(判定冗余、重復(fù)、矛盾等——定向搜索——實(shí)現(xiàn)知識(shí)庫的實(shí)時(shí)維護(hù))。為達(dá)此目的,必通過建立數(shù)據(jù)庫與知識(shí)庫間的關(guān)系,產(chǎn)生“定向搜索”與“定向挖掘”機(jī)制。我們發(fā)現(xiàn)了在知識(shí)發(fā)現(xiàn)過程中,在特定的構(gòu)造下,數(shù)據(jù)庫與知識(shí)庫間的對(duì)應(yīng)關(guān)系;論證了結(jié)構(gòu)對(duì)應(yīng)定理;設(shè)計(jì)了啟發(fā)型協(xié)調(diào)器與維護(hù)型協(xié)調(diào)器,解決了“定向搜索”、“定向挖掘”、“自主發(fā)現(xiàn)”、“實(shí)時(shí)維護(hù)”等難題。該項(xiàng)內(nèi)容已獲國家發(fā)明專利《一種基于雙庫協(xié)同機(jī)制的KDD*方法及系統(tǒng)》(ZL 01145080.0)(見附件 )。
1) 結(jié)構(gòu)對(duì)應(yīng)定理:論域X的推理范疇Cr(N)與完全數(shù)據(jù)子類結(jié)構(gòu)可達(dá)范疇Cµ<g,Âc(g)>等價(jià)。(我們建立了兩個(gè)證明路徑:其一,利用范疇論;其二,利用我們提出的連續(xù)映射的同倫理論的拓廣——泛同論理論)。
2) 通過結(jié)構(gòu)對(duì)應(yīng)定理,可以建立挖掘數(shù)據(jù)庫中數(shù)據(jù)子類結(jié)構(gòu)的“層”與挖掘知識(shí)庫中知識(shí)“素結(jié)點(diǎn)”的一一對(duì)應(yīng)關(guān)系(見圖1),以實(shí)現(xiàn)“定向搜索”與“定向挖掘”。提出并實(shí)現(xiàn)了兩個(gè)協(xié)調(diào)算法:一是對(duì)領(lǐng)域固有的知識(shí)庫的實(shí)時(shí)維護(hù)(通過維護(hù)型協(xié)調(diào)算法與構(gòu)件);二是自主發(fā)現(xiàn)知識(shí)短缺產(chǎn)生創(chuàng)見意向(通過啟發(fā)型協(xié)調(diào)算法與構(gòu)件)。
圖1 知識(shí)庫中的知識(shí)素結(jié)點(diǎn)與數(shù)據(jù)子類結(jié)構(gòu)中的層之間的一一對(duì)應(yīng)
[1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] [12] [13] [14] [15] [16] [17] [18] [19] [20] [21] [22] [23] 下一頁
|