您現(xiàn)在的位置: 中國科技創(chuàng)新網(wǎng) > 文章中心 > 委員會專欄 > 文章正文

項目名稱:    復(fù)雜文本信息分析與理解的基礎(chǔ)理論和應(yīng)用方法的研究

推薦單位:    教育部

項目簡介:    復(fù)雜文本信息分析與理解是模式識別的一個重要分支,是將復(fù)雜文本信息轉(zhuǎn)換為數(shù)字信息并進行計算機自動分析與處理進而理解的基本理論和方法。長期以來,由于缺乏系統(tǒng)的理論基礎(chǔ),這項工作一直進展緩慢,很多研究難以實現(xiàn)。經(jīng)過十五年的努力,項目小組在該領(lǐng)域幾個關(guān)鍵理論難題上合作攻關(guān),深入系統(tǒng)地研究,取得如下進展。

針對半個多世紀(jì)來,困擾文本信息分析與理解基本理論問題,即幾何與邏輯結(jié)構(gòu)表示與分析、文本結(jié)構(gòu)復(fù)雜度定義等,本項目建立了基于參數(shù)元素組的文本分析和理解模型,比較完整地揭示文本分析與理解之間的關(guān)系。在此基礎(chǔ)上,提出了文本信息處理的非層次理論,從理論上解決了復(fù)雜幾何結(jié)構(gòu)文本信息的分析與理解。突破了傳統(tǒng)的上推與下推理論的理論瓶頸,使文本分析與理解理論在智能信息處理與信息安全等方面得以推廣與應(yīng)用。本項目構(gòu)造了國際上第一個用于文本信息分析與理解的特殊小波函數(shù),創(chuàng)造性地提出了基于小波的文本分析與理解理論,為處理復(fù)雜幾何結(jié)構(gòu)的文本提供了新的理論和工具。本項目深入探討發(fā)現(xiàn)小波新性質(zhì),提出模角分離理論成功分離了兩種不同結(jié)構(gòu)奇異信號并給予數(shù)學(xué)證明,把奇異信號的研究推進一大步。

本項目提出的模型理論被國際權(quán)威的《模式識別與計算機視覺手冊》收錄,已作為現(xiàn)代模式識別理論體系的重要部分;谛〔ㄎ谋拘畔⒎治雠c理解理論開辟了文本信息分析與理解的新途徑,并從分析與理解性能上得到明顯改進而被美國著名專家G.Nagy評價該理論"展示了完美的性能"。美國模式識別專家A.K.Jain高度評價研究成果"解決了高度復(fù)雜性的文本信息分析問題"。本項目成果先后被美、英、加、意、日、韓、新加坡、香港等地同行大量引用,并作為他們研究的基礎(chǔ)理論,部分成果得到推廣和應(yīng)用。本項目發(fā)表論文260多篇,SCI檢索101篇,他引1168次。項目第一完成人被選為IEEE Fellow和IAPR Fellow,還在國際上創(chuàng)辦了第一個小波理論及其應(yīng)用的國際期刊,并成為SCI檢索源。

主要發(fā)現(xiàn)點:  1. 首次建立了一個基于參數(shù)元素組的文本信息分析和理解模型。該模型揭示了各種復(fù)雜文本信息的幾何結(jié)構(gòu)與邏輯結(jié)構(gòu)關(guān)系,并給出了基于熵理論的文本信息幾何結(jié)構(gòu)復(fù)雜度的定義,使各種具體文本信息能夠通過模型轉(zhuǎn)化為可用于計算機分析與理解的抽象信息元,這一模型建立構(gòu)成現(xiàn)代文本信息分析與理解的基礎(chǔ)理論體系的重要部分 [主要論文1,2]。學(xué)科分類:模式識別理論。

2. 在國際上提出了文本信息分析的新理論。從理論上解決了傳統(tǒng)的上推理論及下推理論的不能分析與處理復(fù)雜幾何結(jié)構(gòu)文本信息的致命弱點,使各種文本信息計算機自動分析、處理與理解因這一理論瓶頸的突破,而開始得到廣泛實際應(yīng)用 [主要論文5]。學(xué)科分類:模式識別理論、信號與信號處理理論。

3. 把小波分析理論研究與文本信息分析與理解理論研究相結(jié)合,創(chuàng)造性地建立了文本信息分析與理解的新理論和方法,并取得下面三項主要成果。學(xué)科分類:模式識別理論、信號與信號處理理論。

3.1 首次把多分辨分析思想引入復(fù)雜表格文本信息的處理,建立了表格文本信息分析、處理與理解的二維多分辨分析理論。有效地從各種文本信息中提取出表格的幾何結(jié)構(gòu),并給出相應(yīng)的邏輯理解,使困擾文本分析與理解的一個核心問題――表格分析與理解得到解決 [主要論文6]。

3.2 構(gòu)造了國際上第一個滿足文本信息分析與理解的特殊小波函數(shù),發(fā)現(xiàn)了其相應(yīng)小波變換處理文本信息的良好特性并給出數(shù)學(xué)證明,在此基礎(chǔ)上給出復(fù)雜文本信息的小波表示理論,為復(fù)雜文本信息的精確表示提供一般理論和方法 [主要論文10]。

3.3 提出模角分析理論,第一次成功把Dirac結(jié)構(gòu)奇異信號從Step型結(jié)構(gòu)中檢測并分離出來,并給予完整數(shù)學(xué)證明,推動了多尺度信號奇異性檢測和分析理論的發(fā)展 [主要論文7]。

4. 第一次提出了基于非線性變換的變形校正理論,建立了雙二次、雙三次、半彈性和全彈性變換的的近似公式,并給出了實用的算法,成功地解決了非線性變形校正問題 [主要論文9]。學(xué)科分類:模式識別理論。

5. 在國際上提出了若干文本元素理解和識別的理論及算法:

包括基于標(biāo)志線條和描述語言的的表格文本分析方法 [主要論文4]、基于多特征,多層次分類的手寫文字識別方法 [主要論文3]、基于彈性形變的附加正例算法 [主要論文8]。學(xué)科分類:模式識別理論、信號與信號處理理論。

主要完成人:  1.   唐遠炎

提出了文本信息分析和理解模型,提出了文本信息非層次分析的思想和理論,提出了基于小波分析的文本信息分析與理解的思想和理論,提出了特殊小波函數(shù)構(gòu)建思想和理論,提出模角分析思想和理論,提出了基于非線性變換的變形校正思想和理論,提出了若干文本元素理解和識別的思想和理論,對本項目主要發(fā)現(xiàn)點1、2、3、4和5做出了創(chuàng)造性貢獻。本人在該項研究中的工作量占本人工作量的90%。

2.   房斌

提出了若干文本元素理解和識別的思想和理論,對本項目主要發(fā)現(xiàn)點5做出了創(chuàng)造性貢獻。本人在該項研究中的工作量占本人工作量的70%。

3.   尤新革

部分參與了模角分析理論和特殊小波函數(shù)構(gòu)建的工作,對本項目主要發(fā)現(xiàn)點3.2及3.3做出了創(chuàng)造性貢獻。本人在該項研究中的工作量占本人工作量的60%。

4.   馬洪

部分參與了文本信息分析的非層次理論和基于小波的文本分析理論的工作,對本項目主要發(fā)現(xiàn)點2和3.1做出了創(chuàng)造性貢獻。本人在該項研究中的工作量占本人工作量的40%。

5.   楊力華

部分參與了模角分析理論和特殊小波函數(shù)構(gòu)建的工作,對本項目主要發(fā)現(xiàn)點3.2及3.3做出了創(chuàng)造性貢獻。本人在該項研究中的工作量占本人工作量的40%。

10篇代表性論文:  1.   Automatic Document Processing: A Survey / Pattern Recognition

2.   Document processing for automatic knowledge acquisition / IEEE Transactions on Knowledge and Data Engineering

3.   Offline recognition of chinese handwriting by multifeature and multilevel classification/ IEEE Transactions on Pattern Analysis and Machine Intelligence

4.   Financial document processing based on staff line and description language / IEEE Transactions on Systems, Man, and Cybernetics

5.   A new approach to document analysis based on modified fractal signature /ICDAR95

6.   Multiresolution analysis in extraction of reference lines from documents with gray level background / IEEE Transactions on Pattern Analysis and Machine Intelligence

7.   Characterization and Detection of Edges by Lipschitz Exponents and MASW Wavelet Transform/ICPR 98

8.   Off-line Signature Verification with Generated Training Samples / IEE Proceedings - Vision, Image and Signal Processing

9.   Image Transformations Approach to NonlinearShape Restoration / IEEE Transactions on Systems, Man, and Cybernetics

10.  Skeletonization of Ribbon-like shapes based on a new wavelet function / IEEE Transactions on Pattern Analysis and Machine Intelligence

文章錄入:zgkjcx    責(zé)任編輯:zgkjcx 
  • 上一篇文章:

  • 下一篇文章:
  •  
    名稱:科技創(chuàng)新網(wǎng) 工信部備案號:京ICP備13040577號-2 京公網(wǎng)安備11010802045251號
    版權(quán)所有:未經(jīng)授權(quán)禁止復(fù)制或建立鏡像 E-Mail:zgkjcx08@126.com
    亚洲熟女一区二区三区,亚洲毛片不卡aV在线播放一区,久久免费视频影视,国产精品尤物在线不卡