基于本体的Web航空产品型号信息抽取技术研究

日期:2016.12.22 点击数:6

【类型】学位论文

【作者】袁利华 

【关键词】 本体 信息抽取 模式 文档对象模型 航空产品

【摘要】当今在以信息技术为代表的新军事革命浪潮的推动下,国防科技情报的形式发生了重大变化。国防产品信息格式更加多样化,且代号往往是英文、数字和下划线的不确定组合,有的还有改进型号。如何快速从Internet散乱信息中及时加工、处理、提炼关键情报,对有效增强国防信息服务工作有着重要的现实意义。 本文在研究了本体和XML相关技术,以及对半结构化Web信息抽取总体解决方案比较研究的基础上,结合航空产品型号信息的特点,着重研究了Web航空产品型号信息抽取规则的制定方法以及型号信息数据抽取的总体设计方案。在抽取规则制定部分,依据抽取的深度不同,尝试将抽取规则分为记录选取规则和数据模板匹配规则(包括属性匹配规则和代号分类规则),此规则用XML表达。其中属性匹配规则部分提出了一种新的抽取规则生成算法,该算法在领域本体的概念层次关系、属性特征和实例的结构本体指导下,匹配过程中自动学习并获取抽取模式。在Web信息抽取部分,提出了基于本体和模板匹配相结合的航空产品型号信息抽取的方法,设计了一个用户指导的交互信息抽取系统。该系统首先获取指定的Web页面,并利用本文设计的HTML文档清洗算法,对网页进行清洗;利用H...

【学位名称】硕士

【学位授予单位】南京航空航天大学

【学位授予年度】2016

【导师姓名】马静

【读秀链接】读秀链接

3 0
Rss订阅