航空领域知识自动提取技术初步研究

日期:2016.12.22 点击数:9

【类型】学位论文

【作者】孙勤红 

【关键词】 知识提取 ,模式 ,向量空间模型 ,正则表达式,信息提取

【摘要】目前CBT开发水平日益提高,技术趋向成熟。在开发过程中,CBT系统需要大量的后台知识库做支撑。文本知识的自动提取成为CBT技术开发的关键技术之一。本文以实现CBT开发中知识获取的自动化为目的,研究和实现了采用信息提取技术和自然语言处理技术来处理航空领域培训材料知识的自动识别和提取。本文限定文本为航空领域教材,知识形式采用电子文本语言。人工总结出知识的典型句式,归纳出模式。并且利用正则表达式表达模式,对文本进行粗匹配。在粗匹配的基础上,采用知识的词语隶属度和句子隶属度对粗匹配得到的句子进行筛选。词语隶属度的计算使用专业语料库和普通语料库,先对这两个语料库进行分词,然后分别统计词频,通过得到的词频信息计算词语隶属度。句子隶属度的计算基于词语隶属度。对于同一知识重复出现的情况,本文目前采取了简单处理,使用文本分类方法VSM从中计算相似度,并从中选取值最大的,存入知识库。实验结果表明,开放测试时知识提取系统的平均召回率可达83.78%,正确率可达76.51%。最后提出本文工作总结和展望。

【学位名称】硕士

【学位授予单位】南京航空航天大学

【学位授予年度】2016

【导师姓名】顾宏斌

【读秀链接】读秀链接

3 0
Rss订阅