航空器及其安全领域术语定义的自动抽取

日期:2016.12.22 点击数:6

【类型】学位论文

【作者】孙蝉娟 

【关键词】 术语 术语定义 模式匹配 聚类 EM算法

【摘要】随着国内航空业的发展,对于民航从业人员的培训需求迅速增长。目前各种培训计划和考核资料主要来源于各种技术文档和维护手册,而针对特定目的的培训教材和考核试题必须由研制厂家的技术人员或有关培训教员重新手工编写;为了解决这一问题,实现计算机辅助生成培训课件和考核试题,本文通过对航空器及其安全领域教材进行处理获取教材中的术语定义,为计算机辅助生成培训课件和考核试题提供知识。 为了实现航空器及其安全领域术语定义的自动抽取,本文主要进行了以下工作:首先,通过对航空器及其安全领域教材进行选材、采集和标注,建立语料库,为以后的研究提供基础。其次,在分析航空器及其安全领域术语定义的语言学特征和对张榕等人提出的模式进行总结与改进的基础上,总结出八个匹配模式和五个排除模式,并将其改写成正则表达式进行实验,获得了79.98%的召回率。接着,结合教材讲解的特点,首次提出术语首次出现法并进行实验,获得了39.94%的召回率和16.49%的准确率,虽然该方法单独使用时并不能达到实用要求,但是我们将其与模式匹配法相结合进行实验,却可以将召回率在模式匹配法的基础上又提高8.35%,达到88.33%。然后,本文又根据文本聚类的思想,采用CHI和IG为特征选择方法,在Weka工作平台下使用EM算法针对小数据集和大数据集分别进行聚类实验。实验证明,在小数据集上采用局部特征选择的CHI方法在10%(450个)的特征集上进行聚类实验可以得到最好的实验结果,即68.71%的宏平均F1值(MacroF1)和72.28%的宏平均F2值(MacroF2);在大数据集上采用局部特征选择的CHI方法在4%(326个)的特征集上进行聚类实验获得了MacroF1=65.15%,MacroF2=64.90%的最好成绩。最后,本文选取语料库中所有规范的术语定义,建设了一个航空器及其安全领域的本体库,为以后创建该领域的本体提供术语、术语与术语之间的关系、术语定义、术语定义的类型等知识。

【学位名称】硕士

【学位授予单位】南京航空航天大学

【学位授予年度】2016

【导师姓名】顾宏斌

【读秀链接】读秀链接

3 0
Rss订阅