不平衡数据分类在航空安全领域定义抽取中的应用

日期:2016.12.22 点击数:6

【类型】学位论文

【作者】李晋 

【关键词】 术语定义 信息抽取 C4.5算法 后剪枝方法 等价替换

【摘要】随着国内航空业的发展,航空安全成为人们关注的焦点之一,人们对航空从业人员的要求越来越高,因此对航空业培训的需求也迅速提高。目前国内主要的几家航空公司的培训教材主要来源于各种飞行手册和维修手册,这种培训教材和考核试题一般由相关技术人员手工编写。通过实现计算机快速高效地生成培训课件和考核试题,从而减少工作人员手工搜集定义句的工作量,本文进行了航空安全领域术语定义自动抽取的研究。本文研究的是信息抽取的一种常用方法,可以有效地从语料库中抽取到定义句,具备一定的工程实用价值。本文主要进行了以下工作:首先,对航空安全领域教材进行选材、采集和标注,对语料进行预处理,在原有的基础上扩充了语料库,为以后的研究提供基础;其次,研究了信息抽取方法,采用决策树C4.5方法进行分类。由于决策树方法存在过拟合现象,需要对其进行剪枝以避免过拟合现象,本文介绍了常用的四种后剪枝方法分别是REP方法、PEP方法、MEP方法和CCP方法,并分析了四种方法对于各种数据集分类效果的优劣,适用的数据集;同时由于本文针对的是非平衡数据集,根据麦克劳林公式对每个结点进行等价无穷小替换,从而提高分类的效率。最后结合上面两种方法改进C4.5算法,将WEKA平台中的源代码导入Eclipse中进行二次开发;根据实验结果的数据分析得出,采用PEP剪枝方法得到的决策树在训练集或测试集上的分类误差率普遍降低,树的规模明显减小,宏平均F1、F2的值得到了明显的提高。

【学位名称】硕士

【学位授予单位】南京航空航天大学

【学位授予年度】2016

【导师姓名】顾宏斌

【读秀链接】读秀链接

3 0
Rss订阅