基于支持向量机的航空常旅客数据挖掘

日期:2016.12.22 点击数:12

【类型】学位论文

【作者】陈建湘 

【关键词】 支持向量机,预测,忠诚度,常旅客,数据挖掘

【摘要】常旅客计划是航空公司争取市场份额,培养忠诚旅客群的有效市场策略。研究结果表明,发展一个新客户的成本要远远高于保留一个现有的客户。而根据调查,国内航空公司的每年的客户流失率都高达20%左右。常旅客的竞争就是信息的竞争,建立常旅客系统的目的就是为了提高航空公司的搜集常旅客信息的能力,其本质就是提高企业的判断能力。发掘常旅客信息的含金量,分析常旅客的成分构成、流向流量等并考察常旅客的收益状况,评估奖励政策,从而采取相应的措施,吸引更多旅客,创造更大的收益,这是常旅客系统数据挖掘的意义。常旅客系统常用的数据挖掘方法有客户细分、关联销售、忠诚度分析等。本文以支持向量机数据挖掘方法和过程为指导,对航空常旅客数据进行预测分析。主要做了两方面的预测分析,一方面是预测常旅客的忠诚度变化,另一方面对每年的常旅客总累积里程做一个预测。根据本季度常旅客的消费行为和常旅客的基本信息,来预测下个季度的忠诚度。如果某常旅客忠诚度下降,就要提前预警决策管理系统,找出该旅客可能流失的原因,并采取相应的措施。如果忠诚度上升,也要继续维持与该旅客的紧密联系,并找出上升原因。通过数据挖掘可以提前预知常旅客忠诚度变化,防止旅客流失,保持他们对公司的高忠诚度。常旅客的忠诚度预测,本质上是一个数据挖掘中的分类问题,即忠诚度上升和下降的两类分类问题。我们在支持向量机的基础上,提出两层支持向量机,即增加一个核主成分提取的预处理过程。我们以RFM忠诚度理论为基础,建立一个适合航空常旅客购票行为的改进的忠诚度模型,在此模型上运用两层支持向量机方法进行忠诚度预测。在实验过程中我们对标准的支持向量机算法的核函数选择与超级参数选择进行了探讨,我们对两层支持向量机、标准支持向量机、传统决策树方法C4.5的过程和结果进行了比较。除此之外,在常旅客系统中,我们可以对总常旅客的每年总累积里程做一个预测。飞机数量、飞行小时、总公里数这些数据都代表航空公司的投入,而会员累积里程代表航空公司的收益,预测的意义在于,运用已经建立好的预测模型和公司未来的投资计划,来预测收益回报。会员累积里程预测,本质上是一个回归问题。我们在传统的统计分析例如相关分析、孤立点分析的基础上,利用多种回归方法进行预测。所使用的回归方法有原始最小二乘线性回归,稳健性回归,支持向量回归等。总的实验结果表明两层支持向量机的分类预测准确率比标准支持向量机更高,泛化能力也更好;两层支持向量机与C4.5比较的结果表明前者准确率更高,但是训练时间也更长,至于泛化能力则两者差不多。对比原始的最小二乘回归和稳健性回归,支持向量回归具有更好的泛化能力和抗噪声数据干扰能力。

【学位名称】硕士

【学位授予单位】中山大学

【学位授予年度】2016

【导师姓名】黎培兴

【读秀链接】读秀链接

3 0
Rss订阅