关键词
基于MapReduce编程模型的航空日志分析研究
作者: 李彬   来源: 成都理工大学 年份: 2016 文献类型 : 学位论文 关键词: 数据挖掘  日志分析  并行计算  Hadoop  MapReduce  
描述: 随着商业和互联网的高速发展,其大型商业系统和业务系统也随之呈现快速发展的趋势。航空公司的自助值机系统伴随着航空业务的高速发展而得到了广泛的应用,每天使用自助值机系统办理乘机服务的旅客大量增加,随着业务处理的复杂化和用户数量的规模化,系统每天都产生海量的日志文件。这些日志文件往往包含了宝贵的客户数据,通过对日志数据文件的分析可以将潜在的客户数据转变成客户价值。然而传统的单机处理方式分析大规模日志数据已经越来越力不从心,因此分布式并行化日志分析方法的研究工作便至关重要。分布式计算平台Hadoop下的MapReduce编程模型由于拥有简单、易用、适用性强、处理数据规模大等优点,成为大规模日志分析的首要选择。Hadoop分布式计算平台主要由MapReduce编程模型和HDFS(分布式文件管理系统)组成,通过Hadoop可以轻松地组织计算机资源,搭建分布式计算平台,充分利用集群的计算和存储能力,完成对海量数据的分析处理工作。数据挖掘技术是从大量的、不完全的、有噪声的实际应用数据中,提取潜在有用的信息和知识的过程,是实现日志分析的理论基础和方法。本文在深入研究数据挖掘技术的基础上,从自助值机系统产生的日志文件的特点出发,提出了一套基于日志文件的数据预处理方法和适合分布式并行处理的分析方法。数据预处理方法通过对原始日志文件进行数据清理、集成、变换、规约等操作,调整分析数据格式和内容,从而有效地减小数据进行分布式处理的规模,提高日志分析的效率。分布式并行化处理方法则高效地完成对海量日志文件的分析处理工作,并从分析结果中得到有价值的客户数据和商业数据,为业务的制定和发展提供有力的支持。本文重点对分布式日志分析方法进行了研究。在深入研究日志分析处理方法、分布式并行计算技术的基础上,设计并实现了基于B/S框架和分布式处理平台Hadoop的日志分析系统。通过实验表明,在对大规模日志文件的分析处理上,该系统与传统的串行计算日志分析系统相比在分析效率上有显著的提升。本文开发的分布式日志分析系统,实现了日志分析处理的整个过程。用户通过FTP服务上传日志文件到服务器,通过选择相应的分析要素进行数据预处理。系统自动将经过预处理后的日志文件发送到分布式计算节点做分布式并行化分析处理,数据分析结果通过图表化的方式展示在系统页面上。用户还可导出分析结果数据到Excel表格并通过电子邮件发送给相关开发人员和业务人员,为航空公司制定新的业务提供决策依据。
< 1
Rss订阅