航空电子货运单数据抓取与挖掘技术研究实现

日期:2016.12.22 点击数:24

【类型】学位论文

【作者】席敏 

【关键词】 Hadoop FSU 网络爬虫 协同过滤算法

【摘要】计算机技术的发展促进了经济的发展,经济的发展反哺孕育出电子商务的萌发。随着全球国际贸易往来的频繁与高效,我国跨境电商的航空货运事业发展迅速,并且在网络数据传输交换与软件处理的技术支持下,航空货运电子化进程已经提上快速发展的日程,电子化数据量的激增也逐渐实践着高质量、大数据的发展趋势。本文选取的主要研究对象是航空电子货运单FSU数据,首先研究了航空货运业背景和航空货运业电子货运的发展情况,之后在选准FSU数据的基础上设计FSU数据信息库,编写并应用目标数据网络爬虫程序,对航空货运单网页中FSU数据进行有效的抓取存储入库,最后在搭建RHadoop平台中进行数据规律的挖掘。具体可以将研究内容分为两部分,第一部分是将零散在各大航空货运公司官方网页上的各电子货运单FSU数据集中到一个系统中;第二部分是在集成的分布式文件系统平台Hadoop与当前最流行的开源统计软件R工具的挖掘平台上,将对实时抓取到的FSU数据,利用协同过滤算法的思想挖掘出数据规律及潜在的商业价值。本文最终目标是旨在对电子货运单中的FSU数据有全面了解的同时,采用科学的网络调研等方法采集抓取目前全球航空业各大国际主流航空公司的电子货运单FSU数据轨迹流,以达到由零散到集成,由分散到规律的本质转变,并运用恰当的研究算法挖掘出数据中的一些具有经济价值的信息和规律,以数据事实的方式为航空货运业提供一些经济数据参考,也为它的发展提供一个电子商务发展思路和挖掘数据商业价值的一种途径。

【学位名称】硕士

【学位授予单位】北京工业大学

【学位授予年度】2016

【导师姓名】石宇良

【读秀链接】读秀链接

3 0
Rss订阅