基于Mapreduce的大规模中文短文本聚类算法的设计与实现

题名	基于Mapreduce的大规模中文短文本聚类算法的设计与实现
作者	杨羽飞
导师	王燕
答辩日期	2014
学位名称	硕士
关键词	文本聚类 Hadoop MapReduce 并行算法数据挖掘
摘要	文本聚类是数据挖掘和信息检索领域的一个重要研究方向。如何挖掘网页上的海量文本信息已经成为计算机科学领域所面临的一个巨大挑战。文本聚类技术的出现为海量文本信息的分类管理提供了一条有效的途径。近年来文本聚类在信息检索、多文本自动摘要等互联网领域获得了广泛的应用。云计算的兴起,为分布式并行计算提供了更多的框架,文本挖掘技术的分布式实现也开始被越来越多的研究人员所关注。Hadoop是Apache的一款开源软件,它提供了包括分布式文件系统和MapReduce计算框架在内的云计算软件平台的基础架构,并且在其上整合了包括数据库、数据仓库等一系列组件,其已成为学术界和工业界进行云计算研究和应用的标准平台。本文重点研究了Hadoop软件框架中的HDFS、MapReduce、HBase等组件的核心架构及其运行机制,并分析了框架的不足,如¨HDFS、MapReduce的单点故障及安全性等问题,提出了相应的解决方案,并基于此搭建了高可靠安全的Hadoop环境。在高可靠安全的Hadoop平台上,结合传统聚类算法的特点给出了一种基于云计算的短文本聚类系统的设计方案,并对该系统的各层次的功能及该系统中的分类聚类模块进行了详细的阐述。本文主要研究工作包括：(1)搭建了一个适合文本聚类应用的Hadoop分布式平台,并通过Hadoop和Linux对系统进行调优。(2)根据短文本的特征,利用向量空间模型,TF-IDF计算公式和余弦公式等技术来设计了一种合适的聚类方法来实现对中文短文本的分析。(3)结合Eclipse开发工具,编写Java程序和Shell启动脚本整合系统并利用170万条实验数据对设计系统进行测试,并对实验结果进行了分析,提出了改进的方案。
页数	61
URL	查看原文
语种	中文
收录类别	CNKI
中图分类号	TP391.1
文献类型	学位论文
条目标识符	https://ir.lut.edu.cn/handle/2XXMBERH/90715
专题	兰州理工大学
作者单位	兰州理工大学
第一作者单位	兰州理工大学
推荐引用方式 GB/T 7714	杨羽飞. 基于Mapreduce的大规模中文短文本聚类算法的设计与实现[D],2014.