IR
题名基于Mapreduce的大规模中文短文本聚类算法的设计与实现
作者杨羽飞
导师王燕
答辩日期2014
学位名称硕士
关键词文本聚类 Hadoop MapReduce 并行算法 数据挖掘
摘要文本聚类是数据挖掘和信息检索领域的一个重要研究方向。如何挖掘网页上的海量文本信息已经成为计算机科学领域所面临的一个巨大挑战。文本聚类技术的出现为海量文本信息的分类管理提供了一条有效的途径。近年来文本聚类在信息检索、多文本自动摘要等互联网领域获得了广泛的应用。云计算的兴起,为分布式并行计算提供了更多的框架,文本挖掘技术的分布式实现也开始被越来越多的研究人员所关注。Hadoop是Apache的一款开源软件,它提供了包括分布式文件系统和MapReduce计算框架在内的云计算软件平台的基础架构,并且在其上整合了包括数据库、数据仓库等一系列组件,其已成为学术界和工业界进行云计算研究和应用的标准平台。本文重点研究了Hadoop软件框架中的HDFS、MapReduce、HBase等组件的核心架构及其运行机制,并分析了框架的不足,如¨HDFS、MapReduce的单点故障及安全性等问题,提出了相应的解决方案,并基于此搭建了高可靠安全的Hadoop环境。在高可靠安全的Hadoop平台上,结合传统聚类算法的特点给出了一种基于云计算的短文本聚类系统的设计方案,并对该系统的各层次的功能及该系统中的分类聚类模块进行了详细的阐述。本文主要研究工作包括:(1)搭建了一个适合文本聚类应用的Hadoop分布式平台,并通过Hadoop和Linux对系统进行调优。(2)根据短文本的特征,利用向量空间模型,TF-IDF计算公式和余弦公式等技术来设计了一种合适的聚类方法来实现对中文短文本的分析。(3)结合Eclipse开发工具,编写Java程序和Shell启动脚本整合系统并利用170万条实验数据对设计系统进行测试,并对实验结果进行了分析,提出了改进的方案。
页数61
URL查看原文
语种中文
收录类别CNKI
中图分类号TP391.1
文献类型学位论文
条目标识符https://ir.lut.edu.cn/handle/2XXMBERH/90715
专题兰州理工大学
作者单位兰州理工大学
第一作者单位兰州理工大学
推荐引用方式
GB/T 7714
杨羽飞. 基于Mapreduce的大规模中文短文本聚类算法的设计与实现[D],2014.
条目包含的文件
条目无相关文件。
个性服务
查看访问统计
谷歌学术
谷歌学术中相似的文章
[杨羽飞]的文章
百度学术
百度学术中相似的文章
[杨羽飞]的文章
必应学术
必应学术中相似的文章
[杨羽飞]的文章
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。