基于Corr-LDA模型及卷积神经网络的图像理解方法

题名	基于Corr-LDA模型及卷积神经网络的图像理解方法
作者	苏哲
导师	曹洁
答辩日期	2018
学位名称	硕士
关键词	图像理解图像标注图像分类 Corr-LDA模型卷积神经网络
摘要	图像标注及分类是图像理解的主要研究内容,现已成为机器学习、模式识别等领域中重要的研究热点。在图像标注任务中,基于概率主题模型的图像标注方法近年来受到了国内外学者的广泛关注,其结合了主题模型及概率图模型的优势,可以有效改善“语义鸿沟”问题。在图像分类任务中,卷积神经网络获得了很多令人瞩目的突破性成果,在图像分类领域中得到了广泛应用。本文基于概率主题模型及卷积神经网络来分别实现图像标注及分类任务,使用两个真实图像数据集验证了所做工作的有效性和合理性,其主要创新如下:1.提出了基于Corr-LDA模型的图像标注方法。考虑到类别对于图像标注是十分重要的辅助信息。类别和图像呈现的事物有着密切的联系,类别不同,图像呈现的事物也不同。当类别确定时,其图像标注词的范围也会减小。基于此,本文将依据图像类别信息,并为每个类别构建出适合该类的图像标注模型,同时,给出了相应的模型训练及测试过程。在Label Me图像数据集和UIUC-Sport图像数据集上的实验结果表明,本文提出的Corr-LDA-C方法是有效的。此外,本文提出方法是建立Corr-LDA模型基础上的,实际上也适用于其它用于图像标注的概率主题模型。2.提出了改进交叉熵损失函数的图像分类方法。考虑到在以Softmax为交叉熵损失函数的神经网络中,输出概率主要基于每个类别参数向量与样本隐层特征之间的线性运算,神经网络最终的输出会受制于每个类别参数向量的范数大小的影响。以二分类为例,如果某一类别参数向量的范数较大时,分类决策边界会偏向于范数较小的类别一侧,因此,这就会导致应属于另一类样本的错误分类,以致影响到图像的分类性能。基于此,本章提出一种新的交叉熵损失函数,称之为SCE-UD损失函数。该损失函数调整了分类决策边界的位置,使其不偏向于任何一类。在Label Me及UIUC-Sport数据集上的实验结果表明,文中提出的交叉熵损失函数不仅稳定性较好,而且分类效果也优于Softmax交叉熵损失函数。
页数	56
URL	查看原文
语种	中文
收录类别	CNKI
中图分类号	TP391.41;TP183
文献类型	学位论文
条目标识符	https://ir.lut.edu.cn/handle/2XXMBERH/93798
专题	兰州理工大学
作者单位	兰州理工大学
第一作者单位	兰州理工大学
推荐引用方式 GB/T 7714	苏哲. 基于Corr-LDA模型及卷积神经网络的图像理解方法[D],2018.