计算机硕士开题报告
对于很多刚接触课题研究的学生对于如何撰写研究性学习课题开题报告比较茫然,不知道从何下手,往往因为不得要领,走了很多弯路,计算机硕士开题报告一般包括课题来源、选题背景、研究现状、研究大纲、参考文献等等,下面我们就以基于深度学习的图像语义提取与图像检索技术研究为例,了解计算机硕士开题报告的格式规范。
课题名称: 基于深度学习的图像语义提取与图像检索技术研究
1、选题意义和背景。
随着移动互联网和智能手机的飞速发展和广泛普及,用户每天都会上传分享海量的图像。一方面,越来越多的图像丰富了互联网上的图像资源,吸引更多的用户;另一方面,随着图像资源的爆炸式增长,用户难以有效地在海量的数据中准确地找到自己真正需要的信息,也难以有效地整合其庞大的图像数据资源,令其产生巨大的价值。如何迅速准确地检索到所需要的图像信息,己成为学术界和工业界急需解决的问题。
图像检索技术经历了三个阶段的发展,最早的图像检索方式是基于文本的图像检索(Text-based Image Retrieval, TBIR)。互联网的搜索引擎在使用关键字检索图像时候,是对图像的上下文进行关键字匹配方式来检索图像。这时候,图像标注的质量就决定着检索质量的好坏。因为,TBIR需要对每幅图像手工标注关键字,通过对关键字的检索完成对图像的检索。这种方式需要耗费大量的时间去进行人工标注。同时,图像所具有的丰富的信息,也很难用简单的几个字来表达。另外,不同人对同一幅图像有不同的理解,因此文本标注方式也存在着主观性。
基于内容的图像检索(Content-based Image Retrieval, CBIR)的提出弥补了TBIR的不足。当图像进入数据库时,系统会利用图像的视觉内容提取出图像的特征,并将其存入图像特征库。当用户输入查询图像进行检索时,提取待查询图像的特征向量,将此特征向量与特征库进行匹配,从而得到检索结果。
然而,人对图像的理解并不是单纯的利用图像的视觉特征。另一方面,由于特征维数高,运算复杂度高,从提高检索精度或分类正确率的角度而言,都不可能将所有提取的特征都能用于检索或分类。计算机是利用底层特征(颜色,纹理和形状等)来对图像进行理解的,而人类则是通过图像中所表达的抽象信息来理解图像,并倾向于使用文字等高层特征(语义)来描述图像。这种高层概念和图像底层特征没有直接的联系。计算机视觉和人类的语义理解之间的差别称作“语义鸿沟”.为了解决“语义鸿沟”,人们又提出了基于语义的图像检索(Semantic一basedImage Retrieval, SBIR)。基于语义的图像检索主要研究把计算机所能理解的底层特征转换为人所认知的语义特征,以此来解决“语义鸿沟”问题。目前基于语义的图像检索仍存在很多关键问题没有解决,包括如何自动地提取语义,如何建立反馈机制修正图像语义等。另外,随着图像数据的爆发式增长,如何设计大数据背景下的图像检索系统也是当前很重要的研究内容。
对于提取图像语义特征问题,传统做法是直接对图像的底层特征(颜色、纹理、形状)进行学习分类从而获得语义特征。而目前都是通过人工构造的方法来获取图像的特征,这是一个非常漫长繁琐的工作,同时人很难挑选出非常合适的特征描述子,这样的特征通过分类或者聚类学习算法后得不到本文所期望的语义特征,在实际场景应用中鲁棒性会很差。
近些年来,人们对图像特征的研究灵感开始更多地来自生理学上的成果。1981年诺贝尔获奖者David Hubel所发现的小鼠中的“方向选择性细胞”,以及视觉信号是分层处理的研究成果,促进了具有生物学意义的稀疏编码(Sparse Coding)在图像处理中的发展。特征的可学习性引起学术界极大重视,而Hinton在2006年“Science”发表的论文所提出的深度神经网络结构解决了深度网络一直遇到的“梯度弥散”的问题和浅层网络相比,深层神经网络拥有更加强大的学习能力,可以表示更为复杂的函数关系,而且可以把高维信号转换为低维编码,更加接近于人的语义表达。同时也可以利用大数据来自主学习特征,避免人工构造特征。
本论文在研究了深度学习和人脑视觉机制理论的基础上,研究如何把深度学习应用到图像检索领域中。本文的研究意义如下:
1)利用深度学习的逐层迭代、逐层抽象的网络特点,建立一个从图像底层视觉特征到高级语义特征逐层迭代、逐层抽象的映射模型,从而减小“语义鸿沟”.
2)拓宽了深度学习的应用领域。有助于提升图像检索系统的检索效率和准确率。实现基于语义信息的图像检索的研究,对于充分理解图像所包含的隐含语义内容、如何真正有效地利用图像信息资源有着十分重要的意义。
3)利用学习得到的深度学习模型,可以对大规模图像进行标注,避免以往利用人工方法对图像一一进行标注,节省大量人力和物力。
2、论文综述/研究基础。
2.1、国内外研究现状目前,图像检索领域里最主要的问题是语义鸿沟和大规模化问题。其中,语义鸿沟问题是图像检索领域中最困难和最关键的问题。
2.1.1、语义模型的研究语义鸿沟指的是计算机所能获取的图像底层特征和人所理解的图像高层语义特征有着很大的差别。解决语义鸿沟问题,最关键在于构建图像和语义之间的对应关系及构建语义模型。Eakins提出了三个层次的语义模型:
1)最底层是视觉特征层,用于描述图像边缘、颜色、纹理、形状等视觉特征;
2)中间层为逻辑特征层,根据逻辑关系推导得到;
3)最高层为抽象特征层,通过深层推理模型,深层推理图像中出现的对象和场景而得到语义。Colombo等人构建一个综合语义表示框架,依据不同图像特征所包含的语义程度不同,分为感知特征、表达特征和情感特征。
2.1.2、解决语义鸿沟的现有方向对于基于内容的图像检索系统,两幅具有相似内容特征的图像的语义很可能大不相同。因为计算机只是单纯地统计计算浅层的视觉特征,完全没有形成对象,关系,场景,行为等等概念。可以通过下面三个方向来尝试解决语义鸿沟问题:
1)图像视觉特征的提取和抽象;
2)图像内容的分析和语义提取;
3)用户的反馈。
2.1.3、传统的图像特征提取二十多年来,特征提取一直是图像处理领域里最核心的问题。研究人员一直在费尽心思地人工设计更能表达图像语义的特征。一般这些底层的视觉特征为:
颜色特征,包括颜色矩、颜色直方图、颜色协方差矩阵和颜色聚合向量等等;纹理特征,包括Gabor滤波、小波变换等等;形状特征,包括轮廓、边缘描述子等。
2.1.4、图像语义提取方法,高层的语义不像视觉特征一样可以直接提取,而是要通过一个复杂的语义模型,从底层特征非线性的映射到高层语义特征。在以往的研究中,发现通过人工设计一个很好的特征来缩短语义鸿沟是一件十分困难的事。
根据语义信息的来源不同,图像语义提取的方法可以分为四类,基于处理范围的方法、基于机器学习的方法、基于人机交互的方法、基于外部信息的方法
3、参考文献。
[l]张好。图像语义特征的提取与分析[f].上海:上海交通大学,2006.
[2] Liu Y, Zhang D. S., Lu G. J., et al. A Survey of Content-based Image Retrieval withHigh-level Semantics[J]. Pattern Reorganization, 2007, 40(1):262-282
[3]杜鸯。深度学习在图像语义分类中的应用[[D].湖北:华中师范大学,2014
[4] Hinton G E,Salakhutdinov R R. Reducing the dimensionality of data with neuralnetworks[J]. Science, 2006, 313(5786):504-507.
[5] Eakins J P. Automatic Image Content Retrieval一Are We Getting Anywhere[J]. DeMontfort University Milton Keynes, 1996(1):123一135.
[6] Colombo C, Bimbo A D, Pala P. Semantics in Visual Information Retrieval[J]. IEEEMultimedia, 1999, 6(3):38一53.
[7] Alejandro Jaimes, Chang S F. Model-Based Classification Of Visual Information ForContent-Based Retrieval[J]. Storage&Retrieval for Image&Video Databases VIIIs&T/spie, 1999, 3656:402-414.
[8] Feng Jing, Mingjing Li, Lei Zhang, et al. Learning in Region-Based ImageRetrieval[M]. Image and Video Retrieval. Springer Berlin Heidelberg,2003:206-215.
[9] C.P. Town and D.Sinclair. Content based image retrieval using semantic visualcategories. Technical report, AT&T Laboratories Cambridge, 2000.
[10] James Z Wang, Jia Li, Desmond Chan, and Gio Wiederhold. Semantics-sensitiveretrieval for digital picuture libraries. Technical report, 1999.
[11] Tong, Simon, Chang, Edward. Support vector machine active learning for imageretrieval[C]. Proceedings of the ninth ACM international conference onMultimedia. ACM, 2001:107-118.
[12] Zheng Xin, Lin Xueyin. Locality Preserving Clustering for Image Database[J].Journal of Computer Research and Development, 2006, 43(3):885一891.
[13] Ma W Y, Manjunath B S. NeTra: a toolbox for navigating large image databases[C].Image Processing, 1997. Proceedings., International Conference on. IEEE, 1997,1:568一571.
[14] Zoran N, Burdick J W. Spike detection using the continuous wavelet transform[J].IEEE transactions on bio-medical engineering, 2005, 52(1):74一87.
[15] Wang J Z, Li J, Wiederholdy G. SIIVVIPLIcity: Semantics-sensitive IntegratedMatching for Picture LIbraries[J]. IEEE Transactions on Pattern Analysis& Machine Intelligence, 1999, 23(9):171一193.
[16] Jeon, J, Lavrenko, V, Manmatha, R. Automatic Image Annotation and Retrievalusing Cross-Media Relevance Models[C]. Proceedings of the 26th InternationalACM SIGIR Conference SIGIR 2003, ACM 2003. 2003:119-126.
[17] NAVON D. Forest before trees: the precedence of global features in visualperception[ J]. Cognitive Psychology, 1977, 9(3): 353一383.
[18] FAN Jian-ping, GAO Yu-l,i LUO Hang-zai et al. Statistical modeling and conceptualization of natural images[J]. Pattern Recognition. 2005, 38(6): 865一885.