翻译:
Siamese Network Features for Image Matching
Abstract
通过一个大型数据库中找到匹配的图片在计算机视觉应用中扮演着重要作用,例如SfM
(structure-from-motion
)、多视角的3D
重建(multi-view 3D reconstruction
)、image retrieval
和image-based localisation
。本文中,我们提出通过表达基于特征向量(feature vectors
)的神经网络来表达匹配和未匹配的图片对,其中的相似度用欧拉距离来测量。特征向量神经网络中学习获得,神经网络通过匹配和非匹配的图片对的标签来学校,神经网络构造一个基于孪生网络的对比的损失函数(contrastive loss function
)。以前,孪生网络应用在人脸验证和匹配局部照片,但尚未应用于通用的图片恢复和整个图片的匹配。我们的实验结果显示相比通过图片分类网络得到的基线特征来说我们提出的特征检测方法的表现较好。特征获取的较好并且改善图片的新的landmarks
的匹配,这些landmarks
在训练过程并未得到。这说明训练数据中匹配和未匹配的标签时不完美的。考虑到图像检索应用,结果是有希望的,并且通过利用具有更准确的地面实况标签的更多训练图像对,存在进一步改进的潜力。
1.Introduction
目前,在一个大型、非结构化的图片集合中寻找相似的图片是计算机视觉系统中的一个常见的问题。这可能是一个非常花时间的程序,涉及到测试每个图片找到对应的图片。最近几年,图片匹配的算法被提出来提高算法的精确度和表现。通常来说,这些方法可能被分成两类。第一类包括手动构造这个图片是否是正向(即相似
)还是负向(即,
)的表达。这些方法,例如BoW
(bag-of-visual-words
),通常在预测一个小的候选图片对中有好表现。也有一种方法是通过对抗学习Bow
模型来预测哪一个图片对在输入数据库中,哪一个不再。
第二中方法是基于深度学习,尤其是深度卷积网络(CNNs
),深度学习一种在一些视觉任务(例如:图片分类、物体检测,image retrieval
)有成功的应用。图片表达和相似度检测变得对image retrieval
任务越来越重要,image retrieval
的目的在于在一个大型数据库中匹配图片。最近的工作提出一个想法,这个想法是利用一个从相关的图片恢复的图片分类并且有希望结果的提前训练好的CNN
。
本文,我们没有试图去学习单个图片的分类,我们的目标是直接学习一个图片匹配任务的CNN
。我们利用标签带有标签的训练图片对来学习图片级别的特征表达,这样相似的图片被映射到与其他特征空间接近的空间,并且不相似的图片会离的比较远。这是人脸识别问题的一个类比,人脸识别问题利用孪生网络来预测是否人脸是和输入图片是否想i是。另外的一个应用使用类似的技术的系统由Lin
等人提出,这个应用可以成功的匹配街道等级和天下视图的图片。另外,相似的方法已经应用在匹配相似的局部图片信息,但是还没有应用在图片恢复和整个图片的匹配。
表格1显示从验证数据库并且应用在我们的实验中胡乱匹配的几个例子。图片由5个全球的地标的户外和户内的图片,这些图片有不同的光线、不同的天气状况下拍摄。所有的消极因素
…(未完待续)
后面的感觉和之前的貌似一样的结构