Deep Learning and computer vision
Updated:
在计算机视觉的物体检测和识别领域,过去的三年中 (2012-2015) 深度学习取得了革命性的突破。现在,计算视觉研究人员眼中的算法分为两类:深度学习方法和其他方法。自从 2012 年 ImageNet 的图像识别比赛中,多伦多大学的 Geoffrey Hinton 带领的研究组用卷积神经网络 (CNN) 取得了最好成绩,并拉开第二名“其他方法”超过 10 个百分点,计算机视觉领域开始大规模关注 CNN。现在,CNN 出现在计算机视觉与模式识别大会 (CVPR) 的各个领域。过去在 CVPR 上很难发表 CNN 相关的工作,而现在如果你的新算法没有跟 CNN 基准对比过,那么很可能没人关心你的算法。
深度学习之前
1995-2000 局部特征算子的兴起
这段时间在约 1995-2000 年期间,代表性的工作是尺度不变特征变换 (SIFT) 在 1999 年被 David Lowe 提出来,一夜之间改变了计算机视觉研究。在 SIFT 之前,人们还在用像素级别的距离 (SSD, sum of squared
distances) 来度量两个图像块之间的差异。SIFT 是一种局部特征算子,它用一个向量来鲁棒地表示图像中的兴趣点。你旋转、移动相机,从不同的角度拍摄某个物体,相同的点的 SIFT 特征非常接近,即尺度不变的特征变换。这样就可以用关键点的匹配做很多工作,比如图像匹配、拼接、对齐等等。
2000-2005 现代数据集与词袋模型
1990 年代末,互联网兴起,图像开始存储在网络上,研究人员开始创建数据集(datasets)。新生代研究人员不再专注于结构恢复问题(几何问题)。伴随着大规模数据集时代兴起,Caltech-101 逐渐得到关注,同时分类图像分类研究开始发展。Caltech-101 可以认为是现代大规模图像数据集比如 ImageNet 的鼻祖,均出自 Fei-Fei Li 之手。图~
图像识别研究兴起后,原生的 SIFT 特征难以区分同一类别的不同物体,亟需一种能够容忍图像中物体各个部分相对关系的改变和图像块缺失的算法。也就是说,我们需要一种更加偏向统计的物体识别方法。
视觉词(Visual Words)在 2003 年兴起,在 SIFT 特征上通过无监督学习(主要是 k-means 聚类)得到视觉词典(visual Dictionary)。视觉词的直方图可以作为一种比较鲁棒的图像表示方法。词袋模型及其变形很快被广泛应用到视觉研究中。
同时兴起的还有面元结构(Bins, Grids)。在 2000 年代中期,研究人员并不是很明确应该聚焦到更好的特征上,更好的度量方式上,还是更好的学习方法上。
2005-2010 图像模板时代
2005 年,HOG(Histogram of Oriented Gradients)被 Navneet 提出。当所有人都在用词袋模型,多层学习,把系统变得特别复杂的时候,HOG 相对非常简单。它最初被用于行人检测。在 HOG 特征之上,使用了线性 SVM,所以很容易使用。
2008 年,出现了一篇关于物体检测的论文,提出了变形部件模型(Deformable Parts-based Model, DPM),使得 HOG 更加流行和强大。DPM 是 PASCAL VOC 挑战赛的最新赢家。
2008 年左右,科学家们越来越擅长处理大规模数据集。并不是因为云计算或者大数据的兴起,而是因为数据科学家的兴起。从推公式,设计原型,部署大规模计算,把结果应用到产品系统中可以一气呵成。
2010-2015 深度学习革命
这时候深度学习技术已经开始兴起。深度学习技术可以看做是神经网络 2.0 革命。巧合的是,在 2012 年的图片分类挑战赛中得胜的研究组正是 20 年前因为坚持神经网络研究而被嘲笑的那批人,现在他们成了深度学习的泰斗。
卷积神经网络的技术在 1990 年前后就已经在字符识别中得到应用(Yann LeCun). 现在之所以能够以更强大的形式带来革命,与现在强大的计算能力直接相关。2012 年至今,深度学习技术快速进步,逐渐从图片分类渗透到计算机视觉技术的各个研究领域。目前已经成为一种通用的工具,不断刷新在各类计算机视觉任务上的表现。
如果觉得帮到了你,打赏一下吧!