在计算机视觉的物体检测和识别领域,过去的三年中 (2012-2015) 深度学习取得了革命性的突破。现在,计算视觉研究人员眼中的算法分为两类:深度学习方法和其他方法。自从 2012 年 ImageNet 的图像识别比赛中,多伦多大学的 Geoffrey Hinton 带领的研究组用卷积神经网络 (CNN) 取得了最好成绩,并拉开第二名“其他方法”超过 10 个百分点,计算机视觉领域开始大规模关注 CNN。现在,CNN 出现在计算机视觉与模式识别大会 (CVPR) 的各个领域。过去在 CVPR 上很难发表 CNN 相关的工作,而现在如果你的新算法没有跟 CNN 基准对比过,那么很可能没人关心你的算法。

深度学习之前

1995-2000 局部特征算子的兴起

这段时间在约 1995-2000 年期间,代表性的工作是尺度不变特征变换 (SIFT) 在 1999 年被 David Lowe 提出来,一夜之间改变了计算机视觉研究。在 SIFT 之前,人们还在用像素级别的距离 (SSD, sum of squared
distances) 来度量两个图像块之间的差异。SIFT 是一种局部特征算子,它用一个向量来鲁棒地表示图像中的兴趣点。你旋转、移动相机,从不同的角度拍摄某个物体,相同的点的 SIFT 特征非常接近,即尺度不变的特征变换。这样就可以用关键点的匹配做很多工作,比如图像匹配、拼接、对齐等等。

2000-2005 现代数据集与词袋模型

1990 年代末,互联网兴起,图像开始存储在网络上,研究人员开始创建数据集(datasets)。新生代研究人员不再专注于结构恢复问题(几何问题)。伴随着大规模数据集时代兴起,Caltech-101 逐渐得到关注,同时分类图像分类研究开始发展。Caltech-101 可以认为是现代大规模图像数据集比如 ImageNet 的鼻祖,均出自 Fei-Fei Li 之手。图~
图像识别研究兴起后,原生的 SIFT 特征难以区分同一类别的不同物体,亟需一种能够容忍图像中物体各个部分相对关系的改变和图像块缺失的算法。也就是说,我们需要一种更加偏向统计的物体识别方法。

视觉词(Visual Words)在 2003 年兴起,在 SIFT 特征上通过无监督学习(主要是 k-means 聚类)得到视觉词典(visual Dictionary)。视觉词的直方图可以作为一种比较鲁棒的图像表示方法。词袋模型及其变形很快被广泛应用到视觉研究中。
同时兴起的还有面元结构(Bins, Grids)。在 2000 年代中期,研究人员并不是很明确应该聚焦到更好的特征上,更好的度量方式上,还是更好的学习方法上。

2005-2010 图像模板时代

2005 年,HOG(Histogram of Oriented Gradients)被 Navneet 提出。当所有人都在用词袋模型,多层学习,把系统变得特别复杂的时候,HOG 相对非常简单。它最初被用于行人检测。在 HOG 特征之上,使用了线性 SVM,所以很容易使用。

2008 年,出现了一篇关于物体检测的论文,提出了变形部件模型(Deformable Parts-based Model, DPM),使得 HOG 更加流行和强大。DPM 是 PASCAL VOC 挑战赛的最新赢家。

2008 年左右,科学家们越来越擅长处理大规模数据集。并不是因为云计算或者大数据的兴起,而是因为数据科学家的兴起。从推公式,设计原型,部署大规模计算,把结果应用到产品系统中可以一气呵成。

2010-2015 深度学习革命

这时候深度学习技术已经开始兴起。深度学习技术可以看做是神经网络 2.0 革命。巧合的是,在 2012 年的图片分类挑战赛中得胜的研究组正是 20 年前因为坚持神经网络研究而被嘲笑的那批人,现在他们成了深度学习的泰斗。
卷积神经网络的技术在 1990 年前后就已经在字符识别中得到应用(Yann LeCun). 现在之所以能够以更强大的形式带来革命,与现在强大的计算能力直接相关。2012 年至今,深度学习技术快速进步,逐渐从图片分类渗透到计算机视觉技术的各个研究领域。目前已经成为一种通用的工具,不断刷新在各类计算机视觉任务上的表现。

如果觉得帮到了你,打赏一下吧!

最近偶尔会听到窗外一二三四的喊口号的声音,估计是科技园的某家奇葩公司的公司文化:走正步,喊口号,站军姿。
然而,这一二三四的声音还真是有力,我一听到,脑子里就会浮现出嘹亮的军歌、胖胖的教官、馒头和咸菜。
青少年时代的记忆多半都在会出汗的季节,初中、高中、大学,懵懂地从一个自己最熟悉的地方走近一个最陌生的地方。初中重点班,高中重点班,后来去清华念书,少年时代就这样越来越快地过去。到了现在,与学校时而很近,时而很远。内心里早已不把自己当成学生。
成年是什么样的呢?
一定不是 18 岁的样子,那是 25 岁的样子,还是 30 岁的样子?

几年前法定假日碎成小假以后,三天的假期就多了起来。所谓三天的假期,其实是一天假,加上两天周末调休。然而人们称之为小长假。

这几天正是端午节假期,几天前朋友问我端午节要不要一起耍的时候,我看了眼日历,才发现这周就要端午节了。正好,我要回家一趟,放假前一天查了下,返程票没有合适的时间,回家的计划就搁浅了。

周六我就继续工作,跟往常一样,只不过早上睡了个懒觉。中午大家一块儿吃干锅居,算是正式认识了一位技术大牛。

三天假的第二天一定要好好度假的。我查了查飞往兰州、拉萨的航班,发现,往这些地方去是不够啦。不如好好休息,在宇宙中心度假。

Read More

近几天清华来了出大礼堂保安和学生争执致使学生受皮外伤的事情,讨论挺多的。舆论大部分指向这个学生不靠谱。
舆论太可怕。这个时代,真是水能载舟亦能覆舟,这里的水是水军,在互联网上,我们每一个人都算水军。
事情的经过很难还原,都是当事学生的一面之词。大概是他要带饮料进去,保安说不让带,他不听,走进大礼堂被保安拉扯了出来,然后发生了不知道什么事情,他摔倒在大礼堂门外的台阶上,擦伤了皮肤。现场学生冷漠,维护秩序的学生组织人员也站在保安一边。事后该当事学生要求保安赔礼道歉,没有后文。
生活中,这样的事情,我们每个人都常常遇到。小区保安、舞台保安、中南海门卫什么的。当然最后一个开玩笑,不过我多年前还真跟中南海门卫问答过两个回合。

我查了查《企事业单位内部治安保卫工作条例》, 第二十条 单位治安保卫人员在履行职责时侵害他人合法权益的,应当赔礼道歉,给他人造成损害的,单位应当承担赔偿责任。 另外,保安无权执法,但是我国法律赋予公民“扭送”给公安机关的权利。所以我的理解是,不管是你说的舞台,还是这件事的大礼堂,要是保安判断他扰乱公共秩序并且不听劝阻,可以扭送公安机关处理的,但是他没有,还致人受伤。

一定要闹到法庭上,是很没有必要的。假如冲突已经发生了,我让保安出示条理,他不听,我会这么解决这件事:找当日值班的保安队长。通常事情就比较好解决了,一团和气。学生节也不会错过了。

这让我想起三年前,在北京北站,我负责给登山队取火车票,拿着一队人的身份证,被协警查身份证。我看他衣着拖沓,就先让他出示工作证,他拒绝。我就带他去找他领导,过来一管事儿的,解释了一番,事情解决了。

有一回,和清华心理咨询中心的刘丹老师聊到清华学生和外界交流的话题,说我们清华的学生,说话和思考问题的方式其实与社会上的大部分人群差别是很大的,常常很难达到有效的沟通。比如我前面讲的协警,他说你们学生就是怎么怎么着。你看,他的世界观跟我们是有差别的。

所以,有效的跨阶层(群体)沟通,是我们都该学习的能力。在我们做社会实践的时候,我曾经借新闻系李强的话写到,与你交谈的每个人都是你的老师。

我第一时间抢购了Apple Watch, 大概十天前拿到Apple Watch黑色运动版,这些天一直在用,说说体验。本文目标读者是对Apple Watch有足够了解,但犹豫要不要买的小伙伴们。

定位:iPhone的高效辅助设备

Apple Watch并不是一款独立的设备,它依赖于iPhone。
目前主要的计算任务也都在iPhone上完成。这样的定位是准确的,因为根据我的使用体验,Apple Watch是iPhone的一个很好的辅助工具。作为手腕上的信息中心,它对手机上的信息起到了一个很好的过滤作用。使用了Apple
Watch以后,我从口袋里取出iPhone的时间大大减少,错过重要信息的次数也大大减少(基本没有)。

Read More

今天无意中 Google 到一篇我五年前在人人网上写的一篇文章,是关于社会实践的,当时广为转发。五年前的人人网如日中天,占据了中国大学生一半以上的上网时间,刷人人是各种空闲时间的必修课。我浏览了一下全站评论,发现当时不仅被清华大学内不少颇有影响力的辅导员等做学生工作的人转发评论,更是被广大普通同学甚至校外同学广泛评论。由于人人网的功能缺陷,在其他人的页面还有不计其数的评论,我是看不到的。

很多辅导员和同学给了很高的评价,表示很有感触,并让自己所带的院系同学们阅读。

其实那篇文章不过数千字。由此,我想到我写的学术论文,每一篇都是精雕细琢。然而它的受众和影响力,远远不及我五年前的那篇文章。颇具讽刺效果的是,我还因为这样的论文拿了奖学金。

由此,我有这么几点想法:

  1. 我现在所走的这条路,也许并不是我擅长的那条。
  2. 考察一个人,你不能只看他的简历。要去感受他的现在,了解他的过去,洞察他的未来。
  3. 如果你是个低年级的大学生,你要警惕培养你的人,不要让他们的口味左右了你认为自己想做的事情。他们奖励你,不代表你做的事有价值;他们不奖励你,不代表你做的事没有价值。
  4. 由于我们的母语不是英文,所以我们创造的中文内容少了很多的传播力和影响力。

Recently Our vision group want to create a groundtruth dataset. A tool for image annotation, specifically, to get the ROI(region of interest) of an image, is in need.

I surfed some of the famous vision groups for a while, and get the following solutions.

  1. LabelMe
  2. DrawMe

    Read More

Fei-Fei Li, Director of the Stanford Artificial Intelligence Lab and the Stanford Vision Lab, provided some advice on writing academic papers in the year of 2009. I’ve read this many times since several years ago. Every time I read, the advice makes me introspect. Now, I’ve published papers on computer vision myself, and the advice seems even more important for me.

Read More

奉导师之命,发挥专长,带领小伙伴们春游登山,此为计划.

天气

2015.3.14
多云
20-25℃

时间安排

7:00
去程公交:动物园站→西丽王京坑总站(66,49路,首班车06:10)
7:40
山路:王京坑总站沿山脊上,到大羊台顶,再到小阳台顶,沿主石阶路下到大浪文化公园。
16:00
腐败
17:30
返程公交:大浪文化公园(阳台山站坐高峰公交15路)→地铁龙胜站→地铁大学城站(约1.5小时)
19:00
学校

Read More