Recognition


인식


scene understanding의 한계와 극복

한 scene에 각각의 어떠한 장소를 대표하는 사물이 여러개 있을 경우, 잘못된 결과를 가져올 수 있음

단, 그러한 abnormal에 대해 상세하게 specify해줌으로써 올바른 recognition 결과를 얻을 수 있음


도로변만 봤을때 Urban, 도로변 뒷쪽에 성만 봤을때 Castle로써 해당 장면을 해석하기 어려움.

이때 scene이 Urban 과 Castle 그리고 몇가지 feature를 더 포함하여 학습시키면 정상적으로 recognition 가능


Sliding window approach

  recognition을 위한 window를 순차적으로 sliding하면서 찾는 것


Q. 32x32 window를 사용하면 64x64나 16x16은 못 찾지 않나?

A. 못찾는다. 그래서 Image pyramid를 사용해서 작은 사이즈부터 큰 사이즈까지 detection을 진행해야 모두 찾아낼 수 있다.


*face unlock처럼 특수 목적이 있는 애플리케이션들은 작은 window로부터 진행하며 recognition을 진행함

1개만 찾아 낸 이후로부터는 보통 크기나 큰 크기의 window를 사용할 필요가 없어지기 때문임


Image pyramid를 사용한 recognition

  32x32 -> 64x64 -> 128x128 순으로 Sliding window의 Image pyramid를 구성하고, 작은 것 부터 큰 것까지 recognition하게 되면 scene내의 검출 가능한 모든 얼굴 등을 찾아낼 수 있다.


Recognition models

1. Parts-and-shape model

  Parts만을 사용하면 shape 정보가 없어서 실제와는 다르게 recognition 할 수 있음. 그래서 shape 정보 또한 혼합형 모델로써 사용.

예시) 머리카락, 눈, 코, 입의 배치 관계 (shape)


2. Constellation model

  삼각측량법을 이용해 중요한 3파트만 이용해 분류하고 recognition함



Bag of Words

  이미지에 등장하는 Feature의 모음


Histogram에서의 Bag of words


  그림처럼, Quantization을 통해 패턴을 생성(Bag of words)하고 이들이 input image에서 얼마나 반복되는지를 recognition함

sliding window of quickpoint (얼마나 패턴이 자주 등장하는지 counting, 의미 있는 patch 만드는 것이 중요)


Patch (words)를 생성하는 방법

  K-means clustering (local patch)



Bag of words를 통한 recognition을 위해서는 Visual words를 잘 구성하기, 의미있는 patch만드는 것이 중요


Regular grid vs interest regions

  Regular grid: stride(shift)를 통해 모든 이미지를 스캔해서 feature extraction하는 것: 정보량이 많으나 느리고 Occlusion에 약함

  Interest regions: quickpoint, 특정 코너에서만 뽑기 때문에 정보를 잃을 수 있으나 Occlusion에 강함



Precision and Recall

Precision: true positive / true + false positive (아닌데 맞다고 한거)

Recall: true positive / false negatives (원래 맞는데 아니라고 한거)