Recognition
인식
scene understanding의 한계와 극복
한 scene에 각각의 어떠한 장소를 대표하는 사물이 여러개 있을 경우, 잘못된 결과를 가져올 수 있음
단, 그러한 abnormal에 대해 상세하게 specify해줌으로써 올바른 recognition 결과를 얻을 수 있음
도로변만 봤을때 Urban, 도로변 뒷쪽에 성만 봤을때 Castle로써 해당 장면을 해석하기 어려움.
이때 scene이 Urban 과 Castle 그리고 몇가지 feature를 더 포함하여 학습시키면 정상적으로 recognition 가능
Sliding window approach
recognition을 위한 window를 순차적으로 sliding하면서 찾는 것
Q. 32x32 window를 사용하면 64x64나 16x16은 못 찾지 않나?
A. 못찾는다. 그래서 Image pyramid를 사용해서 작은 사이즈부터 큰 사이즈까지 detection을 진행해야 모두 찾아낼 수 있다.
*face unlock처럼 특수 목적이 있는 애플리케이션들은 작은 window로부터 진행하며 recognition을 진행함
1개만 찾아 낸 이후로부터는 보통 크기나 큰 크기의 window를 사용할 필요가 없어지기 때문임
Image pyramid를 사용한 recognition
32x32 -> 64x64 -> 128x128 순으로 Sliding window의 Image pyramid를 구성하고, 작은 것 부터 큰 것까지 recognition하게 되면 scene내의 검출 가능한 모든 얼굴 등을 찾아낼 수 있다.
Recognition models
1. Parts-and-shape model
Parts만을 사용하면 shape 정보가 없어서 실제와는 다르게 recognition 할 수 있음. 그래서 shape 정보 또한 혼합형 모델로써 사용.
예시) 머리카락, 눈, 코, 입의 배치 관계 (shape)
2. Constellation model
삼각측량법을 이용해 중요한 3파트만 이용해 분류하고 recognition함
Bag of Words
이미지에 등장하는 Feature의 모음
Histogram에서의 Bag of words
그림처럼, Quantization을 통해 패턴을 생성(Bag of words)하고 이들이 input image에서 얼마나 반복되는지를 recognition함
sliding window of quickpoint (얼마나 패턴이 자주 등장하는지 counting, 의미 있는 patch 만드는 것이 중요)
Patch (words)를 생성하는 방법
K-means clustering (local patch)
Bag of words를 통한 recognition을 위해서는 Visual words를 잘 구성하기, 의미있는 patch만드는 것이 중요
Regular grid vs interest regions
Regular grid: stride(shift)를 통해 모든 이미지를 스캔해서 feature extraction하는 것: 정보량이 많으나 느리고 Occlusion에 약함
Interest regions: quickpoint, 특정 코너에서만 뽑기 때문에 정보를 잃을 수 있으나 Occlusion에 강함
Precision and Recall
Precision: true positive / true + false positive (아닌데 맞다고 한거)
Recall: true positive / false negatives (원래 맞는데 아니라고 한거)
'Research & Development > Machine Learning' 카테고리의 다른 글
[컴퓨터비전] Loss Function And Optimization (0) | 2019.06.21 |
---|---|
[컴퓨터비전] Neural Network and CNN (0) | 2019.06.21 |
[컴퓨터비전] Supervised Learning (0) | 2019.05.16 |
[컴퓨터비전] Unsupervised Learning (2) (0) | 2019.05.12 |
[컴퓨터비전] Unsupervised Learning (1) (0) | 2019.05.02 |