Object detection 분야에서 객체를 표시하기 위해 bounding box(bbox)라는 레이블 형식을 주로 사용합니다. 이 형식은 각 물체가 위치하는 영역을 직사각형으로 그려주는 것을 말합니다.
(미션) 삼각형을 그리기 위해서는 3 개 점의 좌표가 필요합니다. 평면에서 점의 좌표는 (x,y) 로 표현할 수 있기 때문에, 삼각형을 표현하기 위해서는 3 x 2 = 6 개의 숫자가 필요합니다. 그렇다면 직사각형을 그리기 위해서는 점이 최소 몇 개 필요할까요? → 8개
이미지 안에서 bbox 를 추정하기 위한 간단한 모델 구조를 아래와 같이 구성해보았습니다(성능은 기대할 수 없습니다😎). 모델의 앞 부분은 이미지 특징을 추출하기 위한 Conv. 레이어로 구성되어 있고, 뒷 부분은 기본적인 MLP 로 구성되어있습니다.
최근까지 Segmentation 분야는 놀랍도록 정확한 성능을 보여주고 있습니다. 하지만 초기부터 계속되어, 지금도 여전히 풀어야 할 숙제들이 남아 보입니다.
Segmentation map 은 원본 이미지 해상도에 부합하도록 작성됩니다. 아래는 원본 이미지 데이터를 채널 기준으로 구분한 형태의 예시입니다. → shape=(128,128,3)