23-06-30 report

Clustering 문제

새로운 descriptor가 특정 군에 추가될 경우,
새로운 descriptor가 추가됨으로써 특정 군에 있던 기존 descriptor와의 평균을 계산하고 평균 값을 해당 marking을 대표하는 descriptor로 설정
이어 또 다른 새로운 descriptor에 대해 각 군의 대표 descriptor와 유사도를 비교하여 그 군에 포함시킬지 여부를 결정

<aside> 💡 모든 descriptor는 norm이 1인 정규화 descriptor로, 유사도를 비교할 때 cosine similarity를 이용하는데 대표 descriptor를 얻기 위해 평균을 계산할 경우 norm이 1이 깨졌던 문제를 catch하지 못하고 있었습니다.

</aside>

따라서 이 문제 해결을 위해 아래와 같이 방법을 생각했었습니다.

기존 방법대로 각 군에 속한 여러 normalized descriptor들의 평균을 내고 그것을 또 normalize를 한다?
대표 descriptor를 계산할 때는 normalize 시키지 않은 descriptor를 이용하여 평균을 내고 그것을 normalize 한다?
대표 descriptor를 구하지 않고 새로운 descriptor에 대해 각 군에 속한 모든 descriptor들과의 유사도를 평균내어 포함시킬지 여부를 결정한다?

<aside> 💡 1번 방법의 경우는 방법론 자체가 맞는지 조금 의문이 들어 (norm이 1인 평균 descriptor를 구하는 방법은 2번이 옳은 방법이라 생각) 배제하였습니다.

</aside>

<aside> 💡 3번 방법의 경우는 평균 계산으로 인해 서로 다른 class와의 distinction 능력이 모호해지는 것을 막을 수 있지만 연산량 문제가 있을 것 같습니다. (하지만 clustering 되는 전체 marking 수가 많지 않은 점을 고려하면 괜찮을 수도 있을 것 같습니다.)

</aside>

Clustering Results

위의 2번 방법을 이용하여 아래 dataset에 대한 clustering 결과를 내었습니다.
1. Inha dataset
2. SeRM data (Sangam1)