SSISO Community

시소당

인공지능에 자주 나오는 수학 4 - 유사 계수(Similar Coefficient)

인공지능에 자주 나오는 수학 4 - 유사 계수(Similar Coefficient)
 
지금까지 맨 거리(Distance)에 의한 유사도 만을 이야기 했네요.
유사도를 따지는 것이기는 하지만 이젠 좀 다른 관점의 이야기를 해 보려고 합니다.
이번에 이야기 할 유사 계수는 집합적인 성격을 갖는 객체 간의 유사도를 계산하는데 사용됩니다.
 
유사 계수(Similar Coefficient)에는 다음과 같이 여러 종류가 있습니다.
 
1) 타니모토 계수(Tanimoto Coefficient)
    20080831_004619.png
 
2) 다이스 계수(Dice's Coefficient)
    20080831_004739.png
 
3) 자카드 계수(Jaccard's Coefficient)
    20080831_004803.png
 
4) 코싸인 계수(Cosine Coefficient)
    20080831_004845.png
 
5) 중복도 계수(Overlap Coefficient)
    20080831_004912.png
 
모두 유사한 값들을 계산해 냅니다.
식이 유사한 것 처럼 개념도 유사하여 이번 강좌에서는 "타니모토 계수"만으로 설명하도록 하겠습니다.
 
사용예를 들어 한번에 설명하도록 하겠습니다.
 
어떤 쇼핑몰에서 마케팅 차원으로 사용자들에게 상품을 추천하고자 합니다.
그런데 아무 물건이나 막 추천하면 스팸처럼 느껴져서 회사 이미지가 않 좋아질 것 같아.
그 사람의 성향에 맞는 물건을 추천하려 합니다.
그렇다고 사용자 각자에게 어떤 성향을 갖고 있는지 혹은 뭘 좋아하는지 묻는것은 사생활 침해 문제 때문에 다른 방법을 찾아야 합니다.
각 사용자별로 갖고 있는 데이터는 사용자들이 지금까지 쇼핑몰을 이용하며 구매한 상품 내역 밖에 없습니다.
이번 업무 담당자는 고민 고민을 하다가 좋은 생각을 떠올렸습니다.
지금까지 성향이 비슷하다고 생각하되는 고객들을 그룹으로 묶어서 그 그룹의 다른 사용자들은 많이 구매했는데... 어떤 사용자가 구매하지 않았다면 이를 추천하도록 하는 것입니다.
생각은 그럴싸 했지만 성향이 비슷한 사람들을 어떻게 알아낼 것인가가 문제입니다.
 
구체적으로 A, B, C라는 사람이 쇼핑몰 고객으로 있다고 하죠.
각 사람들은 다음과 같은 상품들을 구매했었습니다.
 
 
A = { 노트북, 마우스, 신발, 마이크, 탬버린, 모니터 }
B = { 하드디스크, 모니터, 마우스,  캠코더 }
C = { 피아노, 탬버린, 바이올린, 첼로 }
 
위와 같은 구매 내역을 벤다이어 그램으로 그려보면 다음과 같이 될 것입니다.
20080831_000355.png
20080831_000406.png
20080831_000416.png
 
그림이 좀 크네요... 이해바랍니다. ^^;
 
뭐 이미 A와 B 고객이 겹치는 것이 많아서 성향이 비슷하고 B와 C 고객은 겹치는게 하나도 없어서 성향이 전혀 다르다고 할 수 있겠네요.
하지만 만약 A라는 사람이 쇼핑몰에 있는 거의 모든 상품을 구매했다고 한다면 B라는 고객과 성향이 유사하다고 할 수 있을까요? 이런 문제를 해결하기 위해 타니모토 계수를 사용합니다.
 
타니모토 공식은 위에서 이미 보았지만 다시 적는다면 다음과 같습니다.
20080831_001058.png
여기서 Na 는 A고객의 구매 상품 총 수를 의미하며 Nb는 B곡객의 구매 상품 총 수를 의미하며, Na∩b는 A고객과 B고객 모두 구매한 상품의 수를 의미합니다.
 
그럼 각각 계산해 보죠.
 
20080831_001643.png
 
계산된 결과도 우리가 예상했던 대로 나왔네요.
A고객과 B고객은 C고객보다는 좀 더 성향이 같다고 생각할 수 있습니다.
뭐 문제를 대충 만들다 보니 성향 점수가 모두 다 그리 좋지 않네요. 헤헤...
 
타니모토 계수는 0부터 1까지의 값을 갖습니다. 0은 유사성이 없다는 것이며 1은 완전 같다는 의미입니다.
위의 문제에서 몇점 정도를 성향이 같다고 볼 것인가는 또 다른 문제입니다.
좀 억지 스럽지만 0.2점 이상이면 성향이 유사하다고 본다면 A고객에게는 "하드디스크"와 "캠코더"를 추천하고 B고객에게는 "노트북", "마이크", "탬버린"을 추천하면 되겠네요.

515 view

4.0 stars