-
정보검색 - 검색모델(벡터 모델)검색 2022. 5. 14. 14:36728x90반응형
상용 검색솔루션은 대부분 TF-IDF 벡터표현을 발전시킨 검색모델을 사용하는 걸로 보인다.
- 국내 검색솔루션으로는 와이즈넛, 코난 테크놀로지, 솔트룩스 가 있다.
# 정보검색의 벡터 Ranking
-> 문서벡터와 질의벡터의 TF*IDF를 구해서 두 벡터의 크기를 비교함. ( 이 값을 비교하기 좋게 0~1로 정규화)
문서벡터와 질의벡터의 TF, IDF, 정규화 수식을 다르게 적용 할 수 있음.
# SMART 문서검색모델 표기법 (2008)
이렇게 각 용어에 점수를 사용하는 방법을 < 용어 가중치 (term weighting) >부여기법이라고 한다.. ex) lnc.ltc (ddd.qqq)
문서벡터 lnc (ddd)
질의벡터 ltc (qqq)
# 문서집합에 없는 질의는 계산에 반영되지 않는다.
참고로 bnn은 다음과 같다.
Bool(존재여부만 0,1) N( IDF 사용안함, 값*1 ) N(정규화 사용안함, 값*1)
TF * IDF * 정규화 = 존재하면 1, 아니면 0 이 나오는 계산식.
(방역,코로나,한국) Q=(0,0,1) D2=(1,0,1) 질의에 사용된 '마스크' 라는 단어는 문서집합에 존재하지 않으므로 '마스크' 벡터는 계산되지 않는다. (벡터 그래프의 차원이 늘어나지 않는다.)
검색할 내용이 문서에 없으니 점수를 부여 못한다는 당연한 이야기이지만, 헷갈릴수 있기에 한번 더 언급한다.
# 직접 계산해보자
# lnn.ltc
공식
코사인 공식이 들어가서 어려워보이는데, 직접 계산해보면 생각보다 쉽다.
728x90반응형'검색' 카테고리의 다른 글
정보검색 성능 평가 (2/2) - MAP, Pre@K, R-pre, NDCG (0) 2022.05.14 정보검색 성능 평가 (1/2) - P, R, F1, PRC (0) 2022.05.14 검색 이론 (3/3) - 검색모델 (Retrieval Models) (0) 2022.05.14 검색 이론 개요 (2/3) - 검색모델, 색인, 역색인, 조회 (0) 2022.05.14 검색 이론 개요 (1/3) -정보검색 (IR, Information Retrieval) 이란? DB검색과의 차이점 (0) 2022.05.14