정보검색 - 회고

2022. 5. 14. 15:28검색

728x90
반응형

1. 정보검색과 데이터베이스의 차이점

2. 자연어 검색 시스템의 동의어 다의어 문제

3. 적합성 판단의 기준, 판단하기 어려운 사례

4. IR 시스템의 큰 그림

색인모듈, 역파일 색인(포스팅리스트), 검색모듈

5. 질의 문서 유사도 계산 (TF, IDF, CF)

6. 질의 문서 유사도 수식 ( TF-IDF / Length(D) )

7. 색인 단위 (2-gram)

한국어는 형태소 분석 같은 것이 없어도 2-gram이 비슷한 동작을 한다.

8. 색인 절차

영어 -> [불용어 제거, 어간생성(stemming)]이 가장 중요한 절차.

9. 영어에서 스태밍과 n-gram 효과

영어에서도 문자단위 4,5-gram이 의외로 효과가 있다. (스태밍은 단어 단위)

 

10. 문서의 표현

단어 보자기(a bog of words) 문서표현

정보검색의 대표적인 문서표현 방식

 

11. 정보검색모델 4가지

불린, 벡터공간, 확률, 언어

 

12. 벡터공간모델

BIM (바이너리 인디펜더스 모델) -> 이진 벡터로 해석, 코사인 유사도

코사인 계산은 반드시 하십쇼

13. 이진벡터표현, TF벡터표현, TF-IDF 벡터표현

 

14. SMART 벡터공간모델 (테이블을 외울 필요는 없어요)

lnc.ltc, bnn.bnn등

15. 정보검색평가(Evaluation)

정확률(P) 재현률(R) F1(조화평균 반반치킨) 2PR/P+R

 

728x90
반응형