machine learning
-
딥러닝 이용한 검색고도화 기획안2 : click modelmachine learning 2023. 1. 13. 14:52
ClickModels ClickModels is a small set of Python scripts for the user click models initially developed at Yandex. A Click Model is a probabilistic graphical model used to predict search engine click data from past observations. This project is aimed to deal with click models used in Information Retrieval (see next section) and intended to be easy-to-read and easy-to-modify. If it's not, please l..
-
딥러닝을 이용한 검색 고도화 기획안1 : ColBERT를 이용한 검색결과 랭킹모델 재고machine learning 2023. 1. 13. 13:54
나중에 시간 날 때 기술검토 예정 검색 결과 랭킹모델 1. 네이버 deview2021 대기업은 다르군... 300 억 벡터를 서빙하라! 네이버 검색은 ColBERT 벡터 유사도 검색 도전 중 (naver.com) 300 억 벡터를 서빙하라! 네이버 검색은 ColBERT 벡터 유사도 검색 도전 중 NAVER Engineering | 반정호/전보성 - 300 억 벡터를 서빙하라! 네이버 검색은 ColBERT 벡터 유사도 검색 도전 중 tv.naver.com Colbert – bert 기반이나 검색에 특화된 알고리즘인듯 함. 스탠포드 2. 깃허브 소스 stanford-futuredata/ColBERT: ColBERT: state-of-the-art neural search (SIGIR'20, TACL'21, ..
-
자연어와 트랜스포머, BERT, GPTmachine learning 2023. 1. 13. 09:39
자연어와 트랜스포머, BERT, GPT 출처: 자연어와 트랜스포머, BERT, GPT – 테스트웍스 (testworks.co.kr) 자연어와 트랜스포머, BERT, GPT – 테스트웍스 사람과 동물의 가장 큰 차이점은 무엇일까요? 세심한 동작이 가능한 손, 보이지 않는 무언가를 믿을 수 있는 신앙심, 실존하지 않는 개념을 약속하고 지키는 법 등… 얼핏 생각하기에도 사람과 blog.testworks.co.kr 자연어와 트랜스포머, BERT, GPT Testworks2022년 04월 26일 자연어 처리 분야를 양분하고 있는 BERT와 GPT, 그리고 이들을 탄생시킨 선조격 트랜스포머에 대해 알아봅니다. 사람과 동물의 가장 큰 차이점은 무엇일까요? 세심한 동작이 가능한 손, 보이지 않는 무언가를 믿을 수 있는..
-
자연어 처리 - Transformer, Bert, GPT-3machine learning 2023. 1. 13. 09:35
1. Transformer . 자연어 처리 분야에서 기존 RNN 계열의 모델들이 갖고 있던 문제를 해결해줌 . 기존의 순차적인 연산에서 벗어나 병렬처리가 가능한 모델로 우수한 성능을 보임 . Multi-head self-attention을 이용해 순차적 연산을 줄이고, 더 많은 단어들 간 dependency를 모델링하는 게 핵심 . 대표적인 모델이 BERT (Bidirectional Encoder Representations from Transformers) . 2020년에는 기존 GPT 모델의 크기를 비약적으로 키운 GPT-3가 등장 . BERT와 달리 GPT-3는 디코더 기반 fine-tuning이 필요 없음 . Few-Shot Learning만으로도 응용 태스크에서 우수한 성능을 달성함 2. 기계번..
-
-
네이버 검색 (지식답변 추천) - 출처(Creator)의 신뢰도와 인기도를 평가해, 믿을 수 있는 정보를 검색 결과에 우선적으로 노출하는 알고리즘 ‘C-Rank’machine learning 2022. 5. 27. 17:05
https://m.blog.naver.com/naver_search/221066951803 ‘답변’을 중심으로 신뢰도를 측정하는 네이버 지식iN 검색 C-Rank 출처(Creator)의 신뢰도와 인기도를 평가해, 믿을 수 있는 정보를 검색 결과에 우선적으로 노출하는 알고... blog.naver.com 출처(Creator)의 신뢰도와 인기도를 평가해, 믿을 수 있는 정보를 검색 결과에 우선적으로 노출하는 알고리즘 ‘C-Rank’가 네이버 블로그(2016년), 카페(올해 6월)에 이어 지식iN에도 차주 적용됩니다. 네이버가 네이버지식에 구현한 지식추천 기술 딥러닝 등을 이용했다고 하는데 구체적으로 어떻게 구현했는지 알고 싶긴한데 정보가 적다.
-
(솔트룩스 세미나) 딥러닝기반의 지식학습과 심층 질의응답 – 정용일 연구위원님machine learning 2022. 5. 20. 17:24
딥러닝기반의 지식학습과 심층 질의응답 – 정용일 연구위원님 지식그래프 – 구조화 형태의 데이터. 비정형을 정형화하는 과정에 자연어 처리 과정이 필수적으로 사용된다. 한국어 필수 코어지식: 2억~3억 트리플. (출처)위키피디아, DBPedia -> Knowledge Base 구축. 지식그래프의 활용: 다중질의와 복합질의의 경우 자연어처리로만은 질의답변을 만들기는 힘드므로 지식그래프 사용. 복합질의 ex) 서울의 인구와 인천의 인구수 차이가 몇 명이야? 지식학습 개념 개체연결(Entity linking): 구문분석으로 SK -> SK 와이번즈, 두산 -> 두산 베어스로 명확하게 식별해 지식베이스에 연결(딥러닝의 활용) 관계식별: Sk 와이번즈 – 2018 한국시리즈의 우승자의 관계 -> 트리플 구조로 구축 ..