machine learning(66)
-
네이버 검색 (지식답변 추천) - 출처(Creator)의 신뢰도와 인기도를 평가해, 믿을 수 있는 정보를 검색 결과에 우선적으로 노출하는 알고리즘 ‘C-Rank’
https://m.blog.naver.com/naver_search/221066951803 ‘답변’을 중심으로 신뢰도를 측정하는 네이버 지식iN 검색 C-Rank 출처(Creator)의 신뢰도와 인기도를 평가해, 믿을 수 있는 정보를 검색 결과에 우선적으로 노출하는 알고... blog.naver.com 출처(Creator)의 신뢰도와 인기도를 평가해, 믿을 수 있는 정보를 검색 결과에 우선적으로 노출하는 알고리즘 ‘C-Rank’가 네이버 블로그(2016년), 카페(올해 6월)에 이어 지식iN에도 차주 적용됩니다. 네이버가 네이버지식에 구현한 지식추천 기술 딥러닝 등을 이용했다고 하는데 구체적으로 어떻게 구현했는지 알고 싶긴한데 정보가 적다.
2022.05.27 -
(솔트룩스 세미나) 딥러닝기반의 지식학습과 심층 질의응답 – 정용일 연구위원님
딥러닝기반의 지식학습과 심층 질의응답 – 정용일 연구위원님 지식그래프 – 구조화 형태의 데이터. 비정형을 정형화하는 과정에 자연어 처리 과정이 필수적으로 사용된다. 한국어 필수 코어지식: 2억~3억 트리플. (출처)위키피디아, DBPedia -> Knowledge Base 구축. 지식그래프의 활용: 다중질의와 복합질의의 경우 자연어처리로만은 질의답변을 만들기는 힘드므로 지식그래프 사용. 복합질의 ex) 서울의 인구와 인천의 인구수 차이가 몇 명이야? 지식학습 개념 개체연결(Entity linking): 구문분석으로 SK -> SK 와이번즈, 두산 -> 두산 베어스로 명확하게 식별해 지식베이스에 연결(딥러닝의 활용) 관계식별: Sk 와이번즈 – 2018 한국시리즈의 우승자의 관계 -> 트리플 구조로 구축 ..
2022.05.20 -
(솔트룩스 세미나) BERT기반 자연언어처리 – 양승원 연구위원님
BERT기반 자연언어처리 – 양승원 연구위원님 형태소분석 – 최소단위의 의미있는 term 추출 검색의 한계: 형태소분석 오류. ex) 분양가상한제 -> 분양 가상 한제(X), 분양가 상한제(O) 분석의 한계: 형태소/ 개체명/ 키워드 인식오류. ex) 서울시/LC -> 서울시/OG. 도널드 트럼프, 트럼프 대통령을 각각 따로 인식 TEXT 딥러닝 추세 – BERT Word2Vec: 주변단어를 추론하는 방식으로 해당 단어를 도출. 1) 단어간 유사도 측정용이. 2) 단어간 관계파악 용이 3) 벡터연산을 통한 추론 4) 단어의 subword Information 무시 5) 해당 단어의 vocab에 없다면 결과도출 불가(OOV) FastText: Word2Vec과 비슷하지만, OOV와 subword이슈 해결...
2022.05.20 -
(솔트룩스 세미나) 융합 신경망 기발 복합지식 추출 - 강원대 김학수 교수님
Triple: 주어(Subject) – 서술어(Predicate) – 목적어(Object). 시멘틱 웹기반 온톨로지의 가장 기본단위. 복합 지식 추출: entities, concepts, kindOf의 관계성을 관찰. 복합 지식의 추출의 어려운 이유. 현재 가장 성능 좋은 개체명 인식모델 Semi-supervised model= Distant supervision(원거리 감독법: 관계의 의미 내포) + Bagging based active learning(기존 개체명 분석+노이즈제거) 일반영역의 모델결과: 평균 75% (대상: 학습 54000문장, 평가 1000문장.) 특정 도메인의 결과: 평균 90%로 상승가능. 기존 연구의 문제점: 한 문장당 개체가 한쌍만이 존재가정 + 두 개체간의 관계 추출. 연구..
2022.05.20 -
솔트룩스 세미나-뉴로 심볼릭AI by 이경일 대표
현재 기계학습의 한계점 1. 작은 학습 데이터 볼륨 데이터가 사람과 달리 방대한 양을 필요로 한다. 사람은 추론을 통해 직접 경험이 거의 없어도 예상이 가능. 2. 몸을 통한 학습인지 인간의 감각(recognition, emotion, behavior) -> 기계의 학습(어떻게 학습?) 3. 상식추론의 부재 인간: common sense < knowledge < info < data : 기계 4. 신경가소성의 신비(뉴론, 회로생성) 인간은 유기체로써, 경험을 통해 새로 생성되고 수정되는 연륜과 같은 현상. 기계에게 어떻게? (아리스토텔레스) 사람 = induction + deduction + abduction 앞으로는, 뉴로 심볼릭(induction + deduction) approach가 필요한 시점...
2022.05.20 -
머신러닝의 자연어처리기술 NLP
1. 개요 2. 분산표현의 개요 3. 자연어처리의 개요 4. 언어의 벡터표현 5. encoder-decoder 모델 6. 멀티모달모델
2022.05.16