텍스트마이닝
-
TextRank: Bringing Order into Texts텍스트마이닝 2022. 7. 1. 02:26
*본 포스팅은 22-1학기 연세대학교 일반대학원 텍스트마이닝(송민 교수님) 수업을 정리한 것입니다. 2004년 'TextRank'란 논문이 발표되었습니다. 이 글은 논문 내용을 간추린 것입니다. 1. Introduction (1) 그래프 기반 랭킹 알고리즘 그래프 기반 랭킹 알고리즘은 vertex(=노드)의 중요도를 그래프에 표시해 놓았으며, vertex의 중요도는 전체 그래프의 global information을 사용하여 반복적(recursive)으로 도출됩니다. 이는 vertex의 중요도가 1) 중요한 vertex에 의해 가리켜지거나 2) 가리킴을 많이 받을수록 중요도가 커지기 때문입니다. 이 그래프 기반 랭킹 알고리즘을 사용하면 citation analysis, social networks, Web..
-
토픽 모델링, LDA텍스트마이닝 2022. 6. 30. 16:16
*본 포스팅은 22-1학기 연세대학교 일반대학원 텍스트마이닝(송민 교수님) 수업을 정리한 것입니다. 1. 토픽 모델링 정의 토픽 모델링이란 구조화되지 않은 문헌집단에서 주제를 찾아내기 위한 알고리즘입니다. 여기서 쓰이는 '주제'란 같은 맥락에서 나타날 가능성이 있는 단어들의 그룹이라 할 수 있습니다. 이에 토픽모델링은 맥락과 관련된 단서들을 이용하여 유사한 의미를 가진 단어들을 클러스터링하여 주제를 추론하는 모델이며, 문헌 모델링, 문헌 집단 모델링이 가능합니다. 토픽모델링은 그러나 '문헌 내 용어 분포는 알 수 있으나, 주제들의 용어 분포는 사전에 알 수 없다'는 문제점이 있습니다. 이에 따라 문헌집단 내 문헌들의 용어 분포들로부터 주제 용어분포를 추정하는 과정이 필요한데, 이는 잠재 디리클레 할당(L..
-
텍스트마이닝1- introduction텍스트마이닝 2022. 3. 14. 13:46
*본 포스팅은 22-1학기 연세대학교 일반대학원 텍스트마이닝(송민 교수님) 수업을 정리한 것입니다. 2주차: 텍스트 분석- 텍스트 요소 단위별 분석 0. 들어가기 전에 (1) 텍스트를 분석하는 이유 (2) 텍스트 마이닝이란? (3) 텍스트 분석이란 무엇인가? 1) 머신러닝과의 차이 2) 자연어 처리와의 차이 3) 데이터 마이닝과의 차이 4) 정보검색과의 차이 5) 시맨틱 웹과의 차이 (4) 텍스트 마이닝을 통해 할 수 있는 것? 1. 텍스트 표현의 단위 (1) 어휘 표현: 문자/단어/구/품사 1) 문자 단위 텍스트 분석 - 문자 기반 언어 모델, 서픽스 배열 2) 단어 단위 텍스트 분석 - 토큰화, 불용어, 품사 태깅(규칙 기반/stocastic 기반) 3) 구 단위 텍스트 분석 - 텍스트 단위화(청킹)..