general ML, DL, NLP
-
13. CNN을 이용한 text 분류general ML, DL, NLP/딥러닝 2022. 6. 28. 23:23
*본 게시물은 22-1학기 연세대학교 일반대학원 딥러닝을이용한비정형데이터분석(이상엽 교수님) 수업 내용을 정리한 것입니다. 이미지 처리에 사용했던 CNN도 text 분류를 위해 사용할 수 있습니다. 이를 위해서는 text를 이미지와 유사하게 처리할 수 있는 몇 가지 과정이 필요합니다. 1. 문서를 이미지 형태인 3D 형태(n, m, c)로 표현 n은 문서를 표현할 때 사용하는 최대 단어 수입니다. 즉 문서의 길이입니다. - 특히 CNN을 사용하여 텍스트 분류를 할 때에는 모든 문장들에 대해 n을 동일하게 맞춰주어야 합니다. - 패딩을 하거나 잘라냅니다. m은 한 단어를 표현하는 임베딩 벡터의 차원, c는 이미지 데이터의 채널로, text 데이터에서는 1로 간주합니다. 예로 n=8, m=5, c=1인 형태..
-
12. LSTM(Long Short-Term Memory)general ML, DL, NLP/딥러닝 2022. 6. 28. 22:45
*본 게시물은 22-1학기 연세대학교 일반대학원 딥러닝을이용한비정형데이터분석(이상엽 교수님) 수업 내용을 정리한 것입니다. 앞선 포스팅에서 다루었던 RNN의 단점은 너무 멀리 떨어진 정보를 충분히 반영하지 못하는 장기 의존 문제(problem of long term dependency)였습니다. 이에 LSTM이 등장하게 됩니다. * 장기 의존 문제 - 입력된 문서에서 상대적으로 오래전에 사용된 단어의 정보가 잘 전달되지 않음 - 마지막 time step에서 생성된 히든 스테이트 벡터만 정달되는 경우, 문서 앞부분에서 사용된 단어들의 정보가 잘 반영되지 못한 상태가 됨 1. LSTM Long Short-Term Memory라는 이름을 가진 LSTM은 RNN의 단점을 보완하기 위해 고안된 알고리즘입니다. 이..
-
11. RNN(Recurrent Neural Network)general ML, DL, NLP/딥러닝 2022. 6. 28. 18:08
*본 게시물은 22-1학기 연세대학교 일반대학원 딥러닝을이용한비정형데이터분석(이상엽 교수님) 수업 내용을 정리한 것입니다. 1. 개요 RNN(Recurrent Neural Network)은 모형이라기보다는 층(layer)이라 할 수 있습니다. 따라서 Feed Forward Neural Network의 은닉층 하나로 생각할 수 있으며, 이 RNN이라는 은닉층이 순차적으로 여러번 반복 적용됩니다. 정확히는 RNN은 순차적으로 입력되는 데이터, 즉 시퀀스(sequence) 데이터에 대해 매번 반복적으로(=순환적으로) 적용되는 방식으로 작동합니다. 1) 시퀀스 데이터(sequence data) 시퀀스 데이터란, 순서를 가지고 연속적으로 나열되어있는 데이터를 말합니다. 주로 텍스트(단어 시퀀스), 비디오(이미지 ..
-
로지스틱 회귀(Logistic Regression)general ML, DL, NLP/머신러닝 2022. 4. 22. 03:56
*본 게시물은 22-1학기 연세대학교 일반대학원 딥러닝을이용한비정형데이터분석(이상엽 교수님) 수업 내용을 정리한 것입니다. 로지스틱 회귀는 회귀 모형 중 분류 문제를 위한 모형입니다. 선형 회귀모형과 전반적인 작동 순서가 비슷하며, 마찬가지로 정답 & 힌트 정보가 모두 포함된 데이터가 필요합니다. 다만 로지스틱 회귀는 비선형 함수라는 점에서 선형 회귀와 차이가 존재합니다. 종속변수가 취하는 값이 0, 1밖에 없으면 binomial logistic regression, 3개 이상이면 multinomial logistic regression이라 구분합니다. 1. 로지스틱 회귀 모형 로지스틱 회귀 모형은 종속변수로 y가 1일 확률 P(y=1|X), y가 0일 확률 P(y=0|X)을 사용합니다. 보편적으로 y가..
-
선형 회귀(Linear Regression)general ML, DL, NLP/머신러닝 2022. 4. 22. 03:55
*본 게시물은 22-1학기 연세대학교 일반대학원 딥러닝을이용한비정형데이터분석(이상엽 교수님) 수업 내용을 정리한 것입니다. Regression 알고리즘을 쓸 때 회귀 문제에는 선형 회귀 모형을, 분류 문제에는 로지스틱 회귀 모형을 씁니다. 이처럼 알고리즘을 선택할 때에는 문제의 유형을 잘 따져보아야 합니다. 1. 선형 회귀 선형 회귀 역시 지도학습의 한 종류이며, 주로 종속변수 예측을 위한 회귀 문제에 쓰입니다. 선형 회귀 모형의 목적은 독립변수와 종속변수 간 인과관계 파악이기에, 데이터 안에는 정답(종속변수)과 힌트(독립변수) 정보가 모두 있어야 합니다. 훈련을 통해 독립변수와 종속변수를 가장 잘 설명하는 관계, 그에 상응하는 최적 파라미터를 찾게 되고, 새로운 데이터에 모형을 적용해 종속변수를 예측하..
-
지도학습(Supervised learning) 기초- 성능평가, overfitting, regularizationgeneral ML, DL, NLP/머신러닝 2022. 4. 22. 02:49
*본 게시물은 22-1학기 연세대학교 일반대학원 딥러닝을이용한비정형데이터분석(이상엽 교수님) 수업 내용을 정리한 것입니다. 1. 모델 성능 평가 1) 지도학습 적용 순서 지도학습은 학습 데이터 & 문제 데이터 준비 -> 알고리즘(수학적 모형/모델/함수) 선택 -> 학습(최적 파라미터 값 도출) -> 문제 데이터에 학습된 모형 적용 순으로 진행합니다. 이 때 문제 데이터는 학습에 절대 사용이 되면 안되며, 힌트 정보와 정답정보가 모두 있어야 합니다. 정답 정보가 있어야 모델 성능 평가가 가능하기 때문입니다. 문제 데이터에 대해서 모형은 정답을 예측하게 됩니다. 정답이 잘 맞을수록, 즉 실제 종속변수를 잘 설명(예측)할수록 모형의 성능이 좋다고 말할 수 있습니다. 2) 문제별 모델 성능 평가 지표 (1) 회..
-
지도학습(Supervised Learning) 기초(회귀, 분류, 비용함수)general ML, DL, NLP/머신러닝 2022. 4. 22. 01:38
*본 게시물은 22-1학기 연세대학교 일반대학원 딥러닝을이용한비정형데이터분석(이상엽 교수님) 수업 내용을 정리한 것입니다. 지도학습을 위해서는 정답과 힌트(feature) 정보가 있는 데이터가 필요합니다. 이 데이터를 바탕으로 훈련을 통해 정답과 힌트 정보의 관계를 학습하게 됩니다. 가령 개와 고양이를 분류하는 문제일 경우, 훈련을 통해 학습 데이터에 존재하는 개와 고양이의 특징을 알게 됩니다. 귀가 쫑긋하면 고양이 수염이 길면 고양이 귀가 처지면 강아지 수염이 짧으면 강아지... 지도학습의 힌트 정보는 독립변수의 값, 정답 정보는 종속 변수의 값으로 바꿔서 이야기할 수 있습니다. 즉, 훈련을 통해 독립변수와 종속변수 간의 관계를 배우는 것이 바로 지도학습입니다. 관계를 배울 때에는 알고리즘(=수학적 모..