general ML, DL, NLP/머신러닝
-
로지스틱 회귀(Logistic Regression)general ML, DL, NLP/머신러닝 2022. 4. 22. 03:56
*본 게시물은 22-1학기 연세대학교 일반대학원 딥러닝을이용한비정형데이터분석(이상엽 교수님) 수업 내용을 정리한 것입니다. 로지스틱 회귀는 회귀 모형 중 분류 문제를 위한 모형입니다. 선형 회귀모형과 전반적인 작동 순서가 비슷하며, 마찬가지로 정답 & 힌트 정보가 모두 포함된 데이터가 필요합니다. 다만 로지스틱 회귀는 비선형 함수라는 점에서 선형 회귀와 차이가 존재합니다. 종속변수가 취하는 값이 0, 1밖에 없으면 binomial logistic regression, 3개 이상이면 multinomial logistic regression이라 구분합니다. 1. 로지스틱 회귀 모형 로지스틱 회귀 모형은 종속변수로 y가 1일 확률 P(y=1|X), y가 0일 확률 P(y=0|X)을 사용합니다. 보편적으로 y가..
-
선형 회귀(Linear Regression)general ML, DL, NLP/머신러닝 2022. 4. 22. 03:55
*본 게시물은 22-1학기 연세대학교 일반대학원 딥러닝을이용한비정형데이터분석(이상엽 교수님) 수업 내용을 정리한 것입니다. Regression 알고리즘을 쓸 때 회귀 문제에는 선형 회귀 모형을, 분류 문제에는 로지스틱 회귀 모형을 씁니다. 이처럼 알고리즘을 선택할 때에는 문제의 유형을 잘 따져보아야 합니다. 1. 선형 회귀 선형 회귀 역시 지도학습의 한 종류이며, 주로 종속변수 예측을 위한 회귀 문제에 쓰입니다. 선형 회귀 모형의 목적은 독립변수와 종속변수 간 인과관계 파악이기에, 데이터 안에는 정답(종속변수)과 힌트(독립변수) 정보가 모두 있어야 합니다. 훈련을 통해 독립변수와 종속변수를 가장 잘 설명하는 관계, 그에 상응하는 최적 파라미터를 찾게 되고, 새로운 데이터에 모형을 적용해 종속변수를 예측하..
-
지도학습(Supervised learning) 기초- 성능평가, overfitting, regularizationgeneral ML, DL, NLP/머신러닝 2022. 4. 22. 02:49
*본 게시물은 22-1학기 연세대학교 일반대학원 딥러닝을이용한비정형데이터분석(이상엽 교수님) 수업 내용을 정리한 것입니다. 1. 모델 성능 평가 1) 지도학습 적용 순서 지도학습은 학습 데이터 & 문제 데이터 준비 -> 알고리즘(수학적 모형/모델/함수) 선택 -> 학습(최적 파라미터 값 도출) -> 문제 데이터에 학습된 모형 적용 순으로 진행합니다. 이 때 문제 데이터는 학습에 절대 사용이 되면 안되며, 힌트 정보와 정답정보가 모두 있어야 합니다. 정답 정보가 있어야 모델 성능 평가가 가능하기 때문입니다. 문제 데이터에 대해서 모형은 정답을 예측하게 됩니다. 정답이 잘 맞을수록, 즉 실제 종속변수를 잘 설명(예측)할수록 모형의 성능이 좋다고 말할 수 있습니다. 2) 문제별 모델 성능 평가 지표 (1) 회..
-
지도학습(Supervised Learning) 기초(회귀, 분류, 비용함수)general ML, DL, NLP/머신러닝 2022. 4. 22. 01:38
*본 게시물은 22-1학기 연세대학교 일반대학원 딥러닝을이용한비정형데이터분석(이상엽 교수님) 수업 내용을 정리한 것입니다. 지도학습을 위해서는 정답과 힌트(feature) 정보가 있는 데이터가 필요합니다. 이 데이터를 바탕으로 훈련을 통해 정답과 힌트 정보의 관계를 학습하게 됩니다. 가령 개와 고양이를 분류하는 문제일 경우, 훈련을 통해 학습 데이터에 존재하는 개와 고양이의 특징을 알게 됩니다. 귀가 쫑긋하면 고양이 수염이 길면 고양이 귀가 처지면 강아지 수염이 짧으면 강아지... 지도학습의 힌트 정보는 독립변수의 값, 정답 정보는 종속 변수의 값으로 바꿔서 이야기할 수 있습니다. 즉, 훈련을 통해 독립변수와 종속변수 간의 관계를 배우는 것이 바로 지도학습입니다. 관계를 배울 때에는 알고리즘(=수학적 모..
-
Machine Learning 기초- 3가지 학습 방법general ML, DL, NLP/머신러닝 2021. 11. 26. 02:07
*본 게시물은 21-2학기 연세대학교 일반대학원 온라인데이터수집과분석(이상엽 교수님) 수업 내용을 정리한 것입니다. 빈도분석은 기계학습 알고리즘을 사용하지 않는 텍스트 분석 방법이었습니다. 이제부터는 기계학습 알고리즘을 사용하는 텍스트 분석 방법을 다루려고 합니다. 수업에서는 군집화(clustering), 네트워크 분석(기계학습 알고리즘의 기초 개념, 원리가 적용됩니다.), 그리고 분류를 다룹니다. 인공지능, 기계학습, 딥러닝 그림에서도 알 수 있듯이 인공지능은 기계학습, 딥러닝을 포함하는 개념입니다. 즉 기계학습, 딥러닝은 인공지능 구현에 있어 중요한 구성요소입니다. 그렇다면 인공지능(Artificial Intelligence)은 무엇일까요? 사람의 지능을 필요로 하는 task를 스스로 알아서 해결할 ..