로지스틱 회귀(Logistic Regression)
*본 게시물은 22-1학기 연세대학교 일반대학원 딥러닝을이용한비정형데이터분석(이상엽 교수님) 수업 내용을 정리한 것입니다.
로지스틱 회귀는 회귀 모형 중 분류 문제를 위한 모형입니다. 선형 회귀모형과 전반적인 작동 순서가 비슷하며, 마찬가지로 정답 & 힌트 정보가 모두 포함된 데이터가 필요합니다. 다만 로지스틱 회귀는 비선형 함수라는 점에서 선형 회귀와 차이가 존재합니다.
종속변수가 취하는 값이 0, 1밖에 없으면 binomial logistic regression, 3개 이상이면 multinomial logistic regression이라 구분합니다.
1. 로지스틱 회귀 모형
로지스틱 회귀 모형은 종속변수로 y가 1일 확률 P(y=1|X), y가 0일 확률 P(y=0|X)을 사용합니다. 보편적으로 y가 1일 확률을 기준으로 하기 때문에 y가 0이 될 확률은 1-P(y=1|X)로 표현되기도 합니다. 이 확률값이 0.5를 초과하느냐 아니냐에 따라 라벨을 0 또는 1로 부여합니다. 즉 확률을 문턱값에 비추어 라벨을 부여합니다. 로지스틱을 이름으로 가진 이유는 로지스틱 함수의 cdf가 들어가기 때문입니다(1/(1+e^-z).
이에 따라 로지스틱 회귀와 선형회귀는 약간의 차이가 납니다. 선형 회귀의 파라미터(=기울기; b1x1+b2x2...)는 x가 달라질 때 y가 얼마나 달라지는 지를 봅니다. 반면 로지스틱 회귀는 파라미터가 기울기 역할을 하지 않습니다. 대신, 파라미터가 0보다 클 때 x1의 값이 증가하면서 y가 1이 될 확률은 증가 & 0이 될 확률은 감소하는 것을 나타냅니다. 이에 따라 파라미터 절댓값이 클수록 y가 1이 될 확률에 큰 영향을 미칩니다. 즉 독립변수의 영향력이 높아집니다.
2. 로지스틱 회귀의 비용함수: CE
분류이므로 비용함수는 Cross Entropy를 씁니다.
N은 학습데이터의 수(관측치의 수)입니다. yi은 i 번째 관측치의 실제 관측값, p(yi=1|X)는 관측치가 1이 될 확률입니다. 0이 될 확률은 1이 될 확률을 측정함으로써 간접적으로 측정할 수 있습니다(1-(1이 될 확률)). 비용함수 값을 최소화하는 파라미터를 찾아야 하며, 이를 위해 경사하강법을 사용합니다.
3. 분류 모형의 성능 평가 지표
분류 모형의 성능 평과 지표로는 acuracy, precison, recall, F1을 사용합니다. 이를 계산하기 위해 예측된 종속변수 값에 따른 관측치의 분포를 담은 Confusion Matrix를 사용합니다.