로지스틱 회귀 분류기


로지스틱 회귀 분석(Logistic Regression)

회귀 분석이란 독립변수와 종속변수 간의 관계를 나타내는 함수를 정의해, 이후의 독립변수에 대한 결과를 예측하는 기법이다. 선형 회귀 분석은 앞서 구한 함수에 입력값에 대한 결과를 계산해내는 방식이나, 로지스틱 회귀는 입력값에 대한 출력값을 여러개의 범주로 나누기 때문에 분류 기법이라 할 수도 있다. 로지스틱 회귀는 일반적으로 이항형 문제(Binomial)에 적용하나, 여러개의 범주가 필요한 경우는 다항 로지스틱 회귀(Multinomial Logistic Regression)기법으로 분류를 진행한다.

 이항형 회귀는 참,거짓 과 같이 분류가 두개로 나누어 지는 문제를 뜻하고, 다항형 회귀는 흐림, 맑음, 비 와 같이 여러개의 범주로 나누는 문제를 뜻한다. 로지스틱 회귀는 선형 회귀와 유사하나 몇가지 다른 점이 존재한다. 로지스틱 회귀는 종속변수의 범위가 [0,1]로 한정되기 때문에 종속변수의 확률 분포가 정규분포가 아닌 이항 분포를 따른다. 독립변수와 종속변수의 관계를 나타내주는 로지스틱 함수는 크게 두가지로 나누어 진다.

  • 시그모이드 곡선 모형(로지스틱 모형) : 

  • 검벨 모형 : 


 독립변수

 독립변수는 연속적인 값을 갖는 연속변수와 이산적인 값을 갖는 이산변수가 존재한다. 성별이나 성인 같은 이산 값의 후보가 두개 이상 존재한다면 one-hot인코딩을 통해 0또는 1의 값을 갖는 임시 변수로 변형하여 회귀를 진행해야 한다. 예를 들어 사람의 혈액형은 4가지 존재하므로(A,B,AB,O) A형인 사람의 혈액형은 one-hot 인코딩을 통하여 (1,0,0,0)이 되는 것이다.

 종속변수

 종속변수 는 일반적으로 베르누이 확률 분포[각주:1]를 따른다. 로 표현되며 의 확률분포를 나타낸다. 독립변수에 대한 조건부 확률은 [각주:2]에 대한 베르누이 분포를 따른다는 뜻이다. 의 기대값은 성공확률 와 같아지게 되는데 기대값이 의미하는 성공횟수의 평균이 곧 성공확률과 같은 의미를 지니므로 가 된다. 종속변수의 확률 질량 함수는 로 나타낼 수 있다.

 로지스틱 함수 유도

 로지스틱 회귀는 선형 회귀 방식을 이용한다. 선형 예측 함수는 로 회귀계수 와 독립변수 의 곱으로 나타낸다. 위를 기준으로 간략히 나타내면 가 된다.

 로지스틱 회귀의 결과값을 성공확률에 대한 오즈비[각주:3]라고 정의한다. 선형 회귀에 의한 선형 예측 함수의 값의 범위는 가 되는 반면, 입력값인 조건부 확률의 값은 [0,1]의 범위 안에 존재한다. 따라서 입력값의 범위가 [0,1]일 때 출력값의 범위가 에 존재하도록 로짓변환을 수행한다. 선형예측 함수와 로지스틱 회귀의 결과값이 동일하다고 가정하면 가 된다. 위 식을 정리하면 이다.


  1. 동전의 앞, 뒤와 같이 두가지 상황만이 나오는 상황을 말한다 [본문으로]
  2. i번 실행했을 때 1이 나올 확률 [본문으로]
  3. 성공확률이 실패확률에 비해 몇배가 높은가 [본문으로]

'파이썬으로 배우는 인공지능' 카테고리의 다른 글

K-평균 알고리즘  (1) 2018.12.19
의사결정 트리(Decision Trees)  (0) 2018.12.17
서포트 벡터 머신(Support Vector Machine)  (1) 2018.12.16
나이브 베이즈 분류기  (1) 2018.11.29
데이터 전처리  (0) 2018.11.22

WRITTEN BY
텐초
딥러닝 관련 논문들과 코드를 완벽분석 합니다

,