로지스틱 회귀(Logistic Regression)

1. 정의

  • 두 가지 이상의 범주 중 하나에 속할 확률을 예측하는 데 사용되는 통계 및 머신러닝 모델이다.
  • 주로 예/아니오, 합격/불합격, 정상/비정상과 같은 이진 분류 문제에 활용된다.
  • 입력 변수와 목표 변수 간의 관계를 직선이 아닌 S자 형태의 시그모이드(Sigmoid) 함수를 사용하여 모델링한다.
  • 시그모이드 함수를 통해 얻은 확률 값이 특정 임계값(일반적으로 0.5)을 넘으면 한쪽 범주로, 넘지 않으면 다른 범주로 분류한다.

 

 

2. 특징

(1) 장점

  • 해석 용이성: 각 가중치의 값을 통해 어떤 변수가 분류에 더 큰 영향을 미치는지 직관적으로 이해할 수 있다.
  • 간단하고 빠름: 모델의 구조가 단순하여 학습 속도가 빠르고, 계산 비용이 적다.
  • 확률적 예측: 단순히 분류 결과만 제공하는 것이 아니라, 해당 분류에 대한 확률 값을 제공하여 예측의 불확실성을 파악할 수 있다.

(2) 단점

  • 선형성 가정: 입력 변수와 로짓(log-odds) 사이의 관계가 선형이라는 가정을 전제로 하므로, 복잡한 비선형 관계를 가진 데이터에는 성능이 떨어질 수 있다.
  • 이상치에 민감: 선형 모델의 특성상 이상치(outlier)의 영향을 많이 받을 수 있다.
  • 다중 분류 문제: 원래 이진 분류에 최적화된 모델이므로, 3개 이상의 범주를 분류하려면 '일대다(One-vs-Rest)' 방식 등 추가적인 전략이 필요하다.

 

3. 로지스틱 회귀 종류

(1) 이항 로지스틱 회귀

  • '예/아니오'나 '0/1'과 같이 두 가지 결과만 가능한 이진 분류 문제에 사용된다.
  • 로지스틱 함수를 사용해 0과 1 사이의 값을 계산한 후, 가장 가까운 정수로 반올림/반내림하여 최종적으로 이진 결과를 반환한다.

(2) 다항 로지스틱 회귀 

  • 세 가지 이상의 유한한 결과를 예측하는 문제에 사용된다.
  • 0과 1 사이의 연속된 데이터를 가능한 가장 가까운 결과 값으로 그룹화하여 분석한다.
  • 예를 들어, 학생 성적 상승률을 25%, 50%, 75%, 100% 등으로 분류하는 경우에 적용될 수 있습니다.

(3) 서수 로지스틱 회귀

  • '순서형 로짓 모델'이라고도 불리며, 결과가 순위를 나타내는 문제를 해결하는 특수한 유형의 다항 회귀이다.
  • 예를 들어 고객 만족도를 '나쁨', '양호', '좋음', '우수'와 같은 순서가 있는 등급으로 예측할 때 사용된다.

 

 

4. 선형회귀 vs 로지스틱 회귀 비교

 

구분 선형회귀 (Linear Regression)  로지스틱 회귀 (Logistic Regression)
종속변수 유형 연속형 변수 (실수값, 예: 매출액, 온도) 범주형 변수 (0/1, 다중 클래스)
출력값 범위 −∞∼+∞ (제한 없음) 0 ~ 1 확률 값
적용 목적 예측(Regression, 추세 분석) 분류(Classification)
적용 사례 매출 예측, 성장률 추정, 온도 변화 분석 질병 유무, 대출 연체 여부, 스팸 분류

 

5. 결론

  • 로지스틱 회귀는 확률적 해석이 가능한 분류 알고리즘으로, 단순성·해석 용이성이 장점이 있다.
  • 데이터의 비선형적 복잡성을 다루기 위해서는 의사결정트리, SVM, 신경망 등 다른 기법과 병행 고려 필요하다.

 

 

+ Recent posts