로지스틱 회귀(Logistic Regression)
1. 정의
- 두 가지 이상의 범주 중 하나에 속할 확률을 예측하는 데 사용되는 통계 및 머신러닝 모델이다.
- 주로 예/아니오, 합격/불합격, 정상/비정상과 같은 이진 분류 문제에 활용된다.
- 입력 변수와 목표 변수 간의 관계를 직선이 아닌 S자 형태의 시그모이드(Sigmoid) 함수를 사용하여 모델링한다.
- 시그모이드 함수를 통해 얻은 확률 값이 특정 임계값(일반적으로 0.5)을 넘으면 한쪽 범주로, 넘지 않으면 다른 범주로 분류한다.
2. 특징
(1) 장점
- 해석 용이성: 각 가중치의 값을 통해 어떤 변수가 분류에 더 큰 영향을 미치는지 직관적으로 이해할 수 있다.
- 간단하고 빠름: 모델의 구조가 단순하여 학습 속도가 빠르고, 계산 비용이 적다.
- 확률적 예측: 단순히 분류 결과만 제공하는 것이 아니라, 해당 분류에 대한 확률 값을 제공하여 예측의 불확실성을 파악할 수 있다.
(2) 단점
- 선형성 가정: 입력 변수와 로짓(log-odds) 사이의 관계가 선형이라는 가정을 전제로 하므로, 복잡한 비선형 관계를 가진 데이터에는 성능이 떨어질 수 있다.
- 이상치에 민감: 선형 모델의 특성상 이상치(outlier)의 영향을 많이 받을 수 있다.
- 다중 분류 문제: 원래 이진 분류에 최적화된 모델이므로, 3개 이상의 범주를 분류하려면 '일대다(One-vs-Rest)' 방식 등 추가적인 전략이 필요하다.
3. 로지스틱 회귀 종류
(1) 이항 로지스틱 회귀
- '예/아니오'나 '0/1'과 같이 두 가지 결과만 가능한 이진 분류 문제에 사용된다.
- 로지스틱 함수를 사용해 0과 1 사이의 값을 계산한 후, 가장 가까운 정수로 반올림/반내림하여 최종적으로 이진 결과를 반환한다.
(2) 다항 로지스틱 회귀
- 세 가지 이상의 유한한 결과를 예측하는 문제에 사용된다.
- 0과 1 사이의 연속된 데이터를 가능한 가장 가까운 결과 값으로 그룹화하여 분석한다.
- 예를 들어, 학생 성적 상승률을 25%, 50%, 75%, 100% 등으로 분류하는 경우에 적용될 수 있습니다.
(3) 서수 로지스틱 회귀
- '순서형 로짓 모델'이라고도 불리며, 결과가 순위를 나타내는 문제를 해결하는 특수한 유형의 다항 회귀이다.
- 예를 들어 고객 만족도를 '나쁨', '양호', '좋음', '우수'와 같은 순서가 있는 등급으로 예측할 때 사용된다.
4. 선형회귀 vs 로지스틱 회귀 비교
| 구분 | 선형회귀 (Linear Regression) | 로지스틱 회귀 (Logistic Regression) |
| 종속변수 유형 | 연속형 변수 (실수값, 예: 매출액, 온도) | 범주형 변수 (0/1, 다중 클래스) |
| 출력값 범위 | −∞∼+∞ (제한 없음) | 0 ~ 1 확률 값 |
| 적용 목적 | 예측(Regression, 추세 분석) | 분류(Classification) |
| 적용 사례 | 매출 예측, 성장률 추정, 온도 변화 분석 | 질병 유무, 대출 연체 여부, 스팸 분류 |
5. 결론
- 로지스틱 회귀는 확률적 해석이 가능한 분류 알고리즘으로, 단순성·해석 용이성이 장점이 있다.
- 데이터의 비선형적 복잡성을 다루기 위해서는 의사결정트리, SVM, 신경망 등 다른 기법과 병행 고려 필요하다.
'IT Tech.' 카테고리의 다른 글
| (AI) 머신러닝 TPE - 작업(Task) 성능(Performance) 경험(Experience) (0) | 2025.09.13 |
|---|---|
| (소프트웨어공학) 소프트웨어 품질보증 (1) | 2025.09.13 |
| (AI) AI Transformation과 기업 적용 전략 (1) | 2025.09.08 |
| (AI) 선형회귀(Linear Regression) (0) | 2025.09.04 |
| (소프트웨어공학) IT 프로젝트에서 PM의 갈등 관리 (0) | 2025.09.02 |