(AI) 로지스틱 회귀(Logistic Regression) :: Continue to Challenge

(AI) 로지스틱 회귀(Logistic Regression)

2025. 9. 10. 21:56

로지스틱 회귀(Logistic Regression)

1. 정의

두 가지 이상의 범주 중 하나에 속할 확률을 예측하는 데 사용되는 통계 및 머신러닝 모델이다.
주로 예/아니오, 합격/불합격, 정상/비정상과 같은 이진 분류 문제에 활용된다.
입력 변수와 목표 변수 간의 관계를 직선이 아닌 S자 형태의 시그모이드(Sigmoid) 함수를 사용하여 모델링한다.
시그모이드 함수를 통해 얻은 확률 값이 특정 임계값(일반적으로 0.5)을 넘으면 한쪽 범주로, 넘지 않으면 다른 범주로 분류한다.

2. 특징

(1) 장점

해석 용이성: 각 가중치의 값을 통해 어떤 변수가 분류에 더 큰 영향을 미치는지 직관적으로 이해할 수 있다.
간단하고 빠름: 모델의 구조가 단순하여 학습 속도가 빠르고, 계산 비용이 적다.
확률적 예측: 단순히 분류 결과만 제공하는 것이 아니라, 해당 분류에 대한 확률 값을 제공하여 예측의 불확실성을 파악할 수 있다.

(2) 단점

선형성 가정: 입력 변수와 로짓(log-odds) 사이의 관계가 선형이라는 가정을 전제로 하므로, 복잡한 비선형 관계를 가진 데이터에는 성능이 떨어질 수 있다.
이상치에 민감: 선형 모델의 특성상 이상치(outlier)의 영향을 많이 받을 수 있다.
다중 분류 문제: 원래 이진 분류에 최적화된 모델이므로, 3개 이상의 범주를 분류하려면 '일대다(One-vs-Rest)' 방식 등 추가적인 전략이 필요하다.

3. 로지스틱 회귀 종류

(1) 이항 로지스틱 회귀

'예/아니오'나 '0/1'과 같이 두 가지 결과만 가능한 이진 분류 문제에 사용된다.
로지스틱 함수를 사용해 0과 1 사이의 값을 계산한 후, 가장 가까운 정수로 반올림/반내림하여 최종적으로 이진 결과를 반환한다.

(2) 다항 로지스틱 회귀

세 가지 이상의 유한한 결과를 예측하는 문제에 사용된다.
0과 1 사이의 연속된 데이터를 가능한 가장 가까운 결과 값으로 그룹화하여 분석한다.
예를 들어, 학생 성적 상승률을 25%, 50%, 75%, 100% 등으로 분류하는 경우에 적용될 수 있습니다.

(3) 서수 로지스틱 회귀

'순서형 로짓 모델'이라고도 불리며, 결과가 순위를 나타내는 문제를 해결하는 특수한 유형의 다항 회귀이다.
예를 들어 고객 만족도를 '나쁨', '양호', '좋음', '우수'와 같은 순서가 있는 등급으로 예측할 때 사용된다.

4. 선형회귀 vs 로지스틱 회귀 비교

구분	선형회귀 (Linear Regression)	로지스틱 회귀 (Logistic Regression)
종속변수 유형	연속형 변수 (실수값, 예: 매출액, 온도)	범주형 변수 (0/1, 다중 클래스)
출력값 범위	−∞∼+∞ (제한 없음)	0 ~ 1 확률 값
적용 목적	예측(Regression, 추세 분석)	분류(Classification)
적용 사례	매출 예측, 성장률 추정, 온도 변화 분석	질병 유무, 대출 연체 여부, 스팸 분류

5. 결론

로지스틱 회귀는 확률적 해석이 가능한 분류 알고리즘으로, 단순성·해석 용이성이 장점이 있다.
데이터의 비선형적 복잡성을 다루기 위해서는 의사결정트리, SVM, 신경망 등 다른 기법과 병행 고려 필요하다.

저작자표시 (새창열림)

'IT Tech.' 카테고리의 다른 글

(AI) 머신러닝 TPE - 작업(Task) 성능(Performance) 경험(Experience) (0)	2025.09.13
(소프트웨어공학) 소프트웨어 품질보증 (1)	2025.09.13
(AI) AI Transformation과 기업 적용 전략 (1)	2025.09.08
(AI) 선형회귀(Linear Regression) (0)	2025.09.04
(소프트웨어공학) IT 프로젝트에서 PM의 갈등 관리 (0)	2025.09.02

+ Recent posts

Powered by Tistory, Designed by wallel

티스토리툴바