선형회귀(Linear Regression)
1. 정의
- 통계적 기법으로, 하나 이상의 독립 변수(설명 변수, X)와 종속 변수(목표 변수, Y) 사이의 선형 관계를 모델링하는 데 사용된다.
- 선형회귀의 목적은 주어진 데이터에 가장 잘 맞는 직선(회귀선)을 찾는 것이다.
-

- 선형회귀의 종류
- 단순 선형회귀: 하나의 독립 변수를 사용하여 종속 변수를 예측한다.
- 다중 선형회귀: 두 개 이상의 독립 변수를 사용하여 종속 변수를 예측한다. 이 경우, 방정식은 아래와 같이 확장된다.

2. 선형회귀의 작동 원리
- 선형회귀는 최소제곱법(Ordinary Least Squares, OLS)을 사용하여 최적의 회귀선을 찾는다.
※ 최소제곱법 : 실제 데이터 값과 회귀선이 예측한 값 사이의 오차(잔차) 제곱의 합을 최소화하는 원리 - 이 오차 제곱의 합이 최소가 될 때, 우리는 가장 적합한 회귀선을 찾았다고 판단한다.
3. 단순 선형회귀 예측 절차
| 단계 | 설명 |
| 1. 데이터 준비 및 탐색 | 예측에 필요한 독립 변수와 종속 변수 데이터 준비 두 변수 간의 관계를 산점도로 확인하여 선형성 파악 |
| 2. 모델 구축 | 최소제곱법을 사용하여 데이터에 가장 적합한 직선() 도출 |
| 3. 모델 평가 | 결정계수와 회귀 계수의 p-값을 확인하여 모델의 예측력과 통계적 유의성 검증 |
| 4. 예측 및 해석 | 검증된 회귀 방정식에 새로운 독립 변수 값을 대입하여 종속 변수의 예측값 계산 계산된 예측값이 어떤 의미를 가지는지 이해하고, 실제 값과 다를 수 있음을 고려하여 해석 |
※ 결정계수 : 모델의 예측력이 얼마나 좋은지를 나타내는 지표로, 0과 1 사이의 값을 가지며 1에 가까울수록 모델의 설명력이 높다고 판단
4. 선형회귀 특징
- 장점
- 해석 용이 : 변수와 결과 간 관계 계수를 통해 영향도 분석 가능
- 계산이 간단, 빠른 예측 가능
- 단점
- 독립변수 간 다중공선성(Multicollinearity)에 취약
※ 다중공선성 : 다중 선형 회귀 분석에서 독립 변수들 사이에 강한 상관관계가 나타나는 문제 - 선형 관계를 가정하므로 비선형 데이터에 한계
- 이상치(Outlier)에 민감
- 독립변수 간 다중공선성(Multicollinearity)에 취약
5. 적용 사례
- 비즈니스 : 매출 예측(광고비, 가격, 판촉 활동과 매출 간 관계)
- 공학/과학 : 온도와 압력 관계 분석, 생산량 예측
- 사회과학 : 교육 수준과 소득 간 상관관계 분석
6. 결론
- 선형회귀는 가장 기초적이고 널리 쓰이는 예측 모델링 기법으로, 데이터 분석과 머신러닝의 출발점 역할 수행
- 다만 데이터 특성과 관계를 충분히 검토하여, 필요 시 비선형 회귀, 정규화 회귀(Ridge, Lasso) 등의 보완 기법 활용 필요
'IT Tech.' 카테고리의 다른 글
| (AI) 로지스틱 회귀(Logistic Regression) (0) | 2025.09.10 |
|---|---|
| (AI) AI Transformation과 기업 적용 전략 (1) | 2025.09.08 |
| (소프트웨어공학) IT 프로젝트에서 PM의 갈등 관리 (0) | 2025.09.02 |
| (소프트웨어공학) CMMI (Capability Maturity Model Integration) (0) | 2025.09.02 |
| (보안) TLS 1.2 및 1.3 비교 설명 (0) | 2025.09.01 |