선형회귀(Linear Regression)

1. 정의

  • 통계적 기법으로,  하나 이상의 독립 변수(설명 변수, X)와 종속 변수(목표 변수, Y) 사이의 선형 관계를 모델링하는 데 사용된다.
  • 선형회귀의 목적은 주어진 데이터에 가장 잘 맞는 직선(회귀선)을 찾는 것이다.
  •  
  • 선형회귀의 종류
    • 단순 선형회귀: 하나의 독립 변수를 사용하여 종속 변수를 예측한다.
    • 다중 선형회귀: 두 개 이상의 독립 변수를 사용하여 종속 변수를 예측한다. 이 경우, 방정식은 아래와 같이 확장된다.

 

2. 선형회귀의 작동 원리

  • 선형회귀는 최소제곱법(Ordinary Least Squares, OLS)을 사용하여 최적의 회귀선을 찾는다.
    ※ 최소제곱법 : 실제 데이터 값과 회귀선이 예측한 값 사이의 오차(잔차) 제곱의 합을 최소화하는 원리
  • 이 오차 제곱의 합이 최소가 될 때, 우리는 가장 적합한 회귀선을 찾았다고 판단한다.

 

3. 단순 선형회귀 예측 절차

단계 설명
1. 데이터 준비 및 탐색 예측에 필요한 독립 변수종속 변수 데이터 준비
두 변수 간의 관계를 산점도로 확인하여 선형성 파악
2. 모델 구축 최소제곱법을 사용하여 데이터에 가장 적합한 직선() 도출
3. 모델 평가 결정계수와 회귀 계수의 p-값을 확인하여 모델의 예측력과 통계적 유의성 검증

4. 예측 및 해석 검증된 회귀 방정식에 새로운 독립 변수 값을 대입하여 종속 변수의 예측값 계산
계산된 예측값이 어떤 의미를 가지는지 이해하고, 실제 값과 다를 수 있음을 고려하여 해석

※ 결정계수 : 모델의 예측력이 얼마나 좋은지를 나타내는 지표로, 0과 1 사이의 값을 가지며 1에 가까울수록 모델의 설명력이 높다고 판단

 

4. 선형회귀 특징

  • 장점
    • 해석 용이 : 변수와 결과 간 관계 계수를 통해 영향도 분석 가능
    • 계산이 간단, 빠른 예측 가능
  • 단점
    • 독립변수 간 다중공선성(Multicollinearity)에 취약
      ※ 다중공선성 : 다중 선형 회귀 분석에서 독립 변수들 사이에 강한 상관관계가 나타나는 문제
    • 선형 관계를 가정하므로 비선형 데이터에 한계
    • 이상치(Outlier)에 민감

 

5. 적용 사례

  • 비즈니스 : 매출 예측(광고비, 가격, 판촉 활동과 매출 간 관계)
  • 공학/과학 : 온도와 압력 관계 분석, 생산량 예측
  • 사회과학 : 교육 수준과 소득 간 상관관계 분석

 

6. 결론

  • 선형회귀는 가장 기초적이고 널리 쓰이는 예측 모델링 기법으로, 데이터 분석과 머신러닝의 출발점 역할 수행
  • 다만 데이터 특성과 관계를 충분히 검토하여, 필요 시 비선형 회귀, 정규화 회귀(Ridge, Lasso) 등의 보완 기법 활용 필요

 

+ Recent posts