본문 바로가기
IT/통계

선형 회귀 분석 예시로 쉽게 이해하기

by 모던네이쳐 2020. 9. 30.
728x90

 선형 회귀분석은 어떤 인자 X와 인자 Y의 관계를 예측하기 위해 사용된다. 예를 들어 광고비 X와 판매 수익 Y에 대한 데이터를 사용하여 선형 회귀모형을 만들었다면 추후 광고비 $x$금액을 투자하였을 때 기대되는 판매 수익 $\hat{y}$을 예측할 수 있다. 하지만 이는 상관관계를 설명할 뿐이지 인과관계를 설명하지는 못한다는 점에서 주의해야 한다. 즉 TV광고비를 늘렸기 때문에 판매 수익이 증가하였는지 또는 판매수익이 늘어남에 따라 회사에서 TV광고비에 투자를 많이 하였는지 무엇이 원인인지는 설명하지 못한다. 

 

Linear regression

 

단순 선형 회귀모형

독립변수 X와 종속변수 Y에 대하여 다음 관계식이 성립한다고 가정한다.

 

$Y = \alpha + \beta X + \varepsilon$

 

 여기서 오차 $\varepsilon$는 $N[0, \sigma^2]$를 따른다고 가정하며 랜덤 하게 발생함으로 모델을 최적화하더라도 오차를 줄일 수 없다고 본다. $\alpha$와 $\beta$는 회귀 계수로 우리가 구하고자 하는 상수이다. 또한 위 식에 따라 $Y \sim N[\alpha + \beta X , \varepsilon]$의 분포를 가진 확률변수로 표현할 수 있음을 알 수 있다.

 

 

회귀계수의 추정

 절편 계수 $\alpha$: x=0일 때 y의 기댓값을 의미한다.

 기울기 계수 $\beta$: x가 한 단위 증가할 때 변화하는 y의 기댓값 크기를 의미한다.

 미지의 모수 $\alpha, \beta$를 추정하기 위하여 주어진 n개의 표본 관찰치 $(x_i, y_i)$를 사용한다. 미지의 모수를 사용하여 추정된 y의 추정치는 다음과 같이 표현한다.

 

$\hat{y} = \hat{\alpha} + \hat{\beta}x$

 

 

최소 제곱 법(Least squares)

 실제 값 $y_i$와 회귀모델로 추정된 값 $\hat{y_i}$간의 수직거리를 제곱하여 더한 값이 최소가 되도록 하는 미지의 모수 $\alpha, \beta$를 구하는 방법이다.

 

$SS(\hat{\alpha},\hat{\beta}) = \sum_{i=1}^n(y_i-\hat{y_i})^2 = \sum_{i=1}^n(y_i-\hat{\alpha}-\hat{\beta}x_i)^2$

 

Least squares

 

최소 제곱 추정량 $\hat{\alpha}, \hat{\beta}$ 도출

 단순 선형 회귀모형의 추정량은 다음과 같이 정리된다.

 

$\hat{\alpha} = \bar{y}-\hat{\beta}\bar{x}$

$\hat{\beta} = \frac{\sum_{i=1}^n x_i(y_i-\bar{y})}{\sum_{i=1}^n x_i(x_i-\bar{y})}$

 

주어진 n개의 표본 $(x_i, y_i)$데이터를 사용하여 위 식에 대입하게 되면 표본을 추정하는 단순 선형 회귀 방정식을 구할 수 있게 된다.

 

 

선형 회귀모형 예시

 한 빌라에 거주하는 자녀의 나이를 $x_i$, 자녀의 조부모 나이를 $y_i$로 두고 선형 회귀 방정식을 구하려고 한다. 데이터는 다음과 같이 주어졌다고 한다. (나열된 순서대로 쌍을 이룸)

 자녀의 나이: [1,2,3,5,6,7,8,9,10,12,13,14,15,16,18,19,21,22]

 자녀의 조부모 나이: [62,45,50,60,50,55,60,65,70,75,80,76,68,79,70,89,79,82]

 데이터의 평균을 먼저 구한 뒤, 위 공식에 대입하면 단순 선형 회귀모형을 구할 수 있다.

 

 $\bar{x} = 11.17, \bar{y} = 67.5$

 $\hat{\alpha} = 49.21, \hat{\beta} = 1.64$

 

 $\hat{y} = 49.21 +1.64x$