Regularization 중 L1, L2 norm penalty에 대해

Regularization이 뭘까?

심층학습에서 regularization은 ‘일반화’ 라는 의미로 자주 쓰인다. training 된 모델이 training data set 에서는 accuracy가 좋지만 validation data set에 대해서는 그만큼 accuracy 가 좋지 않은 경우를 말한다. 이는 모델이 training data set 을 가지고 훈련할 때 일반적으로 필요없는 세세한 부분까지 학습했기 때문에 다른 새로운 data set 을 예측할 때 제대로 맞추지 못하는 경우로 해석할 수 있다. overfitting ( 과대적합 ) 이라는 현상이다.

over fittingì ëí ì´ë¯¸ì§ ê²ìê²°ê³¼

이때 우리가 만든 모델은 바꾸지 않으면서 뭔가 일반화를 잘 시킬 수 있는 요소를 제어해보겠다는 것이 이 norm penalty Regularization의 아이디어다. 주어진 data 와 label data를 바꾸지 않고 우리가 손댈 수 있는 요소, parameter (weight들) 들을 조절해보겠다는 것이다. 이 parameter들을 L1, L2 norm(거리 개념이 우리에게 익숙해서 사용하는 거 같음) 같은 penalty항을 측정기준으로 어떤 상수 k 값 보다 작아야 한다는 제약 조건을 제시하면서 parameter들을 조절할 수 있다. penalty term을 $\Omega (\Theta )$ 로 표기하면 $\Omega (\Theta )$ < $k$ 이라는 term으로 써질 수 있다. 그럼 기존의 목적함수 ( $argminJ(\Theta ;X,y)$ : $X,y$ 로 매개 변수화된 $\Theta$ 의 함수를 칭하는 표기 ) 에서 $\Omega (\Theta )$ < $k$ 가 추가 된

$\left\{\begin{matrix} argmin J(\Theta ;X,y)\\ \Omega (\Theta ) < k \end{matrix}\right.$ 을 만족하는 $\Theta$ 를 찾는 것으로 정의할 수 있다.

제약식이 주어진 문제를 푸는 것은 까다롭기 때문에 이를 라그랑주 승수법을 사용하여 제약이 없는 문제로 변환할 수 있다. $\Omega (\Theta ) - k < 0$ 를 라그랑주 승수를 입혀서 $\widetilde{J}(\Theta ;X,y) = J(\Theta ;X,y) + \alpha (\Omega (\Theta) -k)$ 로 표현 할 수 있다. 이러한 식의 해는( $\pounds (\Theta ,\alpha ) = \widetilde{J}(\Theta ;X,y)$ ) $\Theta ^{*} = \underset{\Theta}{argmin}\: \underset{\alpha, \alpha \geq 0}{max}\pounds(\Theta ,\alpha )$ 와 같이 주어진다. 식을 보면 어떤 임계 값 (제약 영역) $k$ 는 제약이 없는 조건식으로 바꾼 경우 직접적으로 값을 넣을 수 없다. $\alpha$ 를 통해서 이 값을 조절해야 하는데 $\alpha$ 가 크면 $k$ 가 작고 $\alpha$ 가 작으면 $k$ 가 크다. 모든 양의 $\alpha$ 는 $\Omega (\Theta )$ 를 줄어들게 만든다. (이 부분에 대한 증명이 궁금) 이렇게 제약이 있는 식을 없는 식으로 바꾸면서 라그랑주 승수인 $\alpha$ 를 건드리면서 임계 값 $k$ 를 조절하며 일반화를 높히는 것이다.

다른 관점으로 해석하면 $\left\{\begin{matrix} argmin J(\Theta ;X,y)\\ \Omega (\Theta ) < k \end{matrix}\right.$ 과 $\widetilde{J}(\Theta ;X,y) = J(\Theta ;X,y) + \alpha (\Omega (\Theta) -k)$ 은 동치니까 $k$ 만큼의 평행이동으로 최적값에는 영향을 미치지 않는다. 그냥 $\alpha$ 값만을 생각하면 된다.

설명하기 앞서 신경망에서는 각 층의 affine transformation 의 weight 들에만 벌점을 가하고 bias 항에는 regularization을 하지 않는 매개변수 norm penalty $\Omega$ 를 사용하는 것이 일반적이다. 이제부터 벡터 $w$ 는 norm penalty의 영향을 받아야 하는 모든 가중치를 뜻하고 벡터 $\Theta$ 는 그 $w$ 와 regularization 되지 않는 매개변수들을 모두 포함한 모든 매개변수를 뜻한다.

L2 norm regularization

가중치 감쇄(weight decay)라고도 하며 흔히 ridge regression 이라 부른다. 표기를 단순화하기 위해 bias 매개변수는 없다고 가정한다. $\Theta$ = $w$

목적함수는 다음과 같다.

$\hat{J}(w;X,y) = \frac{\alpha }{2 }w^{T}w+J(w;X,y)$

기울기는

$\bigtriangledown _{w}\tilde{J}(w;X,y) = \alpha w + \bigtriangledown _{w}J(w;X,y)$

가중치들을 갱신하는 기울기는

$w \leftarrow w-\epsilon (\alpha w + \bigtriangledown _{w}J(w;X,y))$ 즉 정리하면 $w\leftarrow (1-\epsilon \alpha )w +\epsilon \bigtriangledown _{w}J(w;X,y)$

이 식을 보듯이, 가중치 벡터가 상수 계수에 비례해서 줄어드는 것을 볼 수 있다.

전체훈련 과정을 보기위해

regularization이 되지 않은 훈련 비용이 최소화되는 가중치 값들인 $w^{*}=argmin_{w}J(w)$ 의 부근에서 목적함수를 이차함수로 근사할 경우 ( 실제로 MSE 같은 목적함수를 자주 사용하니까 합리적 ) 근사된 목적함수 $\hat{J}$ 는 다음과 같다.

$\hat{J}(\Theta )= J(w^{*}) + \frac{1}{2}(w-w^{*})^{T}H(w-w^{*})$

여기서 H는 $w^{*}$ 에서 평가된 $J$ 의 Hessian matrix 이다. 이 이차 근사에는 일차항이 기울기가 최소가 되는 점이므로 소멸하여 없다. 또한 2차 함수이므로 H는 양의 준정부호 (극소점) 행렬이다. $\hat{J}$ 가 최소가 되는 기울기는

$\bigtriangledown _{w}\hat{J}(w) =H(w-w^{*})$ = 0 과 같다.

여기에 가중치 감쇄 효과를 보기위해 가중치 감쇄 기울기를 더한 후, $\hat{J}$ 를 정칙화 한 버전의 최소점에 대해 풀어 본다. 극소점에 해당하는 해 $\tilde{w}$ 를 다음과 같이 유도할 수 있다.

$\alpha \tilde{w} + H(\tilde{w}-w^{*}) = 0$

$(H+\alpha I)\tilde{w} = Hw^{*}$

$\tilde{w} = (H+\alpha I)^{-1}Hw^{*}$

$\alpha$ 가 0에 근접함에 따라 $\tilde{w}$ 는 $w^{*}$ 에 가까워 진다. (즉 regularization 효과가 없어지는 것) 한 쪽으로 Hessian matrix $H$ 는 실숫값 대칭행렬이므로 (이차 편미분이 연속인 모든 점에서는 미분 연산자가 가환적이다.) 이것을 분해하면 고윳값을 가지는 대각행렬인 $\Lambda$ 와 정규기저행렬 (고유벡터) $Q$ 를 가지면서 $H$ = $Q\Lambda Q^{T}$ 형태가 된다. (정의에 의해 고윳값은 크기순으로 대각선으로 배치되어 있고 각 고윳값에 해당하는 고유 벡터들이 대응되는 행렬형태로 구성된다.) 이 식을 대입해보면

$\tilde{w} = (Q\Lambda Q^{T} + \alpha I)^{-1}Q\Lambda Q^{T}w^{*}$

$=[Q(\Lambda +\alpha I)Q^{T}]^{-1}Q\Lambda Q^{T}w^{*}$

$=Q(\Lambda +\alpha I)^{-1}\Lambda Q^{T}w^{*}$

가중치 감쇄항은 $H$ 의 정의된 축들을 따라 재비례(rescaling)하는 효과를 낸다. $w^{*}$ 의 성분 중 $H$ 의 $i$ 번째 고유벡터 방향의 성분은 $\frac{\lambda_{i}}{\lambda_{i}+\alpha }$ 를 계수로 해서 비례된다. $\lambda_{i} > \alpha$ 인 방향들에 대해서는 regularization의 효과가 비교적 작다. $\lambda_{i} < \alpha$ 에 대해서는 크기가 0에 가까워질 정도로 현저하게 줄어든다. 매개변수들이 목적함수의 감소에 현저하게 기여하는 방향들만 비교적 원래대로 유지된다. (고윳값이 작은 성분은 현저히 줄어든다.) 목적함수의 감소에 기여하지 않는 방향들에서는 Hessian matrix의 고윳값이 작은데, 이는 그 방향으로 이동해도 기울기가 현저하게 증가하지는 않음을 뜻한다. 아래 그림은 L2 regularization을 기하적으로 나타낸 것이다.

l2 regularizationì ëí ì´ë¯¸ì§ ê²ìê²°ê³¼

실제로 머신러닝에 적용한 하나의 예시로 MSE(mean squared error)를 목적함수로 취했을 때 L2 regularization을 적용 했을 때를 알아본다. L2 penalty 항이 추가된 목적함수는

$(Xw-y)^{T}(Xw -y) +\frac{1}{2}\alpha w^{T}w$

이에 따라 정규방정식의 해로 표현하면

$w=(X^{T}X +\alpha I)^{-1}X^{T}y$

통계적 관점으로 보면 $X$ 가 $X=X-E[X]$ 로 전처리가 되어 있으면 $X^{T}X$ 는 공분산 행렬 $\frac{1}{m}X^{T}X$ 에 비례한다. 즉 $(X^{T}X+\alpha I)^{-1}$ term은 공분산 행렬 중에서도 대각행렬 (분산에 해당하는) 에 $\alpha$ 가 더해지는 것이다. 이는 분산을 더 높다고 느끼게 만든다.

$var(X) = (X^{T}X+\alpha I)^{-1}X^{T}yy^{T}X(X^{T}X+\alpha I)^{-1T}$

즉 bias(편향 추정량) 를 좀 주면서 variance 를 줄인다는 해석이다.

L1 norm regularization

매개변수 $w$ 에 대한 L1 regularization 은 다음과 같이 정의된다.

$\Omega (\Theta )=\, \parallel w\parallel _{1}\, =\, \underset{i }{\sum}\mid w_{i}\mid$

개별 매개변수들의 절대값들의 합이다. L1 regularization 또한 목적함수 $\tilde{J}(w;X,y)$ 는 다음과 같이 주어진다.

$\tilde{J}(w;X,y) = \alpha \parallel w\parallel _{1} + J(w;X,y)$

그리고 이 목적함수의 기울기 (subgradient : 절댓값은 0에서 미분이 되지 않는데 subgradient를 사용하여 부호를 표시하여 미분이 가능하게 끔 해준다.) 는

$\bigtriangledown _{w}\tilde{J}(w;X,y) = \alpha sign(w)+\bigtriangledown _{w}J(w;X,y)$

여기서 $sign(w)$ 는 $w$ 의 성분별 부호 ( 양수면 1, 음수이면 -1 ) 이다. 부호가 양수거나 음수인 $\alpha$ 상수에 비례한다. 위와 마찬가지로 목적함수를 2차함수로 표현해본다. 복잡한 목적함수이면 절단된 테일러 급수로 간주하여 나타냈다고 보자. 그 목적함수의 기울기는 다음과 같다.

$\bigtriangledown _{w}\hat{J}(w) =H(w-w^{*})$ $H$ 는 Hessian matrix.

완전히 일반적인 Hessian matrix 에서는 L1 penalty 를 나타내는 깔끔한 대수식이 반드시 존재한다는 보장이 없다.(미분이 안되기 때문에 대칭행렬이 된다는 조건이 만족되지 않는다.) 그런 보장을 얻기 위해 Hessian matrix가 반드시 대각행렬이어야 한다고 가정한다.

$H=diag([H_{1,1},...,H_{n,n}]) \: \, and \, \, H_{i,i}> 0$

data를 PCA(주성분 분석)을 통해서 전처리를 하면 대각행렬을 얻을 수 있다.(이에 대한 코딩은 나중에 해보기로). L1 regularization 이 더해진 목적함수의 이차근사를 매개변수들에 관한 하나의 합으로 분해할 수 있다. 원소별로 나타낸 식이다.

$\tilde{J}(w;X,y)=J(w^{*};X,y)+\underset{i}{\sum} [\frac{1}{2}H_{i,i}(w_{i}-w_{i}^{*})^{2} +\alpha \mid w_{i}\mid]$

이 목적함수를 최적하는 문제에는 해석적 해(각 차원 i 마다 하나씩) 가 존재한다. 그 해의 형식은 다음과 같다.

$w_{i}=sign(w_{i}^{*})max\left \{ \mid w_{i}^{*}\mid-\frac{\alpha }{H_{i,i}},0 \right \}$

1.모든 $i$ 에대해 $w_{i}^{*} > 0$ 인 상황을 보면 가능한 결과는 두 가지다.

$w_{i}^{*} \leq \frac{\alpha }{H_{i,i}}$ 일 때, $w_{i}$ 의 최적값은 $w_{i}$ = 0 이다. 이는 기존 $J(w;X,y)$ 의 기여가 L1 regularization 에 의해 크게 증가해서 $w_{i}$ 의 값이 0 쪽으로 밀렸기 때문이다.
$w_{i}^{*} > \frac{\alpha }{H_{i,i}}$ 일 때는 regularization 이 $w_{i}$ 의 최적값을 0 쪽으로 완전히 보내지 않는다. 최적값을 $\frac{\alpha }{H_{i,i}}$ 만큼의 거리만 이동시킨다.

2.모든 $i$ 에대해 $w_{i}^{*}< 0$ 인 상황도 가능한 결과는 두 가지다.

$w_{i}^{*} \leq \frac{\alpha }{H_{i,i}}$ 일 때, $w_{i}$ 의 최적값은 $w_{i}$ = 0 이다.
$w_{i}^{*} > \frac{\alpha }{H_{i,i}}$ 일 때는 $\frac{\alpha }{H_{i,i}}$ 만큼의 거리만 이동시킨다.

L1 regularization 을 도입한 목적함수의 최적해(Hessian matrix $H$ 가 대각행렬이자 양의 정부호라는 가정)는

$\tilde{w_{i}}=\frac{H_{i,i}}{H_{i,i}+\alpha }w_{i}^{*}$ 라는 방정식을 얻을 수 있다.만일 $w_{i}^{*}$ 가 0 이 아니면 $\tilde{w}_{i}^{}$ 역시 0 이 아니다. 이는 L2 regularization 에서는 매개변수들이 희소해지지 않지만 L1 regularization 에서는 $\alpha$ 가 충분히 크다면 매개변수들이 희소해질 수 있음을 보여준다. 그래서 L1 을 특징 선택 (feature selection) 을 위한 하나의 메커니즘으로 활용한다. 특징 선택은 사용 가능한 특징을 추출해냄으로써 기계 학습 문제를 단순화할 수 있다.

cross – entropy 같은 우리가 자주 사용하는 목적함수도 convex function의 정의에 따라 이계도함수 > 0 위의 식을 만족한다.

그냥 만든 테일러 급수 근사

exp(x)를 테일러 급수로 만든 코드 :

print(np.exp(2))

def exp(x,n=2):
    result = 1.0
    n_factorial = 1.0
    for i in np.arange(1,n+1):
        float(i)
        n_factorial *= i
        out = (1.0 / n_factorial) * x**i
        result += out
    return result

print(np.exp(2))

def exp(x,n=2):

result = 1.0

n_factorial = 1.0

for i in np.arange(1,n+1):

float(i)

n_factorial *= i

out = (1.0 / n_factorial) * x**i

result += out

return result

exp(2) 를

2차 다항식으로 근사 시켰을 때:

5차 다항식으로 근사 시켰을 때:

10차 다항식으로 근사 시켰을 때:

References : 심층학습 (이안 굿펠로, 요슈아 벤지오, 에런 쿠빌) 저

Regularization 중 L1, L2 norm penalty에 대해

Regularization이 뭘까?

L2 norm regularization

L1 norm regularization

Published by gjtrj55

답글 남기기 답글 취소하기