5장: SVM(서포트 벡터 머신) (p.201)

Support Vector Machine

이번 part에선 신경망이 활황을 이루기전 가장 강력한 머신러닝 모델로써 그 원리와 사용방법에 대해 공부하고자 한다.

Support Vector Machine 이론 :

쌍대 형식으로의 표현과 좀더 일반화 시킨 방법인 소프트 마진 방법, 마지막으로 비선형 분류(kernel trick 등) 의 이론은 나중에 더 공부해보기로.

Support Vector Machine 개념

선형 SVM 분류

ìí¬í¸ë²¡í°ë¨¸ì ì ëí ì´ë¯¸ì§ ê²ìê²°ê³¼

데이터들의 집합을 가장 잘 선형적으로 분리해보고자 하는 아이디어에서 시작하여 서포트 벡터들을 기준으로 margin이 최대가 되는 도로를 구하는 것이다. (서포트 벡터 주위에 다른 데이터들이 생겨도 잘 분류하기 위해서)

1.hard margin classification

ìí¬í¸ë²¡í°ë¨¸ì ì ëí ì´ë¯¸ì§ ê²ìê²°ê³¼

모든 샘플이 잘 몰려 있어서 구분이 이상치없이 잘 분류되어 있는 경우를 말한다. 하지만 두 가지 문제점이 존재하는데 첫 째, 데이터가 선형적으로 구분될 수 있어야 제대로 작동하며, 둘 째, 이상치에 민감하다.

2.Soft margin classification

위의 문제를 피하기 위해 좀 더 유연한 모델이다. (margin 폭을 가능한 한 넓게 유지하는 것과 margin violation(마진 오류) 사이에 적절한 균형을 잡아야 한다. ) 사이킷 런의 SVM 모델에서는 이를 C 하이퍼파라미터로 조절할 수 있다. C 값을 줄이면 도로의 폭이 넓어지지만 마진 오류도 커진다.

ì´ìì¹ì ë¯¼ê°í ë§ì§ì ëí ì´ë¯¸ì§ ê²ìê²°ê³¼

(SVM 모델이 과대적합이라면 C를 감소시켜 모델을 규제할 수 있다.)

비선형 SVM 분류

~~자세히 다루지 않고 조금만 개념맛보기~~

선형적으로 분류할 수 없는 데이터셋을 다루는 한 가지 방법으론 다항 특성과 같은 특성을 더 추가하는 것이 있다.

다항 특성을 사용한 선형 SVM 분류기

#비선형 SVM 분류
X,y = make_moons(n_samples=100, noise=0.15, random_state=42)

polynomial_svm_clf = Pipeline([
    ("poly_features", PolynomialFeatures(degree=3)),
    ("scaler", StandardScaler()),
    ("svm_clf", LinearSVC(C=10, loss="hinge"))
])

polynomial_svm_clf.fit(X,y)

def plot_dataset(X, y, axes):
    plt.plot(X[:, 0][y==0], X[:, 1][y==0], "bs")
    plt.plot(X[:, 0][y==1], X[:, 1][y==1], "g^")
    plt.axis(axes)
    plt.grid(True, which='both')
    plt.xlabel(r"$x_1$", fontsize=20)
    plt.ylabel(r"$x_2$", fontsize=20, rotation=0)

def plot_predictions(clf, axes):
    x0s = np.linspace(axes[0], axes[1], 100)
    x1s = np.linspace(axes[2], axes[3], 100)
    x0, x1 = np.meshgrid(x0s, x1s)
    X = np.c_[x0.ravel(), x1.ravel()]
    y_pred = clf.predict(X).reshape(x0.shape)
    y_decision = clf.decision_function(X).reshape(x0.shape)
    plt.contourf(x0, x1, y_pred, cmap=plt.cm.brg, alpha=0.2)
    plt.contourf(x0, x1, y_decision, cmap=plt.cm.brg, alpha=0.1)

plot_predictions(polynomial_svm_clf, [-1.5, 2.5, -1, 1.5])
plot_dataset(X, y, [-1.5, 2.5, -1, 1.5])


plt.show()

#비선형 SVM 분류

X,y = make_moons(n_samples=100, noise=0.15, random_state=42)

polynomial_svm_clf = Pipeline([

("poly_features", PolynomialFeatures(degree=3)),

("scaler", StandardScaler()),

("svm_clf", LinearSVC(C=10, loss="hinge"))

])

polynomial_svm_clf.fit(X,y)

def plot_dataset(X, y, axes):

plt.plot(X[:, 0][y==0], X[:, 1][y==0], "bs")

plt.plot(X[:, 0][y==1], X[:, 1][y==1], "g^")

plt.axis(axes)

plt.grid(True, which='both')

plt.xlabel(r"$x_1$", fontsize=20)

plt.ylabel(r"$x_2$", fontsize=20, rotation=0)

def plot_predictions(clf, axes):

x0s = np.linspace(axes[0], axes[1], 100)

x1s = np.linspace(axes[2], axes[3], 100)

x0, x1 = np.meshgrid(x0s, x1s)

X = np.c_[x0.ravel(), x1.ravel()]

y_pred = clf.predict(X).reshape(x0.shape)

y_decision = clf.decision_function(X).reshape(x0.shape)

plt.contourf(x0, x1, y_pred, cmap=plt.cm.brg, alpha=0.2)

plt.contourf(x0, x1, y_decision, cmap=plt.cm.brg, alpha=0.1)

plot_predictions(polynomial_svm_clf, [-1.5, 2.5, -1, 1.5])

plot_dataset(X, y, [-1.5, 2.5, -1, 1.5])

plt.show()

다항식 커널

다항식 특성을 추가하는 것은 매우 많은 계산량을 필요로 한다. kernel trick 을 사용하면 실제로 특성을 추가하지 않으면서 다항식 특성을 많이 추가한 것과 같은 결과를 얻을 수 있다.

#다항식 커널


poly_kernel_svm_clf = Pipeline([
        ("scaler", StandardScaler()),
        ("svm_clf", SVC(kernel="poly", degree=3, coef0=1, C=5))
    ])
poly_kernel_svm_clf.fit(X, y)

poly100_kernel_svm_clf = Pipeline([
        ("scaler", StandardScaler()),
        ("svm_clf", SVC(kernel="poly", degree=10, coef0=100, C=5))
    ])
poly100_kernel_svm_clf.fit(X, y)

plt.figure(figsize=(11, 4))

plt.subplot(121)
plot_predictions(poly_kernel_svm_clf, [-1.5, 2.5, -1, 1.5])
plot_dataset(X, y, [-1.5, 2.5, -1, 1.5])
plt.title(r"$d=3, r=1, C=5$", fontsize=18)

plt.subplot(122)
plot_predictions(poly100_kernel_svm_clf, [-1.5, 2.5, -1, 1.5])
plot_dataset(X, y, [-1.5, 2.5, -1, 1.5])
plt.title(r"$d=10, r=100, C=5$", fontsize=18)


plt.show()