MNIST 를 이용한 activation function 이해
MNIST 데이터셋을 사용하여 hidden layer 를 1개, 5개, 10개를 주었으며 비교의 대상으로 activation function을 두었다. activation function은 1. 기본 sigmoid 2. 변수1개 sigmoid 3. 변수 각각 sigmoid 4. ReLU 5. Leaky ReLU 총 5개를 비교했다.
결과적으로 ReLU는 He 초기화 값을 갖고 시작하지 않으면 발산해버린다. (발산하는 이유에 대해 고민) 또한 ReLU는 He 초기화 값으로 훈련이 시작되는 과정 중에 loss가 엄청 튀는 구간이 발생한다. 이에 대한 원인도 고찰이 필요하다.
sigmoid function 을 parameter 를 주어 훈련해본다.
- hidden layer 1 개 비교 그래프 : https://github.com/gjtrj55/ML/blob/master/MNIST_h1_compare_graph.ipynb
- hidden layer 5 개 비교 그래프 : https://github.com/gjtrj55/ML/blob/master/MNIST_h5_compare_graph.ipynb
- hidden layer 10 개 비교 그래프 (he 초기화): https://github.com/gjtrj55/ML/blob/master/MNIST_h10_he_compare_graph.ipynb
- hidden layer 10 개 비교 그래프 :https://github.com/gjtrj55/ML/blob/master/MNIST_h10_compare_graph.ipynb