이번 시간에는 여러 개의 Fully-connected layer를 쌓는 것을 코딩해본다.
먼저 아래의 코드를 통해 library 를 importing 함
import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim
from torchvision import datasets, transforms
from torch.autograd import Variable
import os
import matplotlib.pyplot as plt
import numpy as np
또한 아래의 코드를 통해 현재의 pytorch 버전에 대해 확인함
이후 연산할 장치에 대해 선언해야 함
아래와 같이 device를 gpu로 설정함
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
num_gpu = 1
if torch.cuda.device_count() > 1:
num_gpu = torch.cuda.device_count()
print("Let's use", num_gpu, "GPUs!") # 1
print('device', device) # cuda
이후 간단한 MLP (Multi-Layer Perceptron) 모델을 구현함
입력은 MNIST dataset을 사용함
MNIST dataset의 각각의 요소는 (28, 28) 의 shape을 갖고 있기 때문에,
MLP를 통과하기 위해서는 각 요소를 flatten 시켜야 함
즉 reshape 을 사용하여 (28, 28) --> (1, 784)로 변경해야 함
class MnistMLP(nn.Module):
def __init__(self, num_class, drop_prob):
super(MnistMLP, self).__init__()
# input is 28x28
# need for flatten ==> 784
self.dropout = nn.Dropout(p=drop_prob)
self.linear1 = nn.Linear(784, 512)
self.linear2 = nn.Linear(512, 256)
self.linear3 = nn.Linear(256, 10)
self.reduce_layer = nn.Linear(10, num_class)
self.logsoftmax = nn.LogSoftmax(dim=1)
def forward(self, x):
x = x.float()
mlp1 = F.relu(self.linear1(x.view(-1, 784)))
mlp1 = self.dropout(mlp1)
mlp2 = F.relu(self.linear2(mlp1))
mlp2 = self.dropout(mlp2)
mlp3 = F.relu(self.linear3(mlp2))
mlp3 = self.dropout(mlp3)
output = self.reduce_layer(mlp3)
return self.logsoftmax(output)
이후 아래의 코드처럼 모델을 선언하고 gpu에 올림
model = MnistMLP(10, 0.3)
(dropout): Dropout(p=0.3, inplace=False)
(linear1): Linear(in_features=784, out_features=512, bias=True)
(linear2): Linear(in_features=512, out_features=256, bias=True)
(linear3): Linear(in_features=256, out_features=10, bias=True)
(reduce_layer): Linear(in_features=10, out_features=10, bias=True)
(logsoftmax): LogSoftmax(dim=1)
MNIST의 class 개수는 10개 이므로, 첫 번째 인자에 10을 넣었고, dropout은 30%확률로 진행
작성한 모델의 매 layer 마다의 shape은 아래를 통해서 확인할 수 있고,
#model shape
for p in model.parameters():
torch.Size([512, 784])
torch.Size([256, 512])
torch.Size([10, 256])
torch.Size([10, 10])
총 hyperparameter는 아래를 통해 확인 가능함
def count_parameters(model):
return sum(p.numel() for p in model.parameters() if p.requires_grad)
model_hp = count_parameters(model)
print('model"s hyper parameters', model_hp)
model"s hyper parameters 535928
이제 모델 선언은 끝났고, data를 loading 해야 함
아래의 코드를 통해 MNIST dataset을 다운받고, train 및 test로 분할함
batch_size = 128
train_loader = torch.utils.data.DataLoader(datasets.MNIST('data', train=True, download=True, transform=transforms.ToTensor()),batch_size=batch_size, shuffle=True)
print(len(train_loader)) # 118, 512 * 118 = 60000
test_loader = torch.utils.data.DataLoader(datasets.MNIST('data', train=False, transform=transforms.ToTensor()),batch_size=1000)
print(len(test_loader)) # 10, 10 * 1000 = 10000
Optimizer 선언은 아래와 같이 진행하며, 가장 많이 사용되는 Adam을 learning rate 1e-4로 사용
optimizer = optim.Adam(model.parameters(), lr=1e-4)
Training을 진행함 (epoch은 10까지만 진행)
epochs = 10 ### change
total_loss = 0
total_acc = 0
train_loss = []
train_accuracy = []
i = 0
for epoch in range(epochs):
for data, target in train_loader:
data, target = Variable(data), Variable(target)
data = data.to(device)
target = target.to(device)
output = model(data)
loss = F.nll_loss(output, target)
loss.backward() # calc gradients
total_loss += loss
optimizer.step() # update gradients
prediction = output.data.max(1)[1] # first column has actual prob.
accuracy = prediction.eq(target.data).sum()/batch_size*100
total_acc += accuracy
if i % 10 == 0:
print('Epoch: {}\t Train Step: {}\tLoss: {:.3f}\tAccuracy: {:.3f}'.format(epoch+1, i, loss, accuracy))
i += 1
print('Epoch: {} finished'.format(epoch+1))
Training에 대한 loss를 시각화 하기 위해 matplotlib 사용
plt.plot(np.arange(len(train_loss)), train_loss)
plt.plot(np.arange(len(train_accuracy)), train_accuracy)
모델의 실제 성능 평가를 하기 위해 training에 쓰이지 않은 test data로 아래와 같이 평가 진행
with torch.no_grad():
correct = 0
for data, target in test_loader:
data, target = Variable(data), Variable(target)
data = data.to(device)
target = target.to(device)
output = model(data)
prediction = output.data.max(1)[1]
correct += prediction.eq(target.data).sum()
print('\nTest set: Accuracy: {:.2f}%'.format(100. * correct / len(test_loader.dataset)))
#Test set: Accuracy: 96.04%
간단한 MLP 3-layer 만으로도 96%의 성능을 얻었음
