딥 러닝을 이용한 자연어 처리, BiLSTM으로 한국어 스팀 리뷰 감성 분류하기

자연어 처리는 딥러닝의 강력한 응용 분야 중 하나로, 특히 사용자가 작성한 리뷰나 댓글의 감성을 분석하는 데에 많이 사용됩니다. 자연어 처리를 통해 우리는 인간의 언어를 기계가 이해하고 해석하도록 할 수 있습니다. 이번 포스트에서는 파이토치를 이용해 BiLSTM (Bidirectional Long Short-Term Memory) 모델을 사용하여 한국어로 작성된 스팀 게임 리뷰의 감성을 분류해 보겠습니다. 이를 통해 딥러닝과 파이토치를 활용해 자연어 데이터를 이해하고 감정 분류 작업에 적용하는 방법을 배울 수 있습니다. 이 포스트는 딥러닝 모델이 어떻게 감정의 맥락을 학습하고 이를 통해 긍정적인지 부정적인지를 파악할 수 있는지에 대한 전반적인 과정을 다룰 것입니다.

프로젝트 개요

스팀에서 수집된 한국어 리뷰 데이터를 대상으로 리뷰가 긍정적인지 부정적인지를 분류하는 프로젝트를 진행합니다. BiLSTM은 양방향으로 문맥을 학습할 수 있는 특징을 가지고 있어, 문장의 앞뒤 맥락을 잘 반영한 감성 분석에 적합합니다. 파이토치를 사용해 데이터를 전처리하고 모델을 구축, 학습 및 평가하는 전체 과정을 다뤄 보겠습니다. 특히 이 프로젝트에서는 리뷰 데이터의 특성을 잘 이해하고, 이를 효과적으로 모델에 적용하는 방법에 대해 깊이 있게 탐구할 것입니다.

1. 데이터 수집 및 전처리

우선 한국어로 작성된 스팀 리뷰 데이터를 준비해야 합니다. 데이터 수집은 직접 크롤링을 하거나 이미 존재하는 공개 데이터셋을 사용할 수 있습니다. 이후 데이터 전처리 과정을 거칩니다. 데이터 전처리는 감성 분석의 성패를 가를 만큼 중요한 단계입니다. 올바르게 전처리된 데이터는 모델의 성능을 극대화할 수 있습니다.

토큰화: 한국어 특성상 형태소 분석이 필요합니다. 이를 위해 KoNLPy나 Okt 같은 한국어 자연어 처리 도구를 사용할 수 있습니다. 리뷰 텍스트를 토큰화하고, 불용어(stop words)를 제거하여 중요한 정보만 남기도록 합니다. 한국어는 조사가 붙거나 단어의 변화가 많아 형태소 분석이 필수적입니다. 이를 통해 의미 있는 단어를 추출하고, 이후 감성 분석에 사용될 수 있도록 데이터를 간결하게 만듭니다.
정수 인코딩 및 패딩: 단어를 숫자로 변환하고, 모델에 입력될 수 있도록 길이를 맞춰주는 작업을 진행합니다. 파이토치의 torchtext 라이브러리나 직접 Tokenizer 클래스를 작성해 이를 구현할 수 있습니다. 정수 인코딩을 통해 단어를 벡터 형태로 표현하고, 리뷰의 길이를 동일하게 맞추기 위해 패딩(padding)을 추가합니다. 이는 모델이 일관된 입력 크기를 받도록 하여 학습을 용이하게 만듭니다.

2. BiLSTM 모델 구현

BiLSTM 모델은 일반 LSTM과 달리, 입력 시퀀스를 양방향으로 처리하여 문장의 앞뒤 맥락을 동시에 학습합니다. 파이토치로 BiLSTM 모델을 구현하는 방법은 다음과 같습니다. BiLSTM은 문장의 앞뒤 문맥을 모두 학습함으로써 단어 간의 관계를 더 깊이 이해할 수 있으며, 이는 감성 분석과 같은 작업에서 특히 중요한 역할을 합니다.

임베딩 레이어: 입력된 단어를 임베딩 벡터로 변환합니다. 임베딩 레이어를 통해 각 단어를 고차원 공간에서 벡터로 표현하고, 단어 간 유사도를 반영합니다. 임베딩 레이어는 모델의 성능에 큰 영향을 미치는 중요한 부분으로, 단어를 수치로 변환하고 단어들 간의 유사도를 반영해 모델이 문맥을 이해할 수 있도록 돕습니다.
BiLSTM 레이어: 양방향 LSTM 레이어를 추가하여 리뷰의 양방향 문맥을 학습합니다. 이를 통해 문장의 앞뒤 의미를 동시에 고려할 수 있습니다. BiLSTM은 문장의 앞과 뒤에서 동시에 학습을 진행하기 때문에 감성 분석에서 문맥을 더 잘 반영할 수 있습니다. 이는 특히 한국어처럼 어순이 유동적인 언어에서 더욱 효과적입니다.
출력 레이어: 감성 분류를 위해 최종 출력층은 시그모이드 함수를 사용하여 긍정 또는 부정의 확률 값을 도출합니다. 이진 분류 문제이기 때문에 시그모이드 함수를 사용해 출력값을 0과 1 사이의 값으로 변환하여 긍정적일 확률과 부정적일 확률을 나타냅니다.

import torch
import torch.nn as nn
import torch.optim as optim

class BiLSTMSentiment(nn.Module):
    def __init__(self, vocab_size, embedding_dim, hidden_dim, output_dim):
        super(BiLSTMSentiment, self).__init__()
        self.embedding = nn.Embedding(vocab_size, embedding_dim)
        self.lstm = nn.LSTM(embedding_dim, hidden_dim, num_layers=1, bidirectional=True, batch_first=True)
        self.fc = nn.Linear(hidden_dim * 2, output_dim)
        self.act = nn.Sigmoid()

    def forward(self, x):
        embedded = self.embedding(x)
        lstm_out, _ = self.lstm(embedded)
        hidden = torch.cat((lstm_out[:, -1, :lstm_out.shape[2]//2], lstm_out[:, 0, lstm_out.shape[2]//2:]), dim=1)
        output = self.fc(hidden)
        return self.act(output)

이 모델은 단어를 임베딩하여 LSTM 네트워크에 입력하고, 최종적으로 양방향 LSTM을 통해 얻은 정보를 결합하여 긍정 혹은 부정의 감정을 예측합니다. LSTM 레이어는 문장의 순차적 특성을 잘 반영할 수 있으며, 양방향성을 통해 문장의 전체적인 의미를 잘 포착할 수 있습니다.

3. 모델 학습

모델 학습에는 옵티마이저와 손실 함수를 정의해야 합니다. 감성 분류 문제이므로 손실 함수로는 Binary Cross-Entropy를 사용하고, 옵티마이저로는 Adam을 사용하는 것이 일반적입니다. 모델 학습 과정에서는 학습 데이터와 검증 데이터를 이용해 모델을 반복적으로 학습시키며, 손실 값을 최소화하도록 조정합니다.

손실 함수 및 옵티마이저 정의:criterion = nn.BCELoss() optimizer = optim.Adam(model.parameters(), lr=0.001)BCELoss는 이진 분류 문제에서 사용되는 손실 함수로, 모델이 예측한 확률과 실제 정답 간의 차이를 줄이는 방향으로 학습을 진행합니다. Adam 옵티마이저는 학습 속도를 조절하고, 가중치를 업데이트하는 데 효과적입니다.
학습 루프: 에포크마다 모델을 학습시키고, 검증 데이터로 평가를 진행합니다. 과적합을 방지하기 위해 Dropout 레이어를 추가하거나 학습 중 Early Stopping을 고려할 수 있습니다. 학습 루프는 데이터를 모델에 입력하고, 예측값과 실제값의 차이를 손실 함수로 계산하여 이를 역전파(backpropagation)하여 모델의 가중치를 조정하는 과정을 반복합니다.

4. 모델 평가 및 테스트

모델이 학습된 후에는 테스트 데이터로 성능을 평가합니다. 정확도, F1 점수와 같은 지표를 사용해 모델의 성능을 측정합니다. 감성 분류 모델에서는 긍정 리뷰를 부정으로 잘못 예측하거나 반대로 부정 리뷰를 긍정으로 잘못 예측하는 경우의 비율을 주의 깊게 살펴봐야 합니다. 이러한 잘못된 예측을 최소화하는 것이 모델의 성능을 높이는 중요한 요소입니다.

정확도 계산:def binary_accuracy(preds, y): rounded_preds = torch.round(preds) correct = (rounded_preds == y).float() acc = correct.sum() / len(correct) return acc정확도는 전체 예측 중에서 맞춘 비율을 의미합니다. 감성 분석에서는 정확도 외에도 Precision, Recall, F1 Score와 같은 지표를 활용해 모델의 성능을 다각도로 평가하는 것이 중요합니다. 특히 F1 Score는 Precision과 Recall의 조화 평균으로, 데이터 불균형이 있을 때 유용한 지표입니다.

5. 결론 및 개선 방향

BiLSTM을 사용한 한국어 리뷰 감성 분류 모델을 통해 텍스트의 맥락을 잘 반영하여 감정 분석을 수행할 수 있었습니다. BiLSTM은 단어의 순서뿐만 아니라 문장의 앞뒤 관계를 모두 고려할 수 있어 감성 분석에서 좋은 성능을 보입니다. 하지만 더 높은 성능을 위해 BERT와 같은 사전 학습된 언어 모델을 사용하는 방법도 고려할 수 있습니다. BERT는 문맥을 더 깊이 이해할 수 있는 모델로, 특히 긴 문장의 복잡한 맥락을 처리하는 데 매우 효과적입니다.

한국어 데이터의 경우 특히 문맥을 잘 이해하는 것이 중요하기 때문에, BiLSTM을 통한 감성 분석 외에도 다양한 모델을 실험해 보는 것이 좋습니다. 예를 들어 Transformer 기반의 모델을 사용하거나, 사전 학습된 임베딩을 활용해 모델의 초기 성능을 높일 수 있습니다. 또한, 데이터 증강(data augmentation)을 통해 학습 데이터의 다양성을 높여 모델의 일반화 능력을 향상시키는 것도 좋은 방법입니다.

이번 프로젝트를 통해 BiLSTM의 동작 방식과 파이토치를 활용한 자연어 처리 파이프라인을 이해할 수 있었기를 바랍니다. 자연어 처리는 매우 흥미로운 분야이며, 실제로 많은 응용 가능성을 가지고 있습니다. 앞으로도 다양한 딥러닝 모델을 한국어 자연어 처리에 응용하는 실험을 이어가 보세요. 감성 분석 외에도 챗봇 개발, 번역, 텍스트 요약 등 여러 가지 흥미로운 주제가 여러분을 기다리고 있습니다!