허깅페이스 트렌스포머 활용강좌, 토크나이저를 통한 빈도수 합산

딥러닝 분야에서 자연어 처리(NLP)는 매우 중요한 역할을 하고 있으며, 허깅페이스(Hugging Face)는 이러한 분야에서 가장 널리 사용되는 라이브러리 중 하나입니다. 이번 강좌에서는 허깅페이스의 트렌스포머(transformer) 라이브러리 중 토크나이저(tokenizer)를 활용하여 텍스트 데이터를 처리하고, 각 단어의 빈도수를 합산하는 방법에 대해 자세히 알아보겠습니다.

1. 허깅페이스 트렌스포머 라이브러리 소개

허깅페이스 트렌스포머 라이브러리는 다양한 자연어 처리 모델을 쉽게 사용할 수 있도록 지원하는 파이썬 패키지입니다. 이 라이브러리를 통해 사전 훈련된 모델을 로드하고, 데이터 전처리 및 모델 추론을 쉽게 할 수 있습니다.

2. 토크나이저란?

토크나이저는 입력된 텍스트를 토큰(token) 단위로 분리하는 역할을 합니다. 토큰은 단어, 부분 단어, 문자 등 다양한 형태일 수 있으며, 모델이 이해할 수 있는 형태로 데이터를 변환하는 중요한 역할을 합니다. 허깅페이스의 토크나이저는 이러한 작업을 자동으로 처리해 주며, 사전 훈련된 모델과 함께 사용될 수 있습니다.

2.1. 토크나이저의 종류

허깅페이스에서는 다양한 종류의 토크나이저를 지원합니다:

  • BertTokenizer: BERT 모델에 최적화된 토크나이저
  • GPT2Tokenizer: GPT-2 모델에 최적화된 토크나이저
  • RobertaTokenizer: RoBERTa 모델에 최적화된 토크나이저
  • T5Tokenizer: T5 모델에 최적화된 토크나이저

3. 환경 설정

허깅페이스 라이브러리를 사용하기 위해 필요한 패키지를 설치합니다. 아래 명령어를 사용하여 transformerstorch를 설치할 수 있습니다:

pip install transformers torch

4. 토크나이저 사용 예제

이제 토크나이저를 사용하여 입력 텍스트의 빈도수를 계산해보겠습니다. 다음은 코드 예제입니다:

4.1. 코드 예제

from transformers import BertTokenizer
from collections import Counter

# BERT Tokenizer 로드
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')

# 분석할 문장 리스트
sentences = [
    "Hey, how are you?",
    "I am fine, thank you!",
    "How about you?"
]

# 토큰 빈도수 계산
def get_token_frequency(sentences):
    tokens = []
    for sentence in sentences:
        # 문장을 토큰화합니다.
        encoded_tokens = tokenizer.encode(sentence, add_special_tokens=True)
        # 토큰을 리스트에 추가합니다.
        tokens.extend(encoded_tokens)
    
    # 토큰 빈도수 계산
    token_counts = Counter(tokens)
    return token_counts

# 빈도수 출력
token_frequencies = get_token_frequency(sentences)
print(token_frequencies)

4.2. 코드 설명

위의 코드에서는 BertTokenizer를 사용하여 각 문장을 토큰화하고, 각 토큰의 빈도수를 계산합니다.

  • from transformers import BertTokenizer: 허깅페이스에서 제공하는 BERT 토크나이저를 임포트합니다.
  • Counter: 각 토큰의 빈도수를 세기 위해 collections 모듈의 Counter 클래스를 사용합니다.
  • tokenizer.encode(sentence, add_special_tokens=True): 입력 문장을 토큰화하며, BERT와 같은 모델에서 사용할 수 있도록 특별한 토큰을 추가합니다.
  • Counter(tokens): 토큰의 빈도수를 계산하여 반환합니다.

5. 결과 분석

위 코드의 실행 결과는 각 토큰과 빈도수를 포함한 Counter 객체입니다. 이를 통해 각 토큰이 얼마나 자주 등장했는지를 확인할 수 있습니다. 필요한 경우, 특정 토큰의 빈도수만 필터링해서 출력할 수도 있습니다.

5.1. 추가 분석

토큰의 빈도수를 기반으로 추가적으로 다음과 같은 분석 작업을 수행할 수 있습니다:

  • 가장 자주 나타나는 토큰 추출하기
  • 특정 토큰의 비율 계산하기
  • 시각화 도구를 사용하여 빈도수 시각화하기

6. 실습: 문서의 빈도수 분석

이제 조금 더 복잡한 예제로 들어가 보겠습니다. 여러 문장으로 이루어진 문서에서 단어 빈도수를 계산해보겠습니다. 기본적으로 제공되는 여러 문장을 사용하되, 각 문장이 의미 있게 처리될 수 있도록 합쳐보겠습니다.

document = """
    Natural Language Processing (NLP) is a fascinating field.
    It encompasses understanding, interpreting, and generating human language.
    With the help of deep learning and specialized models like BERT and GPT, we can perform various NLP tasks efficiently.
    The Hugging Face library offers pre-trained models that simplify the implementation of NLP.
    """
    
# 문서의 빈도수 계산 및 출력
token_frequencies_document = get_token_frequency([document])
print(token_frequencies_document)

7. 요약 및 결론

이번 강좌에서는 허깅페이스의 토크나이저를 사용하여 문장의 빈도수를 계산하는 방법에 대해 배웠습니다. 이를 통해 자연어 처리 분야에서 텍스트 데이터의 의미를 더 깊이 이해할 수 있는 토대를 마련했습니다.

앞으로는 더 다양한 NLP 기술과 모델을 활용하여 실제 데이터를 분석하고, 통계적 정보를 기반으로 기계 학습 모델을 구축하는 등의 작업을 진행할 수 있습니다.

8. 참고 자료

더 알고 싶으시다면 다음의 자료를 참고하시기 바랍니다:

여러분의 딥러닝 학습 여정에 도움이 되길 바랍니다!

허깅페이스 트렌스포머 활용강좌, 코랩에서 오디오 데이터 확인

최근 인공지능(AI) 및 기계학습(ML) 분야에서 오디오 데이터의 활용도가 상승하고 있습니다. 특히, 허깅페이스(Hugging Face)에서 제공하는 트렌스포머(transformer) 라이브러리는 자연어 처리(NLP) 분야에서 큰 인기를 끌고 있으며, 오디오 데이터 처리 및 변환에도 활용될 수 있습니다.

1. 허깅페이스 트렌스포머 소개

허깅페이스 트렌스포머 라이브러리는 다양한 자연어 처리 모델을 제공하며, 커스터마이즈와 간편한 활용이 특징입니다. 사용자는 사전 훈련된 모델을 다운로드하여 손쉽게 각종 NLP 및 오디오 관련 작업을 수행할 수 있습니다. 이를 통해 각종 데이터에 대한 기계학습 프로세스를 간소화할 수 있습니다.

2. 오디오 데이터의 이해

오디오 데이터는 소리의 파형을 디지털화한 것이며, 주로 WAV, MP3, FLAC 등의 형식으로 저장됩니다. 일반적으로 오디오 데이터는 시간에 따라 연속적인 파형을 가지고 있어, 이를 분석하기 위해 각종 신호 처리 기법이 사용됩니다. 딥러닝 모델은 이러한 오디오 데이터를 입력으로 받아 다양한 작업을 수행할 수 있습니다.

2.1 오디오 데이터의 특징

  • Sampling Rate: 오디오 신호가 초당 샘플링되는 횟수입니다.
  • Duration: 오디오의 길이, 즉 재생 시간이 됩니다.
  • Channels: 오디오의 채널 수로, 모노, 스테레오 등 다양한 형태가 있습니다.

3. Google Colab에서 오디오 데이터 확인하기

이제 Google Colab 환경에서 오디오 데이터를 확인하는 과정에 대해 설명하겠습니다. Google Colab은 클라우드 기반의 Jupyter 노트북 환경으로, Python 코드를 쉽게 실행할 수 있는 플랫폼입니다.

3.1 Google Colab 환경 설정

먼저 Google Colab에 접속하고 새로운 Python 3 노트북을 생성합니다. 그런 다음, 필요한 라이브러리를 설치해야 합니다.

!pip install transformers datasets soundfile

3.2 오디오 데이터 로드 및 확인

이제 오디오 데이터를로드하고 확인하는 코드를 작성해 보겠습니다.
허깅페이스 라이브러리에서 제공하는 사전 훈련된 모델을 사용하여 오디오 데이터를 쉽게 로드할 수 있습니다.

import torch
from transformers import Wav2Vec2ForCTC, Wav2Vec2Tokenizer
from datasets import load_dataset

# 데이터셋 로드
dataset = load_dataset("superb", split="validation")
audio_file = dataset[0]["audio"]["array"]

# 모델 로드
tokenizer = Wav2Vec2Tokenizer.from_pretrained("facebook/wav2vec2-base-960h")
model = Wav2Vec2ForCTC.from_pretrained("facebook/wav2vec2-base-960h")

# 오디오 데이터 길이 확인
print(f"Audio length: {len(audio_file) / 16000} seconds")

위 코드 설명:

  • 허깅페이스에서 제공하는 Wav2Vec2ForCTC 모델과 Wav2Vec2Tokenizer 를 임포트합니다.
  • 오디오 데이터셋을 로드하고, 첫 번째 오디오 파일을 배열로 가져옵니다.
  • 모델을 초기화하고 오디오 데이터의 길이를 확인합니다.

3.3 오디오 데이터 시각화

오디오 데이터의 기본적인 파형을 확인하기 위해 matplotlib를 사용하여 시각화할 수 있습니다.

import matplotlib.pyplot as plt

# 오디오 데이터의 파형 시각화
plt.figure(figsize=(10, 4))
plt.plot(audio_file)
plt.title("Audio Signal Waveform")
plt.xlabel("Samples")
plt.ylabel("Amplitude")
plt.grid()
plt.show()

위 코드 설명:

  • matplotlib를 사용하여 오디오 신호의 파형을 시각화합니다.
  • 파형은 샘플 수에 따른 진폭으로 표현됩니다.

4. 활용 예제: 오디오 파일의 텍스트 변환

이제 로드한 오디오 데이터를 사용하여 텍스트로 변환해 보겠습니다. 다음 코드를 사용하여 오디오 신호를 텍스트로 변환할 수 있습니다.

# 오디오를 텍스트로 변환
inputs = tokenizer(audio_file, return_tensors="pt", padding="longest")
with torch.no_grad():
    logits = model(inputs.input_ids).logits

# 예측한 텍스트로 변환
predicted_ids = torch.argmax(logits, dim=-1)
transcription = tokenizer.batch_decode(predicted_ids)[0]

print("Transcription: ", transcription)

위 코드 설명:

  • 토크나이저를 사용하여 오디오 데이터를 텐서로 변환합니다.
  • 모델을 통해 로짓을 계산하고, 이를 사용하여 예측된 ID를 얻습니다.
  • 예측된 ID를 텍스트로 디코딩합니다.

4.1 결과 확인

위 코드의 출력 오버헤드를 통해 오디오 파일의 텍스트 변환 결과를 확인할 수 있습니다. 이렇게 함으로써, 다양한 음성을 텍스트로 변환하여 자연어 처리에 활용할 수 있습니다.

5. 결론

본 강좌에서는 허깅페이스 트렌스포머를 활용하여 Google Colab에서 오디오 데이터를 확인하고 처리하는 방법에 대해 알아보았습니다.
오디오 데이터는 다양한 분야에서 활용될 수 있으며, 딥러닝 모델을 통해 보다 정교한 분석이 가능해집니다.
이번 강좌를 통해 기본적인 오디오 데이터 처리의 기초를 다지길 바랍니다. 앞으로도 더욱 다양한 기능과 기법을 배워 나가기를 권장합니다.

6. 참고 자료

허깅페이스 트렌스포머 활용강좌, 질의 응답

딥러닝과 자연어 처리(NLP)의 발전은 최근 몇 년 동안 기하급수적으로 증가하였습니다. 그 중심에는 허깅페이스(Hugging Face) 라이브러리가 자리하고 있는데, 이는 트랜스포머(Transformer) 모델을 쉽게 사용할 수 있도록 해줍니다. 이번 강좌에서는 허깅페이스 트랜스포머 모델의 개요, 설치 방법, 기초부터 심화까지 사용해보는 예제를 제공하며, 이를 활용한 질의응답 시스템 구현 방법에 대해 설명하겠습니다.

1. 허깅페이스 트랜스포머란?

허깅페이스 트랜스포머는 다양한 자연어 처리(NLP) 모델을 쉽게 사용할 수 있게 해주는 라이브러리입니다. BERT, GPT-2, T5등의 다양한 모델을 지원하며, 단순한 API 호출로 효과적으로 사용할 수 있습니다. 예를 들어, 다음과 같은 작업들을 수행할 수 있습니다:

  • 텍스트 분류
  • 질의 응답
  • 텍스트 생성
  • 번역

2. 설치 방법

허깅페이스 트랜스포머를 사용하기 위해 먼저 라이브러리를 설치해야 합니다. 아래의 명령어를 사용하여 설치할 수 있습니다:

pip install transformers

3. 기본 코드 예제

3.1. BERT 모델을 이용한 텍스트 분류

먼저, BERT 모델을 사용한 텍스트 분류 예제를 살펴보겠습니다. BERT는 Bidirectional Encoder Representations from Transformers의 줄임말로, 문맥을 이해하는 데 매우 효과적인 모델입니다.

from transformers import BertTokenizer, BertForSequenceClassification
from transformers import Trainer, TrainingArguments
import torch

# 모델과 토크나이저 로드
model_name = 'bert-base-uncased'
tokenizer = BertTokenizer.from_pretrained(model_name)
model = BertForSequenceClassification.from_pretrained(model_name)

# 데이터 준비
texts = ["I love programming", "I hate bugs"]
labels = [1, 0]  # 1: 긍정, 0: 부정
encodings = tokenizer(texts, truncation=True, padding=True, return_tensors='pt')

# 데이터셋 생성
class Dataset(torch.utils.data.Dataset):
    def __init__(self, encodings, labels):
        self.encodings = encodings
        self.labels = labels

    def __getitem__(self, idx):
        item = {key: val[idx] for key, val in self.encodings.items()}
        item['labels'] = torch.tensor(self.labels[idx])
        return item

    def __len__(self):
        return len(self.labels)

dataset = Dataset(encodings, labels)

# 훈련 인자 설정
training_args = TrainingArguments(
    output_dir='./results',
    num_train_epochs=1,
    per_device_train_batch_size=2,
    logging_dir='./logs',
)

# 트레이너 생성
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=dataset,
)

# 모델 훈련
trainer.train()

3.2. 질의 응답 모델 사용하기

이제 허깅페이스의 트랜스포머를 사용하여 질의 응답 시스템을 구현해보겠습니다. 아래의 예제 코드는 사전 훈련된 BERT 모델을 사용하여 질문에 대한 답변을 찾는 방법을 보여줍니다.

from transformers import pipeline

# 질의 응답 파이프라인 로드
qa_pipeline = pipeline('question-answering')

# 질문과 컨텍스트 설정
context = "Hugging Face is creating a tool that democratizes AI."
questions = ["What is Hugging Face creating?", "What does it do?"]

# 질의 응답 수행
for question in questions:
    result = qa_pipeline(question=question, context=context)
    print(f"Question: {question}\nAnswer: {result['answer']}\n")

4. 심화 주제: 사용자 정의 데이터로 모델 훈련하기

허깅페이스는 사용자가 자신의 데이터셋으로 모델을 훈련할 수 있는 유연함을 제공합니다. 예를 들어, 스팸 메시지를 분류하는 모델을 훈련하고 싶다면 아래와 같은 방법으로 진행할 수 있습니다.

4.1. 데이터셋 준비

CSV 파일 형식으로 데이터를 준비했다고 가정합니다. 각 행은 텍스트와 레이블로 구성됩니다.

import pandas as pd

# 데이터 로드
df = pd.read_csv('spam_data.csv')
texts = df['text'].tolist()
labels = df['label'].tolist()

4.2. 모델 훈련

이제 위에서 설명한 방법을 사용하여 모델을 훈련할 수 있습니다.

encodings = tokenizer(texts, truncation=True, padding=True, return_tensors='pt')

# 데이터셋 생성
dataset = Dataset(encodings, labels)

# 훈련 시작
trainer.train()

5. 질의응답

5.1. 허깅페이스 트랜스포머는 무엇인가요?

허깅페이스 트랜스포머는 NLP 모델을 쉽게 사용할 수 있도록 해주는 라이브러리로, 다양한 사전 훈련된 모델을 제공하여 텍스트 처리 작업을 원활하게 수행할 수 있게 해줍니다.

5.2. 어떻게 설치하나요?

pip 명령어를 사용하여 설치할 수 있습니다. 자세한 설치 방법은 본 강좌를 참고하세요.

5.3. 예제 코드에서 오류가 발생했습니다. 어떻게 해결하나요?

오류가 발생했을 경우, 주로 라이브러리 버전이나 데이터 형식 문제일 수 있습니다. 오류 메시지를 확인하고 필요에 따라 라이브러리를 업데이트하거나 데이터를 점검해보세요.

5.4. 사용자 정의 데이터로 훈련할 수 있나요?

네, 허깅페이스는 개인의 데이터셋으로 모델을 훈련하는 방법을 제공합니다. 필요한 데이터 형식으로 준비한 후, 위의 훈련 과정을 따르시면 됩니다.

6. 결론

허깅페이스 트랜스포머 라이브러리는 NLP와 딥러닝 애플리케이션을 쉽게 구현할 수 있도록 도와주는 강력한 도구입니다. 이 강좌를 통해 기본적인 사용법과 모델 훈련 방법을 익혔길 바라며, 앞으로도 다양한 프로젝트에 활용해보시기 바랍니다.

7. 참고 자료

허깅페이스 트렌스포머 활용강좌, 정확도

본 강좌에서는 허깅페이스의 트랜스포머 라이브러리를 사용하여 자연어 처리(NLP) 태스크를 수행하는 방법을 설명하고, 모델의 정확도를 평가하는 방법에 대해 다룰 것입니다. 허깅페이스는 다양한 사전 학습(pre-trained) 모델을 제공하여 NLP 작업에서 쉽게 활용할 수 있습니다.

1. 허깅페이스 트랜스포머란?

허깅페이스 트랜스포머 라이브러리는 다양한 최신 NLP 모델을 제공하는 Python 라이브러리입니다. 비지도 학습, 지도 학습을 통해 모델을 훈련시킬 수 있으며, 특히 BERT, GPT, T5 등의 전이 학습 모델을 쉽게 사용할 수 있습니다.

1.1. 주요 특징

  • 사전 학습된 모델 다운로드 방법이 간편하다.
  • PyTorch 및 TensorFlow와 호환된다.
  • 다양한 NLP 태스크를 위한 간단한 API를 제공한다.

2. 환경 구축

코드를 실행하기 위해 필요한 라이브러리를 설치합니다. 아래의 명령어로 트랜스포머 및 관련 라이브러리를 설치합니다:

pip install transformers torch

3. 데이터셋 준비

이제 간단한 감정 분석을 위한 데이터를 준비해보겠습니다. 데이터는 긍정적 및 부정적 리뷰로 구성됩니다.

import pandas as pd

data = {
    "text": ["이 영화는 정말 재미있어요!", "최악의 영화였습니다.", "어마어마한 스토리라인!", "다시는 보고 싶지 않아요."],
    "label": [1, 0, 1, 0]  # 1: 긍정, 0: 부정
}

df = pd.DataFrame(data)
print(df)

4. 모델 불러오기 및 데이터 전처리

허깅페이스 라이브러리를 사용하여 사전 학습된 BERT 모델을 불러오고, 데이터를 전처리합니다.

from transformers import BertTokenizer

tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')

def tokenize_function(examples):
    return tokenizer(examples['text'], padding="max_length", truncation=True)

tokenized_data = df.apply(tokenize_function, axis=1)
print(tokenized_data.head())

5. 모델 훈련

모델을 훈련하기 위해 PyTorch를 사용하여 훈련 루프를 설정하고, 모델을 학습시킵니다.

import torch
from transformers import BertForSequenceClassification
from torch.utils.data import DataLoader, Dataset

class ReviewDataset(Dataset):
    def __init__(self, texts, labels):
        self.texts = texts
        self.labels = labels

    def __len__(self):
        return len(self.texts)

    def __getitem__(self, idx):
        return {
            'input_ids': self.texts[idx]['input_ids'],
            'attention_mask': self.texts[idx]['attention_mask'],
            'labels': torch.tensor(self.labels[idx])
        }

# 데이터셋 생성
dataset = ReviewDataset(tokenized_data.tolist(), df['label'].tolist())
dataloader = DataLoader(dataset, batch_size=2, shuffle=True)

# 모델 불러오기
model = BertForSequenceClassification.from_pretrained('bert-base-uncased', num_labels=2)

# 훈련을 위한 옵티마이저 설정
optimizer = torch.optim.AdamW(model.parameters(), lr=1e-5)

# 모델 훈련
model.train()
for epoch in range(3):  # 에포크 수
    for batch in dataloader:
        optimizer.zero_grad()
        outputs = model(input_ids=batch['input_ids'], attention_mask=batch['attention_mask'], labels=batch['labels'])
        loss = outputs.loss
        loss.backward()
        optimizer.step()

print("모델 훈련 완료!")

6. 정확도 평가

모델의 정확도를 평가하기 위해 테스트 데이터셋을 준비하고, 예측을 수행합니다.

from sklearn.metrics import accuracy_score

# 테스트 데이터셋 (임의로 생성된 예시)
test_data = {
    "text": ["이 영화는 기대 이상이었어요!", "너무 지루했고, 슬픈 이야기였어요."],
    "label": [1, 0]
}
test_df = pd.DataFrame(test_data)
test_tokenized = test_df.apply(tokenize_function, axis=1)

# 예측 수행
model.eval()
predictions = []
with torch.no_grad():
    for test_input in test_tokenized:
        outputs = model(input_ids=test_input['input_ids'], attention_mask=test_input['attention_mask'])
        predictions.append(torch.argmax(outputs.logits, dim=-1).item())

# 정확도 계산
accuracy = accuracy_score(test_df['label'], predictions)
print(f"모델 정확도: {accuracy * 100:.2f}%")

7. 결론

허깅페이스 트랜스포머 라이브러리를 사용하면 자연어 처리(NLP) 태스크를 쉽고 빠르게 수행할 수 있습니다. 특히, 사전 훈련된 모델을 통해 작은 데이터셋에서도 좋은 성능을 얻을 수 있습니다. 정확도를 평가하는 과정과 이를 통해 모델의 성능을 이해하는 것은 딥러닝을 배우는 데 중요한 부분입니다.

8. 참고 자료

허깅페이스 트렌스포머 활용강좌, 정규식 활용 전처리

최근 인공지능 및 머신러닝의 발전으로 많은 분야에서 딥러닝 기술이 활용되고 있습니다. 특히 자연어 처리(NLP) 분야에서는 허깅페이스 트랜스포머 라이브러리를 통해 다양한 모델을 쉽게 사용할 수 있게 되었습니다. 이 강좌에서는 허깅페이스 트랜스포머를 활용한 문서 분류 예제와 함께, 정규식을 사용한 데이터 전처리 기법에 대해 자세히 설명하겠습니다.

1. 허깅페이스 트랜스포머란?

허깅페이스 트랜스포머(Hugging Face Transformers)는 자연어 처리(NLP)에서 주로 사용하는 여러 딥러닝 모델을 제공하는 Python 라이브러리입니다. BERT, GPT-2, T5 등 많은 최신 모델들이 포함되어 있으며, 사용자가 손쉽게 불러와 사용할 수 있도록 설계되었습니다. 이 라이브러리는 파이썬으로 되어 있어 데이터 과학자들과 연구자들이 널리 사용하고 있습니다.

2. 정규식과 전처리의 중요성

정규식(Regular Expression)은 문자열에서 특정 패턴을 찾아내거나 변환할 때 매우 유용한 도구입니다. 데이터를 모델에 입력하기 전에 정규식을 사용하여 불필요한 문자 제거, 패턴 매칭 등을 수행함으로써 데이터의 품질을 향상시킬 수 있습니다. 전처리는 모델의 성능에 직접적인 영향을 미치므로, 충분한 주의가 필요합니다.

3. 환경 설정

먼저, 허깅페이스 트랜스포머 및 필요한 라이브러리를 설치합니다. 아래 명령어를 실행하여 라이브러리를 설치합니다:

pip install transformers pandas re

4. 데이터 준비

이번 예제에서는 감정 분석을 위해 간단한 데이터셋을 사용하겠습니다. 데이터는 긍정과 부정을 나타내는 문장으로 구성되어 있습니다.

import pandas as pd

data = {
    "text": [
        "이 제품은 정말 좋아요!",
        "별로예요. 아주 실망했습니다.",
        "나쁘지 않은 제품이에요.",
        "환불이 되었으면 좋겠습니다.",
        "정말 기대 이상이에요!",
    ],
    "label": [1, 0, 1, 0, 1]  # 1: 긍정, 0: 부정
}

df = pd.DataFrame(data)
print(df)

5. 정규식을 활용한 데이터 전처리

다음으로, 정규식을 사용하여 데이터 전처리를 수행하겠습니다. 예를 들어, 특수 문자나 숫자를 제거하고, 모든 문자를 소문자로 변환하는 작업을 진행합니다.

import re

def preprocess_text(text):
    # 소문자로 변환
    text = text.lower()
    # 특수 문자와 숫자 제거
    text = re.sub(r'[^a-z가-힣\s]', '', text)
    return text

df['cleaned_text'] = df['text'].apply(preprocess_text)
print(df[['text', 'cleaned_text']])

6. 허깅페이스 트랜스포머를 활용한 모델 학습

전처리가 완료된 후, 트랜스포머 모델을 사용하여 감정 분석을 위한 모델을 학습하겠습니다. 아래는 BERT 모델을 사용하는 예제 코드입니다.

from transformers import BertTokenizer, BertForSequenceClassification
from transformers import Trainer, TrainingArguments
import torch
from sklearn.model_selection import train_test_split

# 데이터 분할
X_train, X_test, y_train, y_test = train_test_split(df['cleaned_text'], df['label'], test_size=0.2, random_state=42)

# BERT 토크나이저와 모델 로드
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
model = BertForSequenceClassification.from_pretrained('bert-base-uncased', num_labels=2)

# 데이터 토크나이즈
train_encodings = tokenizer(X_train.tolist(), padding=True, truncation=True, return_tensors='pt')
test_encodings = tokenizer(X_test.tolist(), padding=True, truncation=True, return_tensors='pt')

# PyTorch 데이터셋 클래스 정의
class TextDataset(torch.utils.data.Dataset):
    def __init__(self, encodings, labels):
        self.encodings = encodings
        self.labels = labels

    def __getitem__(self, idx):
        item = {key: torch.tensor(val[idx]) for key, val in self.encodings.items()}
        item['labels'] = torch.tensor(self.labels[idx])
        return item

    def __len__(self):
        return len(self.labels)

# 데이터셋 준비
train_dataset = TextDataset(train_encodings, y_train.tolist())
test_dataset = TextDataset(test_encodings, y_test.tolist())

# 트레이닝 인자 설정
training_args = TrainingArguments(
    output_dir='./results',
    num_train_epochs=3,
    per_device_train_batch_size=4,
    per_device_eval_batch_size=4,
    warmup_steps=500,
    weight_decay=0.01,
    logging_dir='./logs',
)

# 트레이너 정의
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=train_dataset,
    eval_dataset=test_dataset,
)

# 모델 학습
trainer.train()

7. 모델 평가

모델 학습이 완료되면, 평가를 통해 모델의 성능을 확인할 수 있습니다. 정확도를 계산하고, 혼돈행렬을 시각화하여 모델의 성능을 분석합니다.

from sklearn.metrics import accuracy_score, confusion_matrix
import matplotlib.pyplot as plt
import seaborn as sns

# 예측 수행
predictions = trainer.predict(test_dataset)
preds = predictions.predictions.argmax(-1)

# 정확도 계산
accuracy = accuracy_score(y_test, preds)
print(f'Accuracy: {accuracy:.2f}')

# 혼돈 행렬 시각화
cm = confusion_matrix(y_test, preds)
plt.figure(figsize=(8, 6))
sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', xticklabels=['Negative', 'Positive'], yticklabels=['Negative', 'Positive'])
plt.ylabel('Actual')
plt.xlabel('Predicted')
plt.title('Confusion Matrix')
plt.show()

8. 결론

이번 강좌에서는 허깅페이스 트랜스포머 라이브러리를 활용한 기본적인 감정 분석 모델을 구축하는 방법을 설명했습니다. 정규식 전처리를 통해 데이터의 품질을 높이고, 트랜스포머 모델을 사용하여 높은 성능을 발휘할 수 있는 것을 보았습니다. 앞으로도 더욱 다양한 자연어 처리 기술을 활용한 프로젝트를 진행해보시면 좋을 것 같습니다.

감사합니다!