허깅페이스 트렌스포머 활용강좌, 사전학습 모델 불러오기

1. 소개

딥러닝의 발전은 자연어 처리(NLP) 분야에서 특히 눈부신 성과를 이룩해왔습니다. 이러한 발전의 중심에는
사전학습 모델이 있습니다. 허깅페이스(Hugging Face)는 이러한 사전학습 모델을 보다 쉽게 사용할 수 있도록
해주는 강력한 라이브러리인 Transformers를 제공합니다. 본 강좌에서는 허깅페이스의
Transformers 라이브러리를 사용하여 사전학습 모델을 불러오는 방법에 대해 자세히 알아보겠습니다.

2. 허깅페이스 Transformers 라이브러리란?

허깅페이스 Transformers 라이브러리는 다양한 자연어 처리(NLP) 모델을 제공하는 라이브러리로,
BERT, GPT, RoBERTa, T5 등
여러 모델을 포함하고 있습니다. 이 라이브러리를 통해 개발자는 손쉽게 사전학습된 언어 모델을 로드하고
이를 기반으로 다양한 NLP 작업을 수행할 수 있습니다.

3. 환경 설정

시작하기 전에 필요한 라이브러리를 설치해야 합니다. 아래의 명령어를 통해 기본적인 라이브러리를
설치할 수 있습니다.

pip install transformers torch

여기서, transformers는 허깅페이스 라이브러리이며, torch는
PyTorch 프레임워크입니다. PyTorch 대신 TensorFlow를 사용하고 싶다면 TensorFlow를 설치하면 됩니다.

4. 사전학습 모델 불러오기

이제 사전학습된 모델을 불러와 보겠습니다. 예를 들어, BERT 모델을 이용하여
텍스트의 의미를 이해할 수 있습니다. 아래는 Python 코드를 통해 BERT 모델을 불러오는 방법입니다.

from transformers import BertTokenizer, BertModel

# BERT 모델의 토크나이저와 모델을 불러오기
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
model = BertModel.from_pretrained('bert-base-uncased')

# 예제 문장
sentence = "Hugging Face is creating a tool that democratizes AI."

# 문장을 토큰화하여 입력 벡터로 변환
inputs = tokenizer(sentence, return_tensors='pt')
outputs = model(**inputs)

# 출력 결과 확인
print(outputs)

위 코드에서 BertTokenizer 클래스는 입력된 문장을 BERT 모델이 이해할 수 있는
형태로 변환합니다. BertModel 클래스는 실제 모델을 불러오고, 변환된
입력을 모델에 통과시켜 출력을 생성합니다.

5. 출력 결과 분석

위의 코드에서 출력되는 outputs 변수는 두 가지 주요 정보를 포함하고 있습니다:

last_hidden_state: 마지막 은닉 상태(hidden state)로, 각 토큰의 벡터 표현을 보여줍니다.
pooler_output: 입력 시퀀스의 전체를 요약한 벡터로, 주로 분류 작업에 사용됩니다.

각 토큰의 벡터 표현은 자연어 처리를 위한 매우 유용한 정보입니다. 각 토큰에 대해 출력된
은닉 상태는 아래와 같이 접근할 수 있습니다.

# 마지막 은닉 상태 접근
hidden_states = outputs.last_hidden_state
print(hidden_states.shape)  # (배치 크기, 시퀀스 길이, 숨겨진 차원)

6. 다양한 사전학습 모델 사용하기

허깅페이스는 BERT 외에도 여러 다른 모델을 지원합니다. 사용자가 다양한 작업에 적합한
모델을 선택할 수 있도록 여러 모델을 제공합니다. GPT-2, RoBERTa,
T5 등 각 모델의 사용법은 대동소이합니다. 예를 들어, GPT-2 모델을
사용하고자 할 경우, 아래와 같은 방법으로 불러올 수 있습니다.

from transformers import GPT2Tokenizer, GPT2Model

# GPT-2 모델의 토크나이저와 모델을 불러오기
tokenizer = GPT2Tokenizer.from_pretrained('gpt2')
model = GPT2Model.from_pretrained('gpt2')

# 예제 문장
sentence = "Hugging Face has become a leader in NLP."

# 문장을 토큰화하여 입력 벡터로 변환
inputs = tokenizer(sentence, return_tensors='pt')
outputs = model(**inputs)

print(outputs)

7. 직접 모델 학습하기

사전학습된 모델을 가져오는 것뿐만 아니라, 사용자는 자신의 데이터셋에 맞춰 모델을 미세 조정할
수도 있습니다. 이 과정은 아래의 단계를 통해 진행됩니다:

데이터 준비 및 전처리
사전학습된 모델 불러오기
학습을 위한 손실 함수 및 옵티마이저 설정
모델 학습

7.1 데이터 준비 및 전처리

데이터는 CSV 파일 등의 형식으로 준비할 수 있으며, 이를 불러와 전처리하는 일련의 과정이 필요합니다.

import pandas as pd

# 데이터셋 불러오기
data = pd.read_csv('data.csv')
print(data.head())  # 데이터셋의 첫 5행 확인

7.2 사전학습된 모델 불러오기

위에서 설명한 방식으로 모델을 불러오면 됩니다.

7.3 손실 함수 및 옵티마이저 설정

모델 학습을 위해서는 손실 함수와 옵티마이저를 설정해야 합니다. 예를 들면,
AdamW 옵티마이저와 CrossEntropyLoss 손실 함수를 사용할 수 있습니다.

from transformers import AdamW

optimizer = AdamW(model.parameters(), lr=5e-5)  # 학습률 설정
loss_fn = torch.nn.CrossEntropyLoss()

7.4 모델 학습

전처리된 데이터와 설정된 손실 함수 및 옵티마이저를 이용하여 모델을 학습시킬 수 있습니다.
일반적으로 에폭을 설정하고 이를 반복하여 모델을 최적화합니다.

for epoch in range(num_epochs):
    model.train()
    outputs = model(**inputs)  # 모델의 출력
    loss = loss_fn(outputs, labels)  # 손실 계산
    loss.backward()  # 역전파
    optimizer.step()  # 가중치 업데이트
    optimizer.zero_grad()  # 기울기 초기화

8. 결론

본 강좌를 통해 허깅페이스의 Transformers 라이브러리를 활용하여 사전학습 모델을 불러오고,
또 이를 기반으로 다양한 작업을 수행할 수 있는 방법에 대해 알아보았습니다. 이 라이브러리는
자연어 처리 분야에서 강력한 도구가 되며, 특히 일정한 데이터셋과 평소의 손쉬운 API를 통해
모델을 활용할 수 있도록 돕습니다. 이제 여러분은 허깅페이스의 트렌스포머를 통해
자신의 프로젝트에 활용할 수 있는 능력을 갖추었습니다.