허깅페이스 트렌스포머 활용강좌, M2M100 라이브러리 설치 및 사전학습 모델 불러오기

본 강좌에서는 허깅페이스의 트랜스포머 라이브러리에서 M2M100 모델을 설치하고 사전 학습된 모델을 불러오는 방법에 대해 자세히 알아보겠습니다. M2M100 모델은 다국어 번역을 위한 모델로, 다양한 언어 간의 번역을 지원합니다.

1. 허깅페이스 트랜스포머란?

허깅페이스 트랜스포머(Hugging Face Transformers)는 자연어 처리(NLP) 분야에서 가장 인기있는 라이브러리 중 하나로, 다양한 사전 학습된 모델을 제공하여 개발자들이 쉽게 사용할 수 있게 도와줍니다. 이러한 모델들은 BERT, GPT-2, T5, M2M100 등 여러 가지 NLP 작업에 특별히 설계되었습니다.

2. M2M100 모델 소개

M2M100 모델은 다국어 번역을 위한 모델로, 100개 이상의 언어를 지원합니다. 이 모델의 혁신적인 점은 중간 언어 없이 직접적으로 여러 언어 간의 번역을 수행할 수 있다는 것입니다. 이러한 방식을 통해 번역 품질을 개선할 수 있습니다.

3. M2M100 설치하기

M2M100 모델을 사용하기 위해서는 먼저 허깅페이스 트랜스포머 라이브러리를 설치해야 합니다. 아래의 명령어를 사용하여 라이브러리를 설치할 수 있습니다.

pip install transformers

3.1 설치 확인

설치가 완료되면, 올바르게 설치되었는지 확인하기 위해 아래의 파이썬 코드를 실행합니다.


import transformers
print(transformers.__version__)

4. 사전학습 모델 불러오기

M2M100 모델을 사용하기 위해 설치된 라이브러리에서 사전 학습된 모델을 쉽게 불러올 수 있습니다. 아래의 코드에서는 M2M100 모델을 불러오는 과정을 설명합니다.


from transformers import M2M100ForConditionalGeneration, M2M100Tokenizer

# Tokenizer와 모델 불러오기
model_name = 'facebook/m2m100_418M'
tokenizer = M2M100Tokenizer.from_pretrained(model_name)
model = M2M100ForConditionalGeneration.from_pretrained(model_name)

# 번역할 텍스트
text = "안녕하세요, 이 글에서는 허깅페이스 트랜스포머를 활용한 다국어 번역 모델을 배우겠습니다."

# 입력 언어 설정
tokenizer.src_lang = "ko"
encoded_text = tokenizer(text, return_tensors="pt")

# 번역 실행
translated_tokens = model.generate(**encoded_text, forced_bos_token_id=tokenizer.get_lang_id("en"))
translated_text = tokenizer.batch_decode(translated_tokens, skip_special_tokens=True)[0]
print(translated_text)

4.1 코드 설명

위 코드는 다음과 같은 단계로 이루어져 있습니다:

  1. Tokenizer와 모델 불러오기: M2M100 모델과 해당 모델의 tokenizer를 불러옵니다.
  2. 번역할 텍스트 정의: 번역하고자 하는 한국어 문장을 정의합니다.
  3. 입력 언어 설정: tokenizer의 속성을 설정하여 입력 언어를 한국어로 지정합니다.
  4. 번역 실행: 모델을 통해 번역을 수행하고, 결과를 디코드하여 최종 번역된 텍스트를 출력합니다.

5. 다양한 언어 간 번역

이제 다른 언어로 번역을 시도해 보겠습니다. 예를 들어, 영어에서 프랑스어로 번역해 보겠습니다.


# 번역할 영어 문장
text_en = "Hello, in this article, we will learn about the M2M100 model from Hugging Face Transformers."
tokenizer.src_lang = "en"
encoded_text_en = tokenizer(text_en, return_tensors="pt")

# 프랑스어로 번역
translated_tokens_fr = model.generate(**encoded_text_en, forced_bos_token_id=tokenizer.get_lang_id("fr"))
translated_text_fr = tokenizer.batch_decode(translated_tokens_fr, skip_special_tokens=True)[0]
print(translated_text_fr)

6. 결론

이번 강좌를 통해 허깅페이스 트랜스포머 라이브러리에서 M2M100 모델을 설치하고, 사전 학습된 모델을 불러오는 과정을 배워보았습니다. 다국어 번역을 위한 이 강력한 모델은 다양한 언어 간의 번역 품질을 높이는 데 매우 유용합니다. 앞으로 더 많은 NLP 작업에 대해 탐구해보시길 권장합니다.