허깅페이스 트렌스포머 활용강좌, M2M100 중국어 영어 자동 변역

최근 인공지능의 발달로 자연어 처리 분야에서도 많은 발전이 이루어지고 있습니다. 그중에서도
허깅페이스(Hugging Face)의 트랜스포머(Transformers) 라이브러리는
다양한 언어 모델을 손쉽게 사용할 수 있도록 돕는 도구로 자리 잡았습니다. 본 강좌에서는 허깅페이스를
활용하여 M2M100 모델을 사용해 중국어와 영어 간의 자동 번역을 구현하는 방법에 대해
자세히 설명하고자 합니다.

1. M2M100 모델 소개

M2M100은 다국어 번역을 위한 모델로, 여러 언어 간의 직접 변환을 지원합니다. 이 모델은 ‘다양한
언어’를 포함하여 다국어를 다루는 능력이 뛰어납니다. M2M100은 100개 이상의 언어를 지원하며,
기존의 번역 시스템과 달리 중간 언어를 거치지 않고 직접 번역을 수행할 수 있는 장점이 있습니다.

2. 설치 및 설정

M2M100 모델을 사용하기 위해 우선 허깅페이스 트랜스포머 라이브러리와 관련 종속성을
설치해야 합니다. 아래와 같이 pip 명령어를 사용하여 설치할 수 있습니다.

pip install transformers torch

3. 모델 로드 및 번역 함수 구현

모델을 사용하기 위해서는 먼저 M2M100 모델을 로드해야 합니다. 다음 코드는 모델과 토크나이저를
로드하고, 번역을 수행하는 간단한 함수를 구현한 예제입니다.


from transformers import M2M100ForConditionalGeneration, M2M100Tokenizer

# 모델과 토크나이저 로드
model_name = "facebook/m2m100_418M"
tokenizer = M2M100Tokenizer.from_pretrained(model_name)
model = M2M100ForConditionalGeneration.from_pretrained(model_name)

def translate(text, source_language, target_language):
    tokenizer.src_lang = source_language
    encoded_input = tokenizer(text, return_tensors="pt")
    generated_tokens = model.generate(**encoded_input, forced_bos_token_id=tokenizer.get_lang_id(target_language))
    return tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)[0]

3.1 번역 함수 설명

위 코드는 다음과 같이 작동합니다:

tokenizer.src_lang: 소스 언어를 설정합니다.
tokenizer(): 입력 텍스트를 토크나이즈합니다.
model.generate(): 토크나이즈된 입력을 바탕으로 번역을 수행합니다.
tokenizer.batch_decode(): 생성된 토큰을 디코드하여 번역된 텍스트를 반환합니다.

4. 번역 예제

이제 번역 기능을 테스트해 보겠습니다. 아래 예제는 중국어 문장을 영어로 번역하는 기능을
보여줍니다.


# 번역할 문장
text = "你好，世界！"  # Hello, World!
source_lang = "zh"  # 중국어
target_lang = "en"  # 영어

# 번역 수행
translated_text = translate(text, source_lang, target_lang)
print(f"번역 결과: {translated_text}")

4.1 결과 해석

위의 코드를 실행하면 “Hello, World!”라는 영어 문장이 출력됩니다. M2M100 모델은
상대적으로 복잡한 문장 구조를 가진 언어 간의 번역도 잘 수행할 수 있습니다.

5. 여러 언어 번역 예제

M2M100 모델의 강력한 기능 중 하나는 다수의 언어를 지원한다는 점입니다. 아래 예제에서는
한국어, 프랑스어, 스페인어 등 여러 언어 간 번역을 수행해 보겠습니다.


# 다국어 번역 테스트
samples = [
    {"text": "여러 언어를 지원하는 모델입니다.", "source": "ko", "target": "en"},  # 한국어 to 영어
    {"text": "Bonjour le monde!", "source": "fr", "target": "ko"},  # 프랑스어 to 한국어
    {"text": "¡Hola Mundo!", "source": "es", "target": "ja"},  # 스페인어 to 일본어
]

for sample in samples:
    translated = translate(sample["text"], sample["source"], sample["target"])
    print(f"{sample['text']} ({sample['source']}) -> {translated} ({sample['target']})")

5.1 다국어 번역 결과

위 코드를 실행하면 여러 언어 간의 번역이 출력될 것입니다. 중요한 점은 M2M100 모델이
중간 언어를 거치지 않고도 다양한 언어를 직접 번역할 수 있다는 것입니다.

6. 성능 평가

번역의 품질을 평가하기 위해 BLEU(Bilingual Evaluation Understudy) 점수를 사용할 수 있습니다.
BLEU 점수는 생성된 번역과 참조 번역 간의 유사성을 정량적으로 평가하는 지표입니다.
다음은 BLEU 점수를 계산하는 과정입니다.


from nltk.translate.bleu_score import sentence_bleu

# 참조 번역과 시스템 번역
reference = ["Hello", "World"]
candidate = translated_text.split()

# BLEU 점수 계산
bleu_score = sentence_bleu([reference], candidate)
print(f"BLEU 점수: {bleu_score:.4f}")

6.1 성능 평가 해석

BLEU 점수가 0에 가까울수록 번역이 좋지 않고, 1에 가까울수록 번역의 품질이 좋음을 의미합니다.
여러 언어 간의 번역 성능을 평가하기 위해 다양한 예제와 참조 번역을 사용하여 성능을
분석할 수 있습니다.

7. 결론

허깅페이스의 M2M100 모델은 다국어 번역 분야에서 혁신적인 발전을 이룩한 모델입니다.
본 강좌에서는 M2M100 모델을 활용해 중국어와 영어 간의 자동 번역을 위한 기초적인
예제를 살펴보았습니다. 이 모델은 직접적인 언어 변환이 가능하여, 중간 언어 없이
다양한 언어 간의 번역이 가능합니다.

앞으로 더 많은 언어와 복잡한 문장을 실험해 보면서 이 모델의 성능을 더욱 개선하고
활용할 수 있는 방법들을 찾아보시기 바랍니다. 허깅페이스의 트랜스포머 라이브러리는
다양한 NLP 태스크에 활용 가능하므로, 다양한 프로젝트에 응용해 보세요.