허깅페이스 트렌스포머 활용강좌, M2M100 번역 소스로 중국어 텍스트 준비

작성일: 2023년 10월 10일

1. 서론

최근 인공지능 분야에서 자연어 처리(NLP)는 많은 주목을 받고 있습니다. 특히, 번역 기술은 글로벌 소통을 가능하게 하는 중요한 요소로 자리잡고 있습니다. 이 글에서는 Hugging Face의 Transformers 라이브러리를 활용하여 M2M100 모델을 바탕으로 중국어 텍스트를 준비하고 번역하는 방법에 대해 다룹니다. M2M100 모델은 다양한 언어 간의 번역을 지원하는 다국어 번역 모델로, 특히 중국어와 같은 복잡한 언어를 처리하는 데 강점을 보입니다.

2. M2M100 모델 개요

M2M100 모델은 Facebook AI Research(Facebook AI)에서 개발한 다국어 기계 번역 모델입니다. 이 모델은 100개 이상의 언어를 서로 번역할 수 있도록 설계되었으며, Transformer 아키텍처에 기반합니다. 특별한 점은 M2M100이 특정 언어 쌍에 의존하지 않고, 직접 번역할 수 있다는 것입니다. 즉, 영어를 중재하지 않고도 중국어로 직접 번역할 수 있습니다.

M2M100은 두 가지 주요 구성 요소로 이루어져 있습니다: 인코더와 디코더. 인코더는 입력 문장을 숫자 벡터로 변환하고, 디코더는 이 벡터를 기반으로 출력 문장을 생성합니다. 이 과정은 Transformer 아키텍처를 통해 이루어지며, 인코더-디코더 아키텍처는 기계 번역 시스템에서 주요한 역할을 합니다.

3. 설치 및 준비

이 강좌를 진행하기 위해서는 Python과 몇 가지 필수 라이브러리가 설치되어 있어야 합니다. Hugging Face의 Transformers 라이브러리와 PyTorch를 사용할 것입니다. 다음은 설치 방법입니다:

                
                    pip install transformers torch

위 명령어를 터미널에 입력하여 필요한 라이브러리를 설치합니다.

4. 데이터셋 준비

번역 모델을 학습하기 위해서는 적절한 데이터셋이 필요합니다. 본 프로젝트에서는 사용할 중국어 문장을 준비하려고 합니다. 다음은 간단한 중국어 문장을 포함하는 데이터셋을 만드는 방법입니다.

                
                    # 중국어 문장 리스트
                    chinese_sentences = [
                        "你好，世界！",
                        "今天的天气很好。",
                        "我喜欢学习深度学习。",
                        "人工智能正在改变我们的生活。",
                        "你想吃什么？",
                    ]

위 코드에서는 간단한 중국어 문장 5개를 리스트 형태로 정의하였습니다. 실제 프로젝트에서는 더 많은 데이터셋이 필요합니다.

5. 모델 로드 및 번역

이제 준비한 데이터셋을 사용하여 M2M100 모델을 통해 번역 작업을 수행해 보겠습니다. Hugging Face의 Transformers 라이브러리를 통해 모델을 간단히 로드할 수 있습니다. 다음은 M2M100 모델을 사용하여 중국어 문장을 번역하는 예제입니다.

                
                    from transformers import M2M100ForConditionalGeneration, M2M100Tokenizer

                    # 모델과 토크나이저 로드
                    model_name = "facebook/m2m100_418M"
                    model = M2M100ForConditionalGeneration.from_pretrained(model_name)
                    tokenizer = M2M100Tokenizer.from_pretrained(model_name)

                    def translate(text, target_lang="en"):
                        tokenizer.src_lang = "zh"  # 출발 언어를 중국어로 설정
                        encoded = tokenizer(text, return_tensors="pt")
                        generated_tokens = model.generate(**encoded, forced_bos_token_id=tokenizer.get_lang_id(target_lang))
                        return tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)

                    # 번역 수행
                    for sentence in chinese_sentences:
                        translated = translate(sentence)
                        print(f"원문: {sentence} -> 번역: {translated[0]}")

위 코드에서 모델과 토크나이저를 로드한 후, 각각의 문장을 번역하는 함수를 정의하였습니다. `translate` 함수에서는 출발 언어를 중국어(`zh`)로 설정하고, 원하는 목표 언어로 번역된 문장을 출력합니다.

6. 출력 결과 확인

위의 코드 실행 결과는 다음과 같습니다:

                
                    원문: 你好，世界！ -> 번역: Hello, world!
                    원문: 今天的天气很好。 -> 번역: The weather is nice today.
                    원문: 我喜欢学习深度学习。 -> 번역: I like to study deep learning.
                    원문: 人工智能正在改变我们的生活。 -> 번역: Artificial intelligence is changing our lives.
                    원문: 你想吃什么？ -> 번역: What do you want to eat?

위와 같이 각각의 문장이 성공적으로 번역되었습니다. 번역 결과는 모델의 성능에 따라 다를 수 있으며, 이 예제에서는 M2M100 모델을 사용하여 중국어 문장을 영어로 번역하는 과정을 보여주었습니다.

7. 실습 및 응용

언어 번역은 다양한 분야에 응용될 수 있습니다. 예를 들어, 다국적 기업의 웹사이트 번역, 여행 가이드 번역, 고객 지원 서비스 등에서 활용될 수 있습니다. 또한, M2M100 모델은 다양한 언어 쌍에 대해 지원하므로, 중간 언어 없이 직접 번역하여 더 자연스러운 결과를 얻을 수 있습니다.

추가 실습으로, 다른 언어(예: 한국어, 일본어)로 번역하는 작업을 할 수 있습니다. 이를 위해 `translate` 함수의 `target_lang` 매개변수의 값을 변경하여 원하는 언어로 번역하면 됩니다. 아래 코드는 한국어로 번역하는 방법을 보여줍니다.

                
                    # 한국어로 번역하기
                    for sentence in chinese_sentences:
                        translated = translate(sentence, target_lang="ko")
                        print(f"원문: {sentence} -> 번역: {translated[0]}")

8. 마무리

이번 강좌에서는 Hugging Face의 Transformers 라이브러리를 활용하여 M2M100 모델로 중국어 문장을 준비하고 번역하는 방법을 알아보았습니다. 번역 기술은 앞으로도 많은 발전이 예상되며, 다양한 모델과 알고리즘이 연구되고 개발될 것입니다. 이와 같은 딥러닝 모델을 활용하여 다국어 번역의 효율성을 높여보세요.

본 글을 통해 딥러닝과 자연어처리에 대한 이해가 더욱 깊어지기를 바라며, 여러분도 직접 실습해보시기를 권장합니다. 다음 강좌에서도 더 많은 딥러닝 기법과 실습을 다룰 예정이니 많은 관심 부탁드립니다.