허깅페이스 트렌스포머 활용강좌, 화이자 COVID-19 위키피디아 텍스트 가져오기

화이자 COVID-19 위키피디아 텍스트 가져오기

이번 강좌에서는 허깅페이스의 트랜스포머 라이브러리를 활용하여 화이자(Pfizer)의 COVID-19 관련 정보를 위키피디아에서 가져오는 방법을 배워보겠습니다. 이 강좌는 자연어 처리(NLP)에 대한 기본 지식이 있는 분들을 대상으로 하며, Python과 함께 허깅페이스의 라이브러리를 친구처럼 편하게 사용할 수 있도록 여러분을 안내할 것입니다.

1. 환경 설정

먼저 필요한 라이브러리를 설치해야 합니다. 아래 코드를 입력하여 transformerswikipedia-api를 설치하세요.

!pip install transformers wikipedia-api

2. 라이브러리 임포트

필요한 라이브러리를 임포트합시다. transformers는 자연어 처리 모델을 쉽게 사용할 수 있도록 도와줍니다. wikipedia-api는 위키피디아 API에 간편하게 접근할 수 있도록 해줍니다.

import wikipediaapi
from transformers import pipeline

3. 위키피디아에서 정보 가져오기

이제 위키피디아에서 COVID-19와 화이자 관련 정보를 가져옵니다. wikipediaapi를 사용하여 정보를 가져오겠습니다.

wiki_wiki = wikipediaapi.Wikipedia('ko')
page = wiki_wiki.page("COVID-19_백신_화이자") 

if page.exists():
    print(page.text[0:1000])  # 첫 1000자 출력
else:
    print("페이지가 존재하지 않습니다.") 

코드 설명

위 코드는 위키피디아에서 “COVID-19 백신 화이자” 페이지를 가져옵니다. 페이지가 존재하는 경우에는 첫 1000자를 출력합니다. 이는 우리가 가져오려는 정보의 내용을 확인할 수 있도록 도와줍니다.

4. 텍스트 요약하기

가져온 데이터는 긴 문장이 많기 때문에 자연어 처리 모델을 통해 요약해 보겠습니다. 허깅페이스의 transformers 라이브러리에서 제공하는 요약 모델을 사용합니다.

summarizer = pipeline("summarization")

summary = summarizer(page.text, max_length=130, min_length=30, do_sample=False)

print("Summary:")
for s in summary:
    print(s['summary_text'])

코드 설명

이 코드는 허깅페이스의 “summarization” 파이프라인을 통해 텍스트 요약을 수행합니다. max_lengthmin_length를 설정해 요약의 길이를 조절할 수 있습니다.

5. 결론

이번 강좌에서는 허깅페이스의 트랜스포머와 위키피디아 API를 활용하여 화이자의 COVID-19 정보를 가져오고 요약하는 방법을 배웠습니다. 자연어 처리의 가능성을 엿보았기를 바랍니다. 이러한 기법들은 다양한 분야에서 응용될 수 있으며, 여러분의 프로젝트에 활용될 수 있는 유용한 도구입니다.

6. 다음 단계

더 나아가, 감정 분석, 질문 응답 시스템, 문서 분류 등의 다양한 자연어 처리 작업을 시도해 보세요! 허깅페이스의 모델 허브를 탐색하여 자신에게 맞는 모델을 찾고 활용하는 것을 추천합니다.

감사합니다!