현대의 금융 시장은 데이터 기반의 의사 결정에 점점 더 의존하게 되었습니다. 머신러닝과 딥러닝 기술의 발전은 트레이딩 전략을 개발하고 최적화하는데 혁신적인 변화를 가져왔습니다. 이번 강좌에서는 yfinance 라이브러리를 사용하여 야후 파이낸스로부터 금융 데이터를 스크레이핑하고, 이를 통해 머신러닝 및 딥러닝 모델을 훈련시키는 과정에 대해 자세히 알아보겠습니다.
1. 머신러닝과 딥러닝의 트레이딩에서의 중요성
머신러닝과 딥러닝은 데이터를 분석하고 예측하는 데 강력한 도구로 자리잡고 있습니다. 주식 거래, 옵션 거래 및 기타 금융 상품의 가격 변동을 예측할 수 있는 모델을 구축하기 위해 다음과 같은 접근 방식이 사용됩니다:
- 지도 학습: 과거 데이터와 가격 변동을 학습하여 미래 가격을 예측합니다.
- 비지도 학습: 데이터를 군집화하거나 패턴을 발견하여 잠재적인 거래 기회를 탐색합니다.
- 강화 학습: 에이전트가 환경과 상호작용하며 보상을 통해 전략을 최적화합니다.
2. yfinance 라이브러리 설치 및 기본 사용법
yfinance
는 파이썬에서 Yahoo Finance의 데이터에 쉽게 접근할 수 있도록 해주는 라이브러리입니다. 이를 통해 주식 가격, 거래량, 배당금 및 기타 재무 데이터를 손쉽게 가져올 수 있습니다.
2.1 라이브러리 설치
pip install yfinance
2.2 기본 데이터 가져오기
이제 yfinance를 사용하여 금융 데이터를 가져오는 기본적인 코드를 살펴보겠습니다.
import yfinance as yf
# 티커 심볼에 따라 주식 데이터 다운로드
ticker = 'AAPL'
data = yf.download(ticker, start='2020-01-01', end='2023-01-01')
print(data.head())
2.3 데이터 설명
위의 코드는 Apple Inc. (AAPL)의 2020년 1월 1일부터 2023년 1월 1일까지의 주식 데이터를 다운로드합니다. 데이터는 다음과 같은 열로 구성됩니다:
- Open: 초기 가격
- High: 최고 가격
- Low: 최저 가격
- Close: 종가
- Adj Close: 조정 종가
- Volume: 거래량
3. 머신러닝 모델 구축을 위한 데이터 전처리
데이터를 머신러닝 모델에 투입하기 전에, 필수적인 전처리 과정이 필요합니다. 다음은 데이터 전처리에 필요한 여러 단계입니다:
3.1 결측치 처리
결측치는 모델의 성능을 저하 시킬 수 있으므로 먼저 결측치를 확인하고 처리해야 합니다.
# 결측치 확인
print(data.isnull().sum())
# 결측치 제거
data = data.dropna()
3.2 피처 생성
가격 예측을 위한 추가적인 피처를 생성할 수 있습니다. 예를 들어, 이동 평균선이나 변동성 등의 기술적 지표를 포함할 수 있습니다.
data['SMA_20'] = data['Close'].rolling(window=20).mean()
data['SMA_50'] = data['Close'].rolling(window=50).mean()
3.3 훈련 세트와 테스트 세트 분할
모델을 훈련시키기 위해 데이터를 훈련 세트와 테스트 세트로 나누어야 합니다. 일반적으로 80:20 비율로 나누는 것이 일반적입니다.
from sklearn.model_selection import train_test_split
# 특성과 레이블 정의
X = data[['SMA_20', 'SMA_50']]
y = data['Close']
# 훈련세트와 테스트세트로 분할
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
4. 머신러닝 모델 선택과 훈련
이제 데이터를 기반으로 머신러닝 모델을 선정하고 훈련시킬 차례입니다. 여러 머신러닝 알고리즘들이 있으며, 그 중에서 선형 회귀 모델을 사용해 보겠습니다.
4.1 모델 선택: 선형 회귀
from sklearn.linear_model import LinearRegression
# 모델 초기화
model = LinearRegression()
# 모델 훈련
model.fit(X_train, y_train)
4.2 모델 평가
훈련된 모델의 성능을 평가하기 위해 테스트 세트를 사용하여 모델의 예측값을 확인해볼 수 있습니다.
from sklearn.metrics import mean_squared_error
# 예측
y_pred = model.predict(X_test)
# MSE 계산
mse = mean_squared_error(y_test, y_pred)
print(f'Mean Squared Error: {mse:.2f}') # 평균 제곱 오차 출력
5. 딥러닝 모델 구축
딥러닝 모델은 더 복잡한 패턴을 인식할 수 있어, 필요한 경우 특히 유용합니다. Keras를 사용하여 간단한 신경망을 구축해 보겠습니다.
5.1 Keras 설치
pip install tensorflow
5.2 딥러닝 모델 설계
다층 퍼셉트론(MLP) 모델을 구성하여 주식 가격을 예측할 수 있습니다.
from tensorflow import keras
from tensorflow.keras import layers
# 모델 정의
model = keras.Sequential([
layers.Dense(64, activation='relu', input_shape=(X_train.shape[1],)),
layers.Dense(64, activation='relu'),
layers.Dense(1)
])
# 모델 컴파일
model.compile(optimizer='adam', loss='mean_squared_error')
# 모델 훈련
model.fit(X_train, y_train, epochs=100, batch_size=32, validation_split=0.1)
6. 결과 분석 및 시각화
모델의 예측 결과를 시각화하여 분석할 수 있습니다. matplotlib 또는 seaborn을 통해 예측 결과를 시각적으로 표현할 수 있습니다.
6.1 예측 값과 실제 값을 비교한 시각화
import matplotlib.pyplot as plt
# 실제 값과 예측 값 시각화
plt.figure(figsize=(14,7))
plt.plot(y_test.index, y_test, color='blue', label='Actual Price')
plt.plot(y_test.index, y_pred, color='red', label='Predicted Price')
plt.title('Stock Price Prediction')
plt.xlabel('Date')
plt.ylabel('Price')
plt.legend()
plt.show()
7. 결론 및 향후 방향
이번 강좌에서는 yfinance 라이브러리를 사용하여 재무 데이터를 수집하고, 이를 기반으로 머신러닝 및 딥러닝 모델을 훈련시키는 과정을 살펴보았습니다. 이러한 기법들을 통해 알고리즘 트레이딩 시스템을 구축할 수 있으며, 지속적으로 데이터를 수집하고 모델을 업데이트함으로써 더욱 향상된 성능을 기대할 수 있습니다.
7.1 학습 과제
- 다양한 머신러닝 알고리즘을 적용해 보세요 (예: 랜덤 포레스트, SVM 등).
- 다양한 피처를 추가해 모델 성능을 비교해 보세요.
- 딥러닝 모델을 개선할 수 있는 하이퍼파라미터 튜닝을 해 보세요.
7.2 참고 자료
이제 여러분도 머신러닝과 딥러닝을 활용한 알고리즘 트레이딩의 기초를 이해하고, yfinance를 통해 더 많은 데이터를 수집하며 실습할 준비가 되셨습니다. 앞으로 더 나아가 다양한 고급 기법들을 탐구해보시기 바랍니다. 감사합니다!