YOLO 모델을 이용한 객체 추적과 다중 객체 검출, 딥 소트(Deep SORT)와의 결합을 통한 다중 객체 추적 시스템 구축

YOLO(You Only Look Once)는 실시간 객체 검출을 위한 강력한 딥러닝 모델입니다. YOLO는 이미지를 한 번의 신경망 통과로 모든 객체를 검출하며, 이를 통해 빠른 처리 속도를 자랑합니다. 본 강좌에서는 YOLO 모델을 이용하여 객체를 검출하고, Deep SORT(Deep Learning based SORT)와 결합하여 효과적인 다중 객체 추적 시스템을 구축하는 방법에 대해 다뤄보겠습니다.

1. YOLO 모델의 이해

YOLO는 단일 회귀 문제를 통해 객체의 위치와 클래스 확률을 한 번에 예측합니다. 기존의 여러 단계의 처리 과정을 거치는 모델과 달리, YOLO는 한 번의 신경망 통과로 이러한 작업을 수행합니다. 이 과정은 다음과 같은 단계로 이루어집니다.

입력 이미지 분할: 이미지를 SxS의 격자로 나누고 각 그리드가 객체를 검출할 수 있도록 합니다.
바운딩 박스와 클래스 확률 예측: 각 그리드 셀에서 바운딩 박스의 위치, 크기, 그리고 클래스 확률을 예측합니다.
비최대 억제: 중복된 바운딩 박스를 조정하여 최종 결과를 얻습니다.

1.1 YOLO의 버전

YOLO에는 여러 가지 버전이 존재합니다. YOLOv1, YOLOv2, YOLOv3, 최근의 YOLOv4 및 YOLOv5까지 발전해왔습니다. 각각의 버전은 성능과 정확도를 개선하기 위해 진화했습니다.

2. Deep SORT 소개

Deep SORT는 기존의 Simple Online and Realtime Tracking (SORT) 알고리즘을 확장하여, 객체의 외관 정보를 학습할 수 있도록 하는 알고리즘입니다. 이는 신경망을 통해 객체의 특성을 학습하여 보다 정확한 추적을 가능하게 합니다. Deep SORT는 다음과 같은 기능을 포함합니다.

외관 특징 추출: CNN을 이용해 객체의 외관을 나타내는 특징 벡터를 생성합니다.
상대적 거리 계산: 추적 중인 객체 간의 거리 정보를 활용하여 트랙을 결정합니다.
정확한 매칭: Kalman Filter를 사용하여 예측 경로와 실제 경로를 비교하여 매칭을 결정합니다.

3. YOLO와 Deep SORT 결합하기

YOLO와 Deep SORT를 결합하는 과정은 다음과 같습니다. YOLO를 통해 객체를 검출한 후, 각 객체에 대해 Deep SORT를 사용하여 추적하는 방법입니다. 이 과정을 통해 실시간으로 다중 객체를 추적할 수 있습니다.

3.1 환경 설정

Python과 OpenCV, TensorFlow 또는 PyTorch 프레임워크를 사용하여 YOLO와 Deep SORT를 구현할 수 있습니다. 아래는 필요한 패키지를 설치하는 방법입니다.

pip install opencv-python
pip install numpy
pip install tensorflow  # 또는 pytorch

3.2 YOLO 모델 로드 및 객체 검출

YOLO 모델을 로드하고 객체를 검출하는 기본 코드는 다음과 같습니다.

import cv2
import numpy as np

# YOLO 모델 로드
def load_yolo():
    net = cv2.dnn.readNet("yolov3.weights", "yolov3.cfg")
    layer_names = net.getLayerNames()
    output_layers = [layer_names[i[0] - 1] for i in net.getUnconnectedOutLayers()]
    return net, output_layers

# 객체 검출 함수
def detect_objects(img, net, output_layers):
    blob = cv2.dnn.blobFromImage(img, 0.00392, (416, 416), (0, 0, 0), True, crop=False)
    net.setInput(blob)
    outputs = net.forward(output_layers)
    
    class_ids, confidences, boxes = [], [], []
    
    for output in outputs:
        for detection in output:
            scores = detection[5:]
            class_id = np.argmax(scores)
            confidence = scores[class_id]
            if confidence > 0.5:  # 신뢰도 기준
                center_x, center_y = int(detection[0] * img.shape[1]), int(detection[1] * img.shape[0])
                w, h = int(detection[2] * img.shape[1]), int(detection[3] * img.shape[0])
                x, y = int(center_x - w / 2), int(center_y - h / 2)
                boxes.append([x, y, w, h])
                confidences.append(float(confidence))
                class_ids.append(class_id)
                
    return boxes, confidences, class_ids

3.3 Deep SORT 초기화

Deep SORT를 사용하기 위해 초기화를 진행합니다. Deep SORT는 KNX(회전하는 기반 예측)와 데이터 수집을 통해 매칭을 수행합니다.

# Deep SORT 초기화
from deep_sort import DeepSort

deepsort = DeepSort()  # Deep SORT 객체 생성

3.4 객체 추적 코드 작성

YOLO로 검출된 객체에 대해 Deep SORT를 사용하여 추적하는 코드는 다음과 같습니다.

def track_objects(frame, net, output_layers, deepsort):
    boxes, confidences, class_ids = detect_objects(frame, net, output_layers)
    
    indices = cv2.dnn.NMSBoxes(boxes, confidences, 0.5, 0.4)
    for i in indices:
        box = boxes[i]
        x, y, w, h = box
        # 깊은 SORT에 할당
        deepsort.update(frame, box)  # Deep SORT 업데이트

    return frame  # 추적된 객체가 있는 프레임 반환

4. 전체 코드 통합

위 단계를 모두 통합하여 전체 코드를 작성합니다. 이 코드는 카메라로부터 비디오를 읽고 YOLO와 Deep SORT를 사용하여 객체를 추적합니다.

cap = cv2.VideoCapture(0)  # 웹캠 사용

net, output_layers = load_yolo()

while True:
    ret, frame = cap.read()
    if not ret:
        break
    
    frame = track_objects(frame, net, output_layers, deepsort)
    cv2.imshow("Object Tracking", frame)

    if cv2.waitKey(1) & 0xFF == ord('q'):
        break

cap.release()
cv2.destroyAllWindows()

5. 결론

본 강좌에서는 YOLO 모델을 통해 객체를 검출하고, Deep SORT와 결합하여 다중 객체 추적 시스템을 구축하는 방법에 대해 알아보았습니다. YOLO와 Deep SORT의 조합은 빠르고 정확한 객체 추적을 가능하게 하여 다양한 분야에 활용될 수 있습니다. 특히 자율주행차, 감시 시스템, 스포츠 분석 등에서 큰 효과를 기대할 수 있습니다.