유니코드는 세계의 모든 문자를 하나의 공통된 체계로 표현하기 위한 표준입니다. ASCII와 같은 과거의 문자 인코딩 방식은 주로 영어를 기반으로 설계되었고, 따라서 다양한 언어의 문자를 표현하기에 한계가 있었습니다. 유니코드는 이러한 문제를 해결하기 위해 설계되었습니다.
유니코드는 각각의 문자에 고유한 번호를 부여하며, 이 번호는 각국의 문자뿐만 아니라, 기호, 특수 문자, 제어 문자 등을 포함하여 현재 143,859개의 문자를 지원합니다. 이를 통해 유니코드는 전 세계 거의 모든 문자를 조화롭게 표현할 수 있습니다.
유니코드는 다음과 같은 구성 요소로 이루어져 있습니다:
- 코드 포인트(Code Point): 모든 문자는 고유한 코드 포인트를 가지며, U+0000처럼 ‘U+’ 뒤에 16진수로 표시됩니다.
- 코드 플레인(Code Plane): 유니코드는 17개의 코드 플레인으로 구분되며, 각 플레인은 최대 65,536개의 문자를 포함할 수 있습니다. 대부분의 일반 문자는 첫 번째 플레인인 기본 멀티링구얼 플레인(BMP)에 존재합니다.
- 문자 셋(Character Set): 코드 포인트의 집합으로, 유니코드는 문자 셋과 인코딩 규칙을 분리하여 다양한 인코딩 방식을 지원합니다.
유니코드의 도입은 국제화(I18n)와 현지화(L10n) 작업에서 매우 중요한 역할을 합니다. 다국어 지원 환경에서 작업하는 개발자나 시스템에는 필수적인 기술적 기반을 제공합니다. 특히 웹 개발, 데이터 과학, 머신러닝 분야에서 다국어 텍스트 처리가 점점 중요해지고 있기에, 유니코드의 이해는 필수적입니다.