02-2 파이썬 프로그래밍의 기초: 문자열 자료형

파이썬이라는 프로그래밍 언어는 편리하고 강력한 문자열 처리 기능을 제공합니다. 이 강좌에서는 문자열 자료형의 기본부터 응용까지 깊이 있게 이해할 수 있도록 안내하겠습니다. 우리는 문자열을 정의하고 조작하는 데 사용할 수 있는 방법들을 배우고, 이를 통해 파이썬에서 문자열을 효과적으로 활용할 수 있도록 하겠습니다.

문자열이란 무엇인가?

문자열은 문자(character)의 연속입니다. 프로그래밍에서 문자열은 주로 따옴표로 둘러싸여 표현되며, 파이썬에서는 작은 따옴표(‘)나 큰 따옴표(“)를 사용하여 문자열을 정의합니다. 예를 들어:

string1 = 'Hello, World!'
string2 = "Python is fun!"

위의 예시에서 ‘Hello, World!’와 “Python is fun!”는 모두 문자열로 정의되었습니다. 작은 따옴표와 큰 따옴표는 동일한 방법으로 문자열을 지정할 수 있으며, 이는 사용자의 취향에 따라 선택됩니다.

여러 줄 문자열 (Multiline Strings)

파이썬은 여러 줄에 걸친 문자열을 지원합니다. 이는 문자열이 여러 줄에 걸쳐 있을 때 유용합니다. 여러 줄 문자열은 세 개의 작은 따옴표(”’) 또는 세 개의 큰 따옴표(“””)를 사용하여 정의합니다. 예를 들어:

multiline_string = """This is a
multiline string.
It spans multiple lines."""

위 예시에서 `multiline_string`은 세 줄에 걸친 문자열입니다. 이러한 여러 줄 문자열은 주로 긴 설명이나 포맷이 중요한 데이터에 사용됩니다.

문자열 인덱싱 및 슬라이싱

문자열은 순차적인 자료형이기 때문에, 리스트나 튜플과 유사한 방식으로 개별 문자를 접근할 수 있습니다. 인덱스는 0부터 시작하며, 음수 인덱스를 사용하면 문자열의 끝에서부터 접근할 수 있습니다.

word = "Python"
first_letter = word[0]    # 'P'
last_letter = word[-1]    # 'n'

슬라이싱은 문자열의 일부를 추출하는 방법입니다. 슬라이싱은 `[start:end:step]` 형식을 사용하며, `start`는 슬라이스의 시작 인덱스, `end`는 슬라이스의 끝 인덱스 (포함되지 않음), `step`은 슬라이스할 간격을 나타냅니다. 기본값은 `[0:len(string):1]`입니다.

sliced_word = word[1:4]   # 'yth'

문자열 연산

문자열도 덧셈과 곱셈의 연산을 지원합니다:

문자열 덧셈(연결): 두 문자열을 더하면 두 문자열을 하나로 연결합니다.
문자열 곱셈(반복): 문자열에 숫자를 곱하면 해당 문자열이 반복됩니다.

문자열 메서드

파이썬은 문자열 객체에 다양한 메서드를 제공하여 문자열을 다룰 수 있는 기능을 확장합니다. 몇 가지 주요 메서드를 살펴보겠습니다:

str.upper(): 문자열을 모두 대문자로 변환합니다.
str.lower(): 문자열을 모두 소문자로 변환합니다.
str.strip(): 문자열의 양 끝 공백을 제거합니다.
str.replace(old, new): 문자열 내의 특정 부분을 다른 문자열로 교체합니다.
str.split(sep=None): 문자열을 특정 구분자를 기준으로 분리하여 리스트를 반환합니다.

포맷 문자열

파이썬은 변수를 문자열에 삽입하기 위해 여러 가지 기능을 제공합니다. 이런 기능을 포맷팅이라고 부르며, 주로 .format() 메서드와 f-문자열(파이썬 3.6 이상)을 사용합니다.

.format() 메서드를 이용한 포맷팅

name = "Alice"
age = 30
introduction = "My name is {} and I am {} years old.".format(name, age)   # 'My name is Alice and I am 30 years old.'

f-문자열을 이용한 포맷팅

f-문자열은 더 직관적이며, 표현식을 문자열 내에 직접 삽입할 수 있습니다.

introduction = f"My name is {name} and I am {age} years old."   # 'My name is Alice and I am 30 years old.'

문자열과 인코딩

컴퓨터는 문자열을 저장할 때 인코딩을 사용합니다. 파이썬 3에서는 기본적으로 UTF-8 인코딩을 사용합니다. UTF-8은 유니코드 문자를 효율적으로 저장할 수 있게 해주며, 모든 세계의 문자를 표현할 수 있습니다. 문자열을 바이트로 변환하거나 다룰 필요가 있을 때 인코딩과 디코딩을 잘 이해하고 있어야 합니다.

# 인코딩: 문자열 -> 바이트
text = "hello"
byte_data = text.encode('utf-8')   # b'hello'

# 디코딩: 바이트 -> 문자열
decoded_text = byte_data.decode('utf-8')   # 'hello'

문자열의 immutability

파이썬의 문자열은 immutable입니다. 이는 문자열이 한 번 생성되면 변경할 수 없음을 의미합니다. 대신 문자열을 수정하는 메서드들은 항상 새로운 문자열을 생성하여 반환합니다.

original = "hello"
modified = original.replace("e", "a")
print(original)   # 'hello'
print(modified)   # 'hallo'

문자열 정렬 및 출력

문자열을 특정 형식으로 정렬하여 출력할 수도 있습니다. str.center(), str.ljust(), str.rjust() 메서드를 통해 문자열을 특정 너비에 맞춰 중앙, 왼쪽, 오른쪽으로 정렬할 수 있습니다.

data = "Python"
centered = data.center(10)    # '  Python  '
left_justified = data.ljust(10)   # 'Python    '
right_justified = data.rjust(10)   # '    Python'

고급 문자열 조작: 정규 표현식

정규 표현식은 문자열을 처리하는 데 있어 매우 강력한 도구입니다. 파이썬에서는 re 모듈을 통해 정규 표현식을 사용할 수 있습니다. 정규 표현식은 패턴을 정의하여 문자열을 검색, 매칭, 치환할 수 있는 기능을 제공합니다.

import re

pattern = r'\d+'
text = "The year 2023"
matches = re.findall(pattern, text)
print(matches)   # ['2023']

위의 예제는 정규 표현식을 사용하여 문자열에서 모든 숫자를 추출합니다. 이러한 고급 기능을 통해 복잡한 문자열 처리 작업을 정교하게 수행할 수 있습니다.

마치며

문자열은 프로그래밍에서 아주 기초적이면서도 필수적인 자료형입니다. 파이썬의 강력한 문자열 처리 기능을 이해하고 활용함으로써 더욱 효율적이고 효과적인 프로그래밍을 할 수 있습니다. 이번 강좌를 통해 학습한 문자열 관련 기능들을 실제 프로젝트나 문제 해결에 적용해 보세요.