데이터 전처리 기술 [python]

Study/Deep Learning2023. 3. 27. 09:30

728x90

딥러닝 모델은 입력 데이터가 풍부하고 다양하며, 일관성과 규칙성이 있을 때 더욱 높은 성능을 발휘합니다. 이를 위해 데이터 전처리 기술이 매우 중요합니다.

가장 기본적인 데이터 전처리 기술 중 하나는 데이터 스케일링입니다. 입력 데이터의 스케일을 맞추는 것으로, 일반적으로 입력 데이터를 평균이 0, 분산이 1이 되도록 조정하는 작업이 포함됩니다. 이는 모델의 학습을 더욱 효과적으로 만들어주고, 모델이 더욱 안정적으로 수렴하게 합니다.

또한, 데이터 전처리 기술로는 데이터 증강(Data Augmentation) 기술이 있습니다. 데이터 증강은 학습 데이터를 늘리는 기술로, 입력 이미지를 회전시키거나, 이동시키거나, 뒤집거나, 밝기 조절 등의 작업을 통해 다양한 입력 데이터를 만들어내는 것입니다. 이를 통해 모델이 보다 다양한 입력 데이터를 학습할 수 있게 되고, 일반화 성능을 향상시킬 수 있습니다.

데이터 전처리에는 여러 기술이 사용되며, 대표적인 기술들을 아래에서 상세히 설명하고, Python 코드로 예제를 보여드리겠습니다.

1. 데이터 스케일링

데이터 스케일링은 입력 데이터의 범위를 조정하여 학습을 안정적으로 만드는 기술입니다. 일반적으로 입력 데이터를 평균이 0, 분산이 1이 되도록 조정하는 것이 일반적입니다. 이를 표준화(Standardization)라고 합니다.

Python 코드 예제:

from sklearn.preprocessing import StandardScaler

# X_train: 학습 데이터, X_test: 테스트 데이터
scaler = StandardScaler()
scaler.fit(X_train)  # 학습 데이터를 이용해 scaler를 fit합니다.
X_train_scaled = scaler.transform(X_train)  # 학습 데이터를 스케일링합니다.
X_test_scaled = scaler.transform(X_test)  # 테스트 데이터를 스케일링합니다.

2. 데이터 증강

데이터 증강은 입력 데이터를 다양하게 변형하여 학습 데이터의 다양성을 높이는 기술입니다. 예를 들어, 이미지 분류 모델에서는 이미지를 회전하거나 뒤집는 등의 작업을 통해 데이터를 증강합니다.

Python 코드 예제:

from keras.preprocessing.image import ImageDataGenerator

# 데이터 증강 설정
datagen = ImageDataGenerator(rotation_range=20, horizontal_flip=True, shear_range=0.1)

# 데이터 증강 수행
train_generator = datagen.flow(X_train, y_train, batch_size=32)

데이터 정규화는 입력 데이터를 특정 기준으로 조정하여 학습을 안정적으로 만드는 기술입니다. 예를 들어, 이미지 분류에서는 각 채널의 평균과 표준편차를 계산하여 정규화하는 방식을 많이 사용합니다.

Python 코드 예제:

# 이미지에서 R, G, B 각 채널의 평균과 표준편차를 계산합니다.
mean = np.mean(X_train, axis=(0, 1, 2))
std = np.std(X_train, axis=(0, 1, 2))

# 평균과 표준편차를 이용하여 이미지 데이터를 정규화합니다.
X_train_norm = (X_train - mean) / std
X_test_norm = (X_test - mean) / std

위와 같이 데이터 전처리 기술을 적용하여, 모델의 학습 성능을 향상시킬 수 있습니다.

728x90

저작자표시 비영리 변경금지 (새창열림)

'Study > Deep Learning' 카테고리의 다른 글

딥러닝에서 데이터 분포란? (0)	2023.03.30
딥러닝에서 확률과 통계 (0)	2023.03.30
딥러닝 공부를 위해 확률과 통계 개념 파악 (0)	2023.03.24
vscode tensorflow install 오류 (0)	2023.03.20
미적분이란? (0)	2023.03.16

블로그 소개

공지사항

카테고리

최근 등록 현황

달력

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

링크

카운터

데이터 전처리 기술 [python]

'Study > Deep Learning' 카테고리의 다른 글

최근 글

최근 월별 글

최근 댓글

최근 글

최근 월별 글

최근 댓글

최근 글

최근 월별 글

최근 댓글

지난달

2025.7

다음달

티스토리툴바