데이터 전처리란?
데이터 전처리는 데이터 분석의 첫 번째 단계로, 데이터를 수집, 정제 및 변환하여 분석에 적합한 형태로 만드는 과정입니다. 이 단계에서는 데이터의 결측값, 이상값, 중복값 등을 처리하고, 데이터 형식을 일치시키는 등의 작업이 필요합니다.
아래 내용은 chatGPT의 도움을 받아 작성하였습니다.
1) 데이터 수집:
데이터 전처리의 첫 번째 단계는 데이터를 수집하는 것입니다. 데이터는 다양한 소스에서 수집될 수 있으며, 주로 파일, 데이터베이스, 웹사이트, 센서 등에서 수집됩니다. 데이터를 수집할 때는 데이터의 크기, 형식, 속성 등을 고려하여 적절한 방법을 선택해야 합니다.
- 데이터 수집 방법:
어떤 데이터를 수집할 때 어떤 방식으로 수집하는 것이 적절한지에 대한 문제입니다. 예를 들어, 소셜미디어 데이터를 수집할 때 어떤 API를 사용하는 것이 좋은지, 스크래핑(scraping) 기술을 사용하는 것이 적절한지 등을 묻는 문제가 출제될 수 있습니다.
- 데이터 소스:
데이터를 수집할 때 어떤 소스를 사용해야 하는지에 대한 문제입니다. 예를 들어, 웹사이트에서 데이터를 수집할 때, 어떤 라이브러리를 사용해야 하는지, 어떤 프로토콜을 사용해야 하는지 등을 묻는 문제가 출제될 수 있습니다.
- 데이터 수집 기간:
데이터 수집 기간에 대한 문제입니다. 예를 들어, 어떤 기간의 데이터를 수집할 때 몇일 이전부터 몇일 이후까지의 데이터를 수집해야 하는지 등을 묻는 문제가 출제될 수 있습니다.
- 데이터 크기:
수집한 데이터의 크기와 관련된 문제입니다. 예를 들어, 어떤 데이터를 수집할 때 어느정도의 크기의 데이터를 수집해야 하는지, 수집한 데이터의 용량을 줄이기 위해 어떤 방식을 사용해야 하는지 등을 묻는 문제가 출제될 수 있습니다.
2) 데이터 정제:
데이터 정제는 데이터를 다듬어주는 과정으로, 결측값, 이상값, 중복값 등을 처리하는 작업입니다. 결측값은 데이터가 누락된 경우로, 해당 값을 대체하거나 삭제하는 방법을 사용합니다. 이상값은 데이터가 이상하게 기록된 경우로, 대부분 실수에 의한 것이며, 이상값을 검출하고 대체하거나 삭제하는 작업을 수행합니다. 중복값은 데이터가 중복된 경우로, 중복을 제거하는 방법을 사용합니다.
- 결측값 처리:
결측값을 처리하는 방법에 대한 문제입니다. 예를 들어, 결측값을 삭제하거나 다른 값으로 대체하는 방법 등을 묻는 문제가 출제될 수 있습니다.
- 이상값 처리:
이상값을 처리하는 방법에 대한 문제입니다. 예를 들어, 이상값을 검출하고 대체하거나 삭제하는 방법 등을 묻는 문제가 출제될 수 있습니다.
- 중복값 처리:
중복값을 처리하는 방법에 대한 문제입니다. 예를 들어, 중복된 데이터를 제거하거나 중복을 허용하지 않는 방법 등을 묻는 문제가 출제될 수 있습니다.
- 데이터 형식 일치화:
데이터 형식을 일치시키는 방법에 대한 문제입니다. 예를 들어, 텍스트 데이터를 수치형 데이터로 변환하는 방법이나 범주형 데이터를 더미 변수로 변환하는 방법 등을 묻는 문제가 출제될 수 있습니다.
- 스케일링:
데이터 스케일링을 수행하는 방법에 대한 문제입니다. 예를 들어, 표준화(Standardization)나 정규화(Normalization) 등의 방법을 묻는 문제가 출제될 수 있습니다.
3) 데이터 변환:
데이터 변환은 데이터의 형식을 일치시켜주는 작업입니다. 데이터 형식은 수치형, 범주형, 텍스트형 등 다양한 형태로 존재합니다. 이러한 형식을 일치시켜주지 않으면 데이터 분석에 어려움이 생길 수 있습니다. 예를 들어, 텍스트 데이터를 수치 데이터로 변환하거나, 범주형 데이터를 더미 변수(dummy variable)로 변환하는 등의 작업을 수행합니다.
- 데이터 형식 변환:
데이터 형식을 변환하는 방법에 대한 문제입니다. 예를 들어, 텍스트 데이터를 수치형 데이터로 변환하거나, 범주형 데이터를 더미 변수(dummy variable)로 변환하는 방법 등을 묻는 문제가 출제될 수 있습니다.
- 데이터 범위 변환:
데이터의 범위를 변환하는 방법에 대한 문제입니다. 예를 들어, 로그 변환(log transformation) 등의 방법을 사용하여 데이터의 범위를 일치시키는 방법을 묻는 문제가 출제될 수 있습니다.
- 데이터 스케일링:
데이터 스케일링을 수행하는 방법에 대한 문제입니다. 예를 들어, 표준화(Standardization)나 정규화(Normalization) 등의 방법을 묻는 문제가 출제될 수 있습니다.
- 데이터 합치기:
여러 개의 데이터를 하나로 합치는 방법에 대한 문제입니다. 예를 들어, 조인(join) 기능을 사용하거나 피벗(pivot) 기능을 사용하는 등의 방법을 묻는 문제가 출제될 수 있습니다.
- 데이터 샘플링:
데이터 샘플링을 수행하는 방법에 대한 문제입니다. 예를 들어, 무작위 샘플링, 계층 샘플링 등의 방법을 묻는 문제가 출제될 수 있습니다.
4) 데이터 스케일링:
데이터 합치기는 여러 개의 데이터를 하나로 합치는 작업입니다. 데이터가 여러 개로 분산되어 있을 경우, 이를 하나로 합치는 것이 분석을 수행하기 용이해집니다. 이를 위해, 조인(join) 기능을 사용하거나 피벗(pivot) 기능을 사용하는 등의 방법이 있습니다.
- 표준화:
데이터를 표준화하는 방법에 대한 문제입니다. 예를 들어, 평균을 0, 표준편차를 1로 만들어 데이터의 범위를 일치시키는 방법을 묻는 문제가 출제될 수 있습니다.
- 정규화:
데이터를 정규화하는 방법에 대한 문제입니다. 예를 들어, 데이터를 0과 1 사이의 범위로 변환하여 데이터의 스케일을 일치시키는 방법을 묻는 문제가 출제될 수 있습니다.
- 최대-최소 스케일링:
데이터의 범위를 최대값과 최소값으로 정해 데이터를 스케일링하는 방법에 대한 문제입니다. 예를 들어, 데이터의 최대값을 1, 최소값을 0으로 만들어 데이터의 범위를 일치시키는 방법을 묻는 문제가 출제될 수 있습니다.
- 로그 변환:
데이터에 로그 변환을 적용하여 스케일링하는 방법에 대한 문제입니다. 예를 들어, 데이터가 치우쳐져 있을 경우 로그 변환을 적용하여 스케일링하는 방법을 묻는 문제가 출제될 수 있습니다.
5) 데이터 샘플링:
데이터 샘플링은 대용량의 데이터에서 일부 데이터를 추출하는 작업입니다. 이를 통해 분석에 필요한 적절한 크기의 데이터를 확보할 수 있습니다. 데이터 샘플링에는 무작위 샘플링, 계층 샘플링 등의 방법이 있습니다.
- 무작위 샘플링:
데이터에서 무작위로 샘플을 추출하는 방법에 대한 문제입니다. 예를 들어, 어떤 데이터셋에서 무작위로 100개의 샘플을 추출하는 방법을 묻는 문제가 출제될 수 있습니다.
- 계층 샘플링:
데이터를 여러 계층으로 나누어 각 계층에서 일정한 비율로 샘플을 추출하는 방법에 대한 문제입니다. 예를 들어, 어떤 데이터셋에서 특정 지역, 연령대, 성별 등으로 나누어 각 계층에서 일정한 비율로 샘플을 추출하는 방법을 묻는 문제가 출제될 수 있습니다.
- 층화 샘플링:
데이터를 여러 층으로 나누어 각 층에서 동일한 개수의 샘플을 추출하는 방법에 대한 문제입니다. 예를 들어, 어떤 데이터셋에서 동일한 개수의 샘플을 추출하기 위해 데이터를 여러 층으로 나누는 방법을 묻는 문제가 출제될 수 있습니다.
- 클러스터 샘플링:
데이터를 클러스터로 나누어 각 클러스터에서 샘플을 추출하는 방법에 대한 문제입니다. 예를 들어, 어떤 데이터셋에서 k-means 클러스터링을 수행하고 각 클러스터에서 일정한 비율로 샘플을 추출하는 방법을 묻는 문제가 출제될 수 있습니다.
6) 데이터 저장:
데이터 전처리가 완료되면, 분석에 필요한 형식으로 데이터를 저장하는 작업을 수행합니다. 이를 위해 다양한 형식의 파일로 저장할 수 있습니다. 예를 들어, CSV, Excel, JSON 등의 파일 형식으로 저장하거나 데이터베이스에 저장할 수 있습니다.
- 데이터베이스:
데이터베이스를 설계하고 운용하는 방법에 대한 문제입니다. 예를 들어, SQL을 사용하여 테이블을 생성하거나 데이터를 삽입하는 방법을 묻는 문제가 출제될 수 있습니다.
- NoSQL 데이터베이스:
NoSQL 데이터베이스를 설계하고 운용하는 방법에 대한 문제입니다. 예를 들어, MongoDB에서 데이터를 삽입하고 검색하는 방법을 묻는 문제가 출제될 수 있습니다.
- 파일 시스템:
파일 시스템을 설계하고 운용하는 방법에 대한 문제입니다. 예를 들어, 리눅스에서 파일 및 디렉토리를 생성하고 관리하는 방법을 묻는 문제가 출제될 수 있습니다.
- 클라우드 스토리지:
클라우드 스토리지를 이용하여 데이터를 저장하고 관리하는 방법에 대한 문제입니다. 예를 들어, AWS S3에서 데이터를 업로드하거나 다운로드하는 방법을 묻는 문제가 출제될 수 있습니다.
- 데이터 보안:
데이터를 안전하게 저장하고 관리하는 방법에 대한 문제입니다. 예를 들어, 데이터 암호화, 백업 및 복원, 데이터 무결성 등의 방법을 묻는 문제가 출제될 수 있습니다.
'Study > BigData' 카테고리의 다른 글
빅데이터분석기사 따즈아! (0) | 2023.04.10 |
---|