딥러닝에서 데이터 분포란?

Study/Deep Learning|2023. 3. 30. 13:29
728x90
반응형

 

데이터 분포는 데이터 포인트들이 어떻게 퍼져 있는지를 나타내는 특성입니다. 데이터 분포를 이해하는 것은 데이터를 전처리하거나, 모델을 선택하고 튜닝하는데 도움이 됩니다. 몇 가지 일반적인 데이터 분포에 대한 설명과 이를 시각화하는 Python 예제 코드를 제공하겠습니다.

 

균일 분포 (Uniform Distribution):

균일 분포는 모든 값이 동일한 확률로 발생하는 분포입니다. 이러한 분포에서 데이터 포인트는 구간 내에서 균등하게 분포되어 있습니다.

균일 분포(Uniform Distribution)는 확률 및 통계학에서 모든 값이 동일한 확률로 발생하는 연속 확률 분포입니다. 균일 분포는 특정 구간 내의 모든 값이 동일한 확률 밀도를 가지기 때문에, 이 구간 내에서 데이터 포인트는 균등하게 분포되어 있다고 할 수 있습니다.

 

균일 분포는 다음 두 가지 파라미터로 정의됩니다.

 

  • a: 분포의 최솟값 (구간의 시작점)
  • b: 분포의 최댓값 (구간의 끝점)

 

이 때, ab 사이의 모든 값은 동일한 확률 밀도를 갖습니다. 확률 밀도 함수(probability density function, PDF)는 다음과 같이 표현됩니다:

 

f(x) = { 1 / (b - a) if a <= x <= b,
         0 otherwise.

 

누적 분포 함수(cumulative distribution function, CDF)는 다음과 같이 표현됩니다:

 
F(x) = { 0 if x < a,
         (x - a) / (b - a) if a <= x <= b,
         1 if x > b.

 

 

균일 분포는 임의의 실험에서 모든 결과가 동일한 확률로 발생할 때 사용할 수 있습니다. 예를 들어, 공정한 주사위를 던지는 경우 또는 룰렛 휠을 돌리는 경우와 같이 각 결과가 동일한 확률로 발생하는 상황에서 균일 분포를 사용할 수 있습니다. 이와 같은 경우에 균일 분포는 데이터의 특성을 잘 나타낼 수 있으며, 이를 통해 모델링 및 분석 작업을 수행할 수 있습니다.

 
import numpy as np
import matplotlib.pyplot as plt

# 균일 분포 생성
uniform_data = np.random.uniform(-10, 10, 1000)

# 히스토그램 시각화
plt.hist(uniform_data, bins=30, density=True)
plt.title('Uniform Distribution')
plt.show()
 
 

정규 분포 (Normal Distribution):

정규 분포(Normal Distribution), 또는 가우시안 분포(Gaussian Distribution)는 확률 이론과 통계학에서 가장 널리 사용되는 연속 확률 분포입니다. 정규 분포는 평균(μ) 주변에서 대칭인 종 모양(bell-shaped)의 분포를 가지며, 이 분포의 두께는 표준 편차(σ)에 의해 결정됩니다.

 

정규 분포의 확률 밀도 함수(Probability Density Function, PDF)는 다음과 같이 표현됩니다:

 

f(x) = (1 / (σ * sqrt(2π))) * exp(-((x - μ)²) / (2σ²))

 

여기서 μ는 평균, σ는 표준 편차를 나타냅니다.

 

정규 분포는 다양한 자연 현상과 사회 현상에서 나타나는 데이터를 설명하는 데 사용됩니다. 이는 중심극한정리(Central Limit Theorem)에 따라, 독립적이고 동일한 분포를 따르는 많은 확률 변수들의 합은 정규 분포에 가까워지기 때문입니다.

 

정규 분포의 몇 가지 중요한 특징은 다음과 같습니다.

 

  1. 대칭성: 정규 분포는 평균을 중심으로 완벽한 대칭을 이룹니다. 이는 평균에서 멀어질수록 데이터 포인트의 발생 확률이 감소한다는 것을 의미합니다.
  2. 평균, 중앙값, 최빈값이 같음: 정규 분포에서 평균, 중앙값, 최빈값이 모두 같은 위치에 있습니다.
  3. 68-95-99.7 규칙: 정규 분포에서 약 68%의 데이터가 평균 ±1σ 내에, 약 95%의 데이터가 평균 ±2σ 내에, 약 99.7%의 데이터가 평균 ±3σ 내에 위치합니다.
 
 
정규 분포는 다양한 분야에서 데이터 분석, 모델링, 추론 등에 활용됩니다. 또한, 정규성 가정을 기반으로 한 많은 통계적 검정 및 추정 방법이 개발되어 있어, 정규 분포에 대한 이해는 통계학과 확률 이론의 기초를 익히는 데 중요합니다.
 
정규 분포는 평균 주변으로 종 모양의 대칭 분포를 가진 데이터입니다. 대부분의 데이터 포인트가 평균에 가까이 있고, 평균에서 멀어질수록 발생 확률이 감소합니다.
 
# 정규 분포 생성
normal_data = np.random.normal(0, 1, 1000)

# 히스토그램 시각화
plt.hist(normal_data, bins=30, density=True)
plt.title('Normal Distribution')
plt.show()

 

지수 분포(Exponential Distribution)

지수 분포(Exponential Distribution)는 연속 확률 분포의 한 종류로, 어떤 사건 간의 독립적인 시간 간격이나 거리 간격을 모델링하는 데 사용됩니다. 지수 분포는 특정 사건 발생 사이의 평균 대기 시간을 나타내는 파라미터 λ(람다)를 가집니다. 람다는 사건이 평균적으로 발생하는 비율(rate)을 의미하며, 양의 실수 값입니다.

지수 분포의 확률 밀도 함수(Probability Density Function, PDF)는 다음과 같이 표현됩니다:

 
 
f(x) = { λ * exp(-λx) if x ≥ 0,
         0 otherwise.

 

지수 분포의 누적 분포 함수(Cumulative Distribution Function, CDF)는 다음과 같이 표현됩니다:

F(x) = { 1 - exp(-λx) if x ≥ 0,
         0 otherwise.

 

지수 분포는 다양한 분야에서 사용되며, 특히 시스템의 수명, 부품의 고장 시간, 고객 도착 간격 등을 모델링하는 데 적합합니다. 지수 분포는 메모리 없음(memoryless) 성질을 가지고 있어, 앞으로 발생할 사건의 대기 시간은 과거에 발생한 사건과 독립적입니다.

지수 분포의 몇 가지 중요한 특징은 다음과 같습니다.

 

  1. 단일 파라미터: 지수 분포는 단일 파라미터 λ로 완전히 정의됩니다. λ는 사건 발생의 평균 비율을 나타냅니다.
  2. 메모리 없음 성질: 과거에 발생한 사건이 앞으로 발생할 사건의 대기 시간에 영향을 미치지 않습니다.
  3. 지수 분포는 감소 함수 형태를 띠며, x 값이 증가함에 따라 확률 밀도가 감소합니다.

 

지수 분포를 이해하고 활용하는 것은 시스템의 수명 분석, 신뢰성 이론, 대기열 이론 등 다양한 분야에서 중요한 역할을 합니다.


지수 분포는 특정 시간 간격 또는 공간 간격 내에서 발생하는 사건의 분포를 나타냅니다. 지수 분포는 급격하게 감소하는 형태를 띠며, 데이터 포인트가 0에 가까울수록 높은 확률을 가집니다.

 

# 지수 분포 생성
exponential_data = np.random.exponential(1, 1000)

# 히스토그램 시각화
plt.hist(exponential_data, bins=30, density=True)
plt.title('Exponential Distribution')
plt.show()

 


 

위 예제들은 각각 균일 분포, 정규 분포, 지수 분포로부터 생성된 데이터의 히스토그램을 시각화하는 코드입니다. 이를 통해 데이터의 분포를 이해하고, 해당 분포에 적합한 모델 및 전처리 방법을 선택할 수 있습니다.

 

 

 

 
728x90
반응형

댓글()