컴퓨터공학/데이터과학기초

[데이터과학기초] 탐색적 데이터 분석

NIMHO 2022. 12. 29. 22:30
728x90

복습하기 위해 학부 수업 내용을 필기한 내용입니다.
이해를 제대로 하지 못하고 정리한 경우 틀린 내용이 있을 수 있습니다.
그러한 부분에 대해서는 알려주시면 정말 감사하겠습니다.

데이터에 대한 두 가지 접근법 : CDA vs EDA

확증적 데이터 분석 : CDA (confirmatory data analysis)

- 가설을 수립하고 데이터를 통해 통계적 유의성을 검정하는 전통적 분석 기법

- Ronald Fisher : 가설검정, 신뢰구간, 유의 수준, 유의확률(p-value)

 

탐색적 데이터 분석 : EDA (exploratory data analysis)

- 정해진 가설과 모형 없이 데이터의 구조와 특성을 통해 통찰을 얻는 분석 기법

- John Tukey : EDA는 우리가 존재한다고 믿는 것들은 물론이고, 존재하지 않는다고 믿는 것들을 발견하려는 태도, 유연성, 그리고 자발성이다.

 

탐색적 데이터 분석 : EDA (exploratory data analysis)

데이터에 대한 기본적인 이해를 하기 위한 탐색과 분석 과정

- 데이터의 기본적인 유형, 구조, 분포, 관계 등을 파악

 

기술 통계 : Descriptive Statistics

- 데이터의 정리, 요약, 해석, 표면을 통해 자료의 특성을 규명

- 도수분포표, 평균, 분산, 표준편차, 상관계수

 

데이터 시각화 : Data Visualization

- 시각적 도구를 이용한 데이터의 이해

- 산점도, 히스토그램, 선/막대그래프, 상자 플롯, 파이 차트 등등

 

데이터의 유형 : Data Types

숫자형(연속형, 양적 자료) : Numeric (Continuous, Quantitative)

- 수치로 나타낼 수 있는 변수. 산술/논리 연산을 적용할 수 있다.

- 주요 분석 대상 : 평균, 분산, 표준편차, 분포 등

 

범주형(명목형, 질적 자료) : Categorical (Nominal, Qualitative)

- 기호나 이름으로 구분할 수 있는 변수. 산술/논리 연산을 적용할 수 없다.

- 주요 분석 대상 : 빈도, 히스토그램(histogram)

 

변수 : Variables

통계학에서 말하는 변수 : 연구, 조사, 관찰하고 싶은 대상의 특징

- ex. 키, 몸무게, 혈액형, 매출액, 온도, 습도, 미세먼지 농도, 등

 

단일변수 데이터 : Univariate Data

- 일변량 자료 : 하나의 변수로만 구성된 데이터 (벡터)

 

다중변수 데이터 : Multivariate Data

- 다변량 자료 : 두 개 이상의 변수로 구성된 자료 (행렬, 데이터 프레임)

 

변수의 종류

목적 변수(종속 변수) : Target(Dependent) Variable

- 어떤 분석을 통해 추정하거나 예측하고자 하는 목적이 되는 데이터

- 독립 변수의 값의 변화에 따라 영향을 받는 종속 변수

 

특징 변수(독립 변수) : Feature(Independent) Variable

- 목적 변수의 추정이나 예측을 위해 사용하는 데이터의 특성

- 종속 변수의 값에 독립적으로 영향을 주는 변수

 

Y(자녀의 키) ~ X(부모의 키)

 

데이터셋 : dataset

데이터의 집합 : 주로 2차원 테이블(행렬) 형태로 정리된 데이터

- 변수 : 열(column), 관측값 : 행(row)

- 데이터 프레임 : R/Pandas에서 데이터셋의 유형

 

연속형 자료의 탐색과 분석

평균 : 전체 변량의 총합을 변량의 개수로 나눈 값

- 평균 = 변량의 총합 / 변량의 개수

 

중앙값 : 자료의 변량을 순서대로 나열할 때, 중앙에 위치하는 값

- 매우 크거나 작은 값이 있을 경우에는 평균보다 더 자료의 특성을 더 잘 반영

 

분산 : 편차를 제곱한 값의 평균, 표준편차: 분산의 양의 제곱근

- 분산 = 편차^2의 총합 / 변량의 개수

- 표준편차 = 루트(분산)

- 분산(표준편차)의 값이 클수록, 평균을 중심으로 흩어져 있는 정도가 크다.

- 분산(표준편차)의 값이 작을수록, 평균을 중심으로 흩어져 있는 정도가 작다.

 

범주형 자료의 탐색과 분석

평균, 분산, 표준편차 등의 통계적 특성을 가지지 않는다.

- 각 변수의 빈도(frequency)를 막대그래프 등으로 파악

 

도수분포표 : 데이터를 정리하여 도수의 분포를 표로 나타낸 것

- 도수: 각 구간에 속하는 자료의 수

 

히스토그램(histogram) : 도수분포표를 그래프로 나타낸 것

 

데이터 시각화 : Data Visualization

숫자형/범주형 데이터를 그래프나 그림 등의 시각적 형태로 표현하는 것

탐색적 데이터 분석 과정에서 데이터를 파악하는 중요한 기술 중의 하나

주요 시각화 방법

- 선 그래프, 막대그래프, 히스토그램

- 박스 플롯 : Box Plot

- 산점도 : Scatter Plot

  • 두 개의 변수로 구성된 자료의 분포를 알아보는 그래프
  • 관측값들의 분포를 통해 두 변수 사이의 관계를 파악할 수 있다.

- 모자이크 플롯 : Mosaic Display

- 히트맵 : Heat Map

 

상관 분석 : Correlation Analysis

두 변수 간에 어느 정도의 선형적 관계가 있는지를 파악하는 방법

상관 계수 : Correlation Coefficient

- 상관관계의 정도를 나타내는 지수

 

피어슨 상관 계수 : Pearson’s Correlation Coefficient

- 두 개의 데이터 X, Y에 대해서, x1, y1 , x2, y2 , ⋯ , xn, yn

- X와 Y가 함께 변하는 정도 / X와 Y가 각각 변하는 정도

- 0 < r ≤ 1 : 양의 상관관계가 있다. x가 증가하면 y도 증가한다.

- −1 ≤ r < 0: 음의 상관관계가 있다. x가 증가하면 y는 감소한다.

- r의 절댓값이 클수록 두 변수 x, y의 선형적인 상관성이 높다.

728x90