복습하기 위해 학부 수업 내용을 필기한 내용입니다.
이해를 제대로 하지 못하고 정리한 경우 틀린 내용이 있을 수 있습니다.
그러한 부분에 대해서는 알려주시면 정말 감사하겠습니다.
데이터에 대한 두 가지 접근법 : CDA vs EDA
확증적 데이터 분석 : CDA (confirmatory data analysis)
- 가설을 수립하고 데이터를 통해 통계적 유의성을 검정하는 전통적 분석 기법
- Ronald Fisher : 가설검정, 신뢰구간, 유의 수준, 유의확률(p-value)
탐색적 데이터 분석 : EDA (exploratory data analysis)
- 정해진 가설과 모형 없이 데이터의 구조와 특성을 통해 통찰을 얻는 분석 기법
- John Tukey : EDA는 우리가 존재한다고 믿는 것들은 물론이고, 존재하지 않는다고 믿는 것들을 발견하려는 태도, 유연성, 그리고 자발성이다.
탐색적 데이터 분석 : EDA (exploratory data analysis)
데이터에 대한 기본적인 이해를 하기 위한 탐색과 분석 과정
- 데이터의 기본적인 유형, 구조, 분포, 관계 등을 파악
기술 통계 : Descriptive Statistics
- 데이터의 정리, 요약, 해석, 표면을 통해 자료의 특성을 규명
- 도수분포표, 평균, 분산, 표준편차, 상관계수
★데이터 시각화 : Data Visualization
- 시각적 도구를 이용한 데이터의 이해
- 산점도, 히스토그램, 선/막대그래프, 상자 플롯, 파이 차트 등등
데이터의 유형 : Data Types
숫자형(연속형, 양적 자료) : Numeric (Continuous, Quantitative)
- 수치로 나타낼 수 있는 변수. 산술/논리 연산을 적용할 수 있다.
- 주요 분석 대상 : 평균, 분산, 표준편차, 분포 등
범주형(명목형, 질적 자료) : Categorical (Nominal, Qualitative)
- 기호나 이름으로 구분할 수 있는 변수. 산술/논리 연산을 적용할 수 없다.
- 주요 분석 대상 : 빈도, 히스토그램(histogram)
변수 : Variables
통계학에서 말하는 변수 : 연구, 조사, 관찰하고 싶은 대상의 특징
- ex. 키, 몸무게, 혈액형, 매출액, 온도, 습도, 미세먼지 농도, 등
단일변수 데이터 : Univariate Data
- 일변량 자료 : 하나의 변수로만 구성된 데이터 (벡터)
다중변수 데이터 : Multivariate Data
- 다변량 자료 : 두 개 이상의 변수로 구성된 자료 (행렬, 데이터 프레임)
변수의 종류
목적 변수(종속 변수) : Target(Dependent) Variable
- 어떤 분석을 통해 추정하거나 예측하고자 하는 목적이 되는 데이터
- 독립 변수의 값의 변화에 따라 영향을 받는 종속 변수
특징 변수(독립 변수) : Feature(Independent) Variable
- 목적 변수의 추정이나 예측을 위해 사용하는 데이터의 특성
- 종속 변수의 값에 독립적으로 영향을 주는 변수
Y(자녀의 키) ~ X(부모의 키)
데이터셋 : dataset
데이터의 집합 : 주로 2차원 테이블(행렬) 형태로 정리된 데이터
- 변수 : 열(column), 관측값 : 행(row)
- 데이터 프레임 : R/Pandas에서 데이터셋의 유형
연속형 자료의 탐색과 분석
평균 : 전체 변량의 총합을 변량의 개수로 나눈 값
- 평균 = 변량의 총합 / 변량의 개수
중앙값 : 자료의 변량을 순서대로 나열할 때, 중앙에 위치하는 값
- 매우 크거나 작은 값이 있을 경우에는 평균보다 더 자료의 특성을 더 잘 반영
분산 : 편차를 제곱한 값의 평균, 표준편차: 분산의 양의 제곱근
- 분산 = 편차^2의 총합 / 변량의 개수
- 표준편차 = 루트(분산)
- 분산(표준편차)의 값이 클수록, 평균을 중심으로 흩어져 있는 정도가 크다.
- 분산(표준편차)의 값이 작을수록, 평균을 중심으로 흩어져 있는 정도가 작다.
범주형 자료의 탐색과 분석
평균, 분산, 표준편차 등의 통계적 특성을 가지지 않는다.
- 각 변수의 빈도(frequency)를 막대그래프 등으로 파악
도수분포표 : 데이터를 정리하여 도수의 분포를 표로 나타낸 것
- 도수: 각 구간에 속하는 자료의 수
히스토그램(histogram) : 도수분포표를 그래프로 나타낸 것
데이터 시각화 : Data Visualization
숫자형/범주형 데이터를 그래프나 그림 등의 시각적 형태로 표현하는 것
탐색적 데이터 분석 과정에서 데이터를 파악하는 중요한 기술 중의 하나
주요 시각화 방법
- 선 그래프, 막대그래프, 히스토그램
- 박스 플롯 : Box Plot
- 산점도 : Scatter Plot
- 두 개의 변수로 구성된 자료의 분포를 알아보는 그래프
- 관측값들의 분포를 통해 두 변수 사이의 관계를 파악할 수 있다.
- 모자이크 플롯 : Mosaic Display
- 히트맵 : Heat Map
상관 분석 : Correlation Analysis
두 변수 간에 어느 정도의 선형적 관계가 있는지를 파악하는 방법
상관 계수 : Correlation Coefficient
- 상관관계의 정도를 나타내는 지수
피어슨 상관 계수 : Pearson’s Correlation Coefficient
- 두 개의 데이터 X, Y에 대해서, x1, y1 , x2, y2 , ⋯ , xn, yn
- X와 Y가 함께 변하는 정도 / X와 Y가 각각 변하는 정도
- 0 < r ≤ 1 : 양의 상관관계가 있다. x가 증가하면 y도 증가한다.
- −1 ≤ r < 0: 음의 상관관계가 있다. x가 증가하면 y는 감소한다.
- r의 절댓값이 클수록 두 변수 x, y의 선형적인 상관성이 높다.
'컴퓨터공학 > 데이터과학기초' 카테고리의 다른 글
[데이터과학기초] 군집 분석 (Clustering) (2) | 2023.01.09 |
---|---|
[데이터과학기초] 로지스틱 회귀와 분류 (0) | 2023.01.02 |
[데이터과학기초] 선형 회귀와 예측 (0) | 2022.12.30 |
[데이터과학기초] 데이터 과학2 (0) | 2022.12.29 |
[데이터과학기초] 데이터 과학 (0) | 2022.12.26 |