컴퓨터공학/데이터과학기초

[데이터과학기초] 데이터 과학2

NIMHO 2022. 12. 29. 21:22
728x90

복습하기 위해 학부 수업 내용을 필기한 내용입니다.
이해를 제대로 하지 못하고 정리한 경우 틀린 내용이 있을 수 있습니다.
그러한 부분에 대해서는 알려주시면 정말 감사하겠습니다.

데이터 과학 프로세스 (Data Science Process)

문제 정의 (problem definition)

데이터 과학의 시작은 문제를 명확히 정의하는 것으로부터 시작

- 부모의 키가 크면 자녀의 키도 클까?

- 집값에 영향을 미치는 요인은 무엇일까?

 

데이터 수집 (data collection)

데이터화 : datafication

- a process of taking all aspects of life and turning them into data.

 

데이터화의 사례

- 트위터/페이스북 : 생각의 조각을 데이터화

- 구글의 증강현실 안경 : 시선의 데이터화

 

데이터화의 중요성

- Once we datafy things,

  • we can transform their purpose
  • and turn the information into new form of value.

 

통계학과 데이터 과학

통계학 : statistics

- 데이터를 관찰하고 정리하고 분석하는 방법을 연구하는 전통적인 학문

- 통계적 추론 : statistical inference

  • 연구대상에 대한 가설을 세우고 모집단으로부터 표본 추출
  • 추출한 표본에 대해서 가설이 통계적으로 유의미한가를 검정

모집단과 표본추출 : population and sampling

- 빅데이터의 시대 : 여전히 표본추출이라는 방식이 필요한가?

728x90

데이터 모델링 (data modeling)

수학 함수를 통해 데이터의 형태와 구조를 표현한 것

모형적합 : fitting a model

- 관찰된 데이터를 대상으로 데이터의 모형을 추정하는 작업

- ex. 선형회귀 : 데이터를 선형 방정식으로 모델링하는 방법

과(대) 적합과 과소 적합 : overfitting and underfitting

- 과적합 : 학습 데이터에 과도하게 편향된 모형 적합

- 과소적합 : 학습 데이터를 제대로 설명하지 못하는 모형 적합

 

기계학습 (machine learning)

데이터를 가장 잘 설명하는 모형을 경험을 통해 스스로 학습하는 알고리즘

지도 학습 : supervised learning

- 예측하려는 변수의 정답이 있으므로 정답 여부를 확인할 수 있는 경우

- 예측형 모델(perdictive model) : 회귀(regression), 분류(classification)

비지도 학습 : unsupervised learning

- 해결하려는 문제가 따로 정답이 정해져 있지 않은 경우

- 설명형 모델(descriptive model) : 군집화(clustering), 연관(association)

강화 학습 : reinforcement learning

- 행동(action)에 대한 보상(reward)을 통해 학습

- 딥 러닝 : deep reinforcement learning

 

 기계학습 알고리즘의 종류

예측 : prediction

- 선형회귀 : 단순, 다중, 다항

분류 : classification

- 로지스틱 회귀, 결정나무, kNN

군집화 : clustering

- 계층적 군집화, k-평균

추론 : inference

- 나이브 베이지안

인공지능 : artificial intelligence

- 다층퍼셉트론, 합성곱신경망, 심층신경망

데이터 시각화와 스토리텔링

데이터 스토리텔링

- 데이터 분석을 통해 얻은 통찰을 효과적으로 전달하는 기술

728x90