복습하기 위해 학부 수업 내용을 필기한 내용입니다.
이해를 제대로 하지 못하고 정리한 경우 틀린 내용이 있을 수 있습니다.
그러한 부분에 대해서는 알려주시면 정말 감사하겠습니다.
▶데이터 과학 프로세스 (Data Science Process)
문제 정의 (problem definition)
데이터 과학의 시작은 문제를 명확히 정의하는 것으로부터 시작
- 부모의 키가 크면 자녀의 키도 클까?
- 집값에 영향을 미치는 요인은 무엇일까?
데이터 수집 (data collection)
데이터화 : datafication
- a process of taking all aspects of life and turning them into data.
데이터화의 사례
- 트위터/페이스북 : 생각의 조각을 데이터화
- 구글의 증강현실 안경 : 시선의 데이터화
데이터화의 중요성
- Once we datafy things,
- we can transform their purpose
- and turn the information into new form of value.
통계학과 데이터 과학
통계학 : statistics
- 데이터를 관찰하고 정리하고 분석하는 방법을 연구하는 전통적인 학문
- 통계적 추론 : statistical inference
- 연구대상에 대한 가설을 세우고 모집단으로부터 표본 추출
- 추출한 표본에 대해서 가설이 통계적으로 유의미한가를 검정
모집단과 표본추출 : population and sampling
- 빅데이터의 시대 : 여전히 표본추출이라는 방식이 필요한가?
데이터 모델링 (data modeling)
수학 함수를 통해 데이터의 형태와 구조를 표현한 것
모형적합 : fitting a model
- 관찰된 데이터를 대상으로 데이터의 모형을 추정하는 작업
- ex. 선형회귀 : 데이터를 선형 방정식으로 모델링하는 방법
과(대) 적합과 과소 적합 : overfitting and underfitting
- 과적합 : 학습 데이터에 과도하게 편향된 모형 적합
- 과소적합 : 학습 데이터를 제대로 설명하지 못하는 모형 적합
기계학습 (machine learning)
데이터를 가장 잘 설명하는 모형을 경험을 통해 스스로 학습하는 알고리즘
지도 학습 : supervised learning
- 예측하려는 변수의 정답이 있으므로 정답 여부를 확인할 수 있는 경우
- 예측형 모델(perdictive model) : 회귀(regression), 분류(classification)
비지도 학습 : unsupervised learning
- 해결하려는 문제가 따로 정답이 정해져 있지 않은 경우
- 설명형 모델(descriptive model) : 군집화(clustering), 연관(association)
강화 학습 : reinforcement learning
- 행동(action)에 대한 보상(reward)을 통해 학습
- 딥 러닝 : deep reinforcement learning
기계학습 알고리즘의 종류
예측 : prediction
- 선형회귀 : 단순, 다중, 다항
분류 : classification
- 로지스틱 회귀, 결정나무, kNN
군집화 : clustering
- 계층적 군집화, k-평균
추론 : inference
- 나이브 베이지안
인공지능 : artificial intelligence
- 다층퍼셉트론, 합성곱신경망, 심층신경망
데이터 시각화와 스토리텔링
데이터 스토리텔링
- 데이터 분석을 통해 얻은 통찰을 효과적으로 전달하는 기술
'컴퓨터공학 > 데이터과학기초' 카테고리의 다른 글
[데이터과학기초] 군집 분석 (Clustering) (2) | 2023.01.09 |
---|---|
[데이터과학기초] 로지스틱 회귀와 분류 (0) | 2023.01.02 |
[데이터과학기초] 선형 회귀와 예측 (0) | 2022.12.30 |
[데이터과학기초] 탐색적 데이터 분석 (1) | 2022.12.29 |
[데이터과학기초] 데이터 과학 (0) | 2022.12.26 |