복습하기 위해 학부 수업 내용을 필기한 내용입니다.
이해를 제대로 하지 못하고 정리한 경우 틀린 내용이 있을 수 있습니다.
그러한 부분에 대해서는 알려주시면 정말 감사하겠습니다.
▶데이터 과학 (Data Science)
수학, 통계학, 컴퓨터과학 등 여러 학문 간의 학제 간 융합적 학문 분야
(an interdisciplinary field of study)
데이터로부터 실행 가능한 지식과 통찰을 발견하기 위해
(to extract actionable knowledge and insights from data)
데이터를 과학적 방법으로 연구하는 학문의 한 분야
(using scientific methods)
▶데이터 과학의 목적
1. 과거를 분석하여
2. 현재를 이해하고
3. 미래를 예측한다
▶과학적 방법 (scientific method)
문제 정의 : define a question
가설 수립 : construct an explanatory hypothesis
데이터 수집 : collect data from observations
데이터 분석 : analyze the data
가설 검정 : test your hypothesis by doing experiments
결론 도출 : draw a conclusion
결과 전달 : communicate or publish your results
재현 가능성 : research and reproducibility
연역적 방법(deductive)
- 통찰을 통해 발견한 법칙을 데이터를 통해 검정
귀납적 방법(inductive)
- 데이터를 관측하여 유의미한 통찰과 법칙을 발견
▶학제 간 융합 (interdisciplinary field)
- 수학, 통계학
- 프로그래밍 기술
- 분야별 전문성
▶데이터 (from datum to data)
데이터 : 관찰, 측정, 실험, 조사 등을 통해 얻는 실체적 사실이나 정보
변수(변량) : variable or variate
- 관찰, 측정, 실험, 조사의 대상이 되는 수량
- 관측값(observations) : 변수(변량)에 대한 관측을 통해 얻는 값
변수의 유형
- 수치형(numeric) : 수치로 표현할 수 있는 변량 (ex. 키, 몸무게)
- 범주형(categorical) : 범주로 표현할 수 있는 변량 (ex. 성별, 혈액형)
변수의 종류
- 독립변수(feature) : 종속변수에 영향을 주는 변수 (ex. 부모의 키)
- 종속변수(target) : 독립변수로부터 영향을 받는 변수 (ex. 자녀의 키)
▶정보 (information)
관찰을 통해 수집한 자료를 실제 문제에 도움이 되도록 정리한 지식
정보의 과학적 정의
- 정보란, 불확실성의 해소이다.
- an information can be thought of as the resolution of uncertainty.
▶정보량 (quantity of information)
무게의 단위는 kg, 거리의 단위는 km, 정보의 단위는?
- 정보를 다루기 위해서는 정보를 정량적으로 다룰 수 있어야 한다.
비트 : bit = binary digit
- 정보의 최소 단위는 1비트: 0 또는 1로 표현 가능
정보의 저장과 전송: 정보량의 측정
클로드 섀넌의 공식 : 𝐼(𝑥) = − log2 𝑝(𝑥)
- 세상에서 가장 중요한 공식 중 하나 : 디지털 시대를 연 공식
정보의 용량은 어떤 사건 𝑥가 발생할 확률 𝑝(𝑥)로 결정할 수 있다.
- 내일 아침에 해가 동쪽에서 뜰 것이다. : 정보량이 매우 적다.
- 내일 아침에 해가 서쪽에서 뜰 것이다. : 정보량이 매우 많다.
▶데이터의 종류
정형 데이터 : structured data
- 숫자형, 범주형 등의 일정한 형식으로 표현할 수 있는 데이터
- 예) 키, 몸무게, 성별, 혈액형 등
비정형 데이터 : unstructured data
- 숫자형, 범주형 등의 일정한 형식이 없는 데이터
- 예) 텍스트, 이미지, 사운드, 동영상, 또는 이런 데이터들의 혼합
반정형 데이터 : semi-structured data
- 일정한 형식이 없지만, 구조적으로 표현할 수 있는 데이터
- 예) HTML/XML 문서, JSON 포맷 등
▶빅데이터 (BigData)
전통적인 데이터 처리 방식으로는 수집, 저장, 분석이 어려운 데이터
빅데이터의 세가지 속성(3V)
- Volume : 양적으로 큰 데이터. Tera Bytes, Peta Bytes, etc.
- Variety : 다양한 형태의 데이터. 정형, 비정형, 반정형 데이터
- Velocity : 빠른 속도로 생성되는 데이터. 페이스북, 유튜브, 넷플릭스 등
더 중요한 V : (3V + 1V)
- ★Value: 데이터로부터 얻어낼 수 있는 유의미한 통찰(insight)
'컴퓨터공학 > 데이터과학기초' 카테고리의 다른 글
[데이터과학기초] 군집 분석 (Clustering) (2) | 2023.01.09 |
---|---|
[데이터과학기초] 로지스틱 회귀와 분류 (0) | 2023.01.02 |
[데이터과학기초] 선형 회귀와 예측 (0) | 2022.12.30 |
[데이터과학기초] 탐색적 데이터 분석 (1) | 2022.12.29 |
[데이터과학기초] 데이터 과학2 (0) | 2022.12.29 |