컴퓨터공학/데이터과학기초

[데이터과학기초] 데이터 과학

NIMHO 2022. 12. 26. 22:07
728x90

복습하기 위해 학부 수업 내용을 필기한 내용입니다.
이해를 제대로 하지 못하고 정리한 경우 틀린 내용이 있을 수 있습니다.
그러한 부분에 대해서는 알려주시면 정말 감사하겠습니다.

데이터 과학 (Data Science)

수학, 통계학, 컴퓨터과학 등 여러 학문 간의 학제 간 융합적 학문 분야

(an interdisciplinary field of study)

데이터로부터 실행 가능한 지식과 통찰을 발견하기 위해

(to extract actionable knowledge and insights from data)

데이터를 과학적 방법으로 연구하는 학문의 한 분야

(using scientific methods)

 

데이터 과학의 목적

1. 과거를 분석하여

2. 현재를 이해하고

3. 미래를 예측한다

 

과학적 방법 (scientific method)

문제 정의 : define a question

가설 수립 : construct an explanatory hypothesis

데이터 수집 : collect data from observations

데이터 분석 : analyze the data

가설 검정 : test your hypothesis by doing experiments

결론 도출 : draw a conclusion

결과 전달 : communicate or publish your results

재현 가능성 : research and reproducibility

 

연역적 방법(deductive)

- 통찰을 통해 발견한 법칙을 데이터를 통해 검정

귀납적 방법(inductive)

- 데이터를 관측하여 유의미한 통찰과 법칙을 발견

728x90

학제 간 융합 (interdisciplinary field)

- 수학, 통계학

- 프로그래밍 기술

- 분야별 전문성

 

데이터 (from datum to data)

데이터 : 관찰, 측정, 실험, 조사 등을 통해 얻는 실체적 사실이나 정보

변수(변량) : variable or variate

- 관찰, 측정, 실험, 조사의 대상이 되는 수량

- 관측값(observations) : 변수(변량)에 대한 관측을 통해 얻는 값

변수의 유형

- 수치형(numeric) : 수치로 표현할 수 있는 변량 (ex. 키, 몸무게)

- 범주형(categorical) : 범주로 표현할 수 있는 변량 (ex. 성별, 혈액형)

변수의 종류

- 독립변수(feature) : 종속변수에 영향을 주는 변수 (ex. 부모의 키)
- 종속변수(target) : 독립변수로부터 영향을 받는 변수 (ex. 자녀의 키)

정보 (information)

관찰을 통해 수집한 자료를 실제 문제에 도움이 되도록 정리한 지식

 

정보의 과학적 정의

- 정보란, 불확실성의 해소이다.

- an information can be thought of as the resolution of uncertainty.

 

정보량 (quantity of information)

무게의 단위는 kg, 거리의 단위는 km, 정보의 단위는?

- 정보를 다루기 위해서는 정보를 정량적으로 다룰 수 있어야 한다.

 

비트 : bit = binary digit

- 정보의 최소 단위는 1비트: 0 또는 1로 표현 가능

 

정보의 저장과 전송: 정보량의 측정

클로드 섀넌의 공식 : 𝐼(𝑥) = − log2 𝑝(𝑥)

- 세상에서 가장 중요한 공식 중 하나 : 디지털 시대를 연 공식

정보의 용량은 어떤 사건 𝑥가 발생할 확률 𝑝(𝑥)로 결정할 수 있다.

- 내일 아침에 해가 동쪽에서 뜰 것이다. : 정보량이 매우 적다.

- 내일 아침에 해가 서쪽에서 뜰 것이다. : 정보량이 매우 많다.

 

데이터의 종류

정형 데이터 : structured data

- 숫자형, 범주형 등의 일정한 형식으로 표현할 수 있는 데이터

- 예) 키, 몸무게, 성별, 혈액형 등

비정형 데이터 : unstructured data

- 숫자형, 범주형 등의 일정한 형식이 없는 데이터

- 예) 텍스트, 이미지, 사운드, 동영상, 또는 이런 데이터들의 혼합

반정형 데이터 : semi-structured data

- 일정한 형식이 없지만, 구조적으로 표현할 수 있는 데이터

- 예) HTML/XML 문서, JSON 포맷 등

 

빅데이터 (BigData)

전통적인 데이터 처리 방식으로는 수집, 저장, 분석이 어려운 데이터

빅데이터의 세가지 속성(3V)

- Volume : 양적으로 큰 데이터. Tera Bytes, Peta Bytes, etc.

- Variety : 다양한 형태의 데이터. 정형, 비정형, 반정형 데이터

- Velocity : 빠른 속도로 생성되는 데이터. 페이스북, 유튜브, 넷플릭스 등

더 중요한 V : (3V + 1V)

- Value: 데이터로부터 얻어낼 수 있는 유의미한 통찰(insight)

728x90