728x90

컴퓨터공학/데이터과학기초 9

[데이터과학기초] 네트워크 분석

복습하기 위해 학부 수업 내용을 필기한 내용입니다. 이해를 제대로 하지 못하고 정리한 경우 틀린 내용이 있을 수 있습니다. 그러한 부분에 대해서는 알려주시면 정말 감사하겠습니다. 그래프 이론 : Graph Theory 정점의 집합과 간선의 집합으로 구성된 그래프를 연구하는 수학의 한 분야 그래프 : 𝐺 = (𝑉, 𝐸) - 𝑉 : 정점의 집합, 𝐸 : 간선의 집합 네트워크 과학: Network Science 다양한 학문 분야에 펼쳐져 있던 복잡계의 연구 대상들이 - '네트워크'라는 하나의 주제로 통일되면서 발생한 학제 간 연구 분야 복잡계 네트워크 : Complex Network - 사회 현상의 탐구 : 소셜 네트워크 - 사람과 사람 사이의 관계 분석 - 생명 현상의 탐구 : 단백질 네트워크 - 분자와 분..

[데이터과학기초] 텍스트 분석

복습하기 위해 학부 수업 내용을 필기한 내용입니다. 이해를 제대로 하지 못하고 정리한 경우 틀린 내용이 있을 수 있습니다. 그러한 부분에 대해서는 알려주시면 정말 감사하겠습니다. 비정형 데이터 : Unstructured Data 미리 정의된 데이터 모델이 없거나, 미리 정의된 방식으로 정리되지 않은 정보 - 이미지, 텍스트, 사운드, 동영상, 기타 등등 비정형 데이터의 처리 : Embedding - 비정형 데이터의 특징을 추출하여 정형 데이터로 바꾸기 - 이미지 임베딩 : ImageNet - 텍스트 임베딩 : Bag of Words, Word2Vec 자연어 처리 : NLP (Natural Language Processing) 자연어 : 사람이 일상생활에서 사용하는 언어 자연어 처리 : 번역, 요약, 분류..

[데이터과학기초] 인공신경망

복습하기 위해 학부 수업 내용을 필기한 내용입니다. 이해를 제대로 하지 못하고 정리한 경우 틀린 내용이 있을 수 있습니다. 그러한 부분에 대해서는 알려주시면 정말 감사하겠습니다. 인공신경망 : ANN (Artificial Neural Network) 사람의 뇌가 동작하는 방식을 그대로 흉내 내어 만든 수학적 모델 뉴런과 시냅스 : neuron and synapse - 사람의 뇌는 뉴런(신경세포)들이 서로 연결되어 다른 뉴런들과 상호작용 - 입력으로 받은 전기 신호를 적당히 처리하여 다른 뉴런에 전달한다. - 신호를 전달하려면 입력으로 받은 전기 신호의 합이 일정 수준을 넘어야 한다. 퍼셉트론 : Perceptron 뉴런의 동작 방식을 모방하여 만든 수학적 모델 입력값 : x1, x2, ⋯ , xn 가중치..

[데이터과학기초] 군집 분석 (Clustering)

복습하기 위해 학부 수업 내용을 필기한 내용입니다. 이해를 제대로 하지 못하고 정리한 경우 틀린 내용이 있을 수 있습니다. 그러한 부분에 대해서는 알려주시면 정말 감사하겠습니다. 군집화 : Clustering 데이터를 서로 비슷하거나, 서로 가까운 것들끼리 묶어서 나누는 것 비지도 학습 : 정답(라벨)이 없음. 유사도와 거리로 판단 - 유사도(similarity) : 두 데이터가 얼마나 가까운가를 나타내는 척도 - 거리(distance ): 두 데이터 사이의 거리 - s = 1 – d, s = similarity, d = distance 유클리드 거리 : Euclidean Distance - 두 점 사이의 거리를 계산하는 가장 일반적인 방법 - 유클리드 공간에서 두 점 사이의 거리 맨해튼 거리 : Man..

[데이터과학기초] 로지스틱 회귀와 분류

복습하기 위해 학부 수업 내용을 필기한 내용입니다. 이해를 제대로 하지 못하고 정리한 경우 틀린 내용이 있을 수 있습니다. 그러한 부분에 대해서는 알려주시면 정말 감사하겠습니다. 선형모델의 일반화 선형회귀분석을 위한 조건 - 결과변수가 연속형 변수이면서 정규분포를 따라야 한다. 선형회귀분석을 위한 조건에 맞지 않는 경우 - 결과변수가 범주형 변수일 때 : 로지스틱 회귀분석 - 결과변수가 어떤 사건이 발생하는 횟수일 때 : 포아송 회귀분석 일반화 선형모델 : generalized linear model 선형회귀모델을 확장 : 정규분포를 따르지 않는 결과변수에 대한 회귀모델 생성 - 표준 선형회귀모델 : μy = b0 + b1x1 + b2x2 +... + bmxm - μy : 결과변수의 조건부 평균, xm ..

[데이터과학기초] 선형 회귀와 예측

복습하기 위해 학부 수업 내용을 필기한 내용입니다. 이해를 제대로 하지 못하고 정리한 경우 틀린 내용이 있을 수 있습니다. 그러한 부분에 대해서는 알려주시면 정말 감사하겠습니다. 회귀 : regression '회귀'의 사전적 의미 : 되돌아감 회귀라는 용어의 유래 - 프랜시스 골턴의 유전학 연구에서 유래 - 회귀의 법칙 : the law of regression 회귀분석과 선형회귀 회귀분석 : regression analysis - 독립변수와 종속변수의 관계를 잘 설명하는 회귀식을 찾는 과정 선형회귀 : linear regression - 독립변수와 종속변수의 관계가 선형일 때 - 선형 회귀식(직선의 방정식) : y = b + ax - 선형 회귀식의 절편(intercept)과 기울기(slope)를 알면 ..

[데이터과학기초] 탐색적 데이터 분석

복습하기 위해 학부 수업 내용을 필기한 내용입니다. 이해를 제대로 하지 못하고 정리한 경우 틀린 내용이 있을 수 있습니다. 그러한 부분에 대해서는 알려주시면 정말 감사하겠습니다. 데이터에 대한 두 가지 접근법 : CDA vs EDA 확증적 데이터 분석 : CDA (confirmatory data analysis) - 가설을 수립하고 데이터를 통해 통계적 유의성을 검정하는 전통적 분석 기법 - Ronald Fisher : 가설검정, 신뢰구간, 유의 수준, 유의확률(p-value) 탐색적 데이터 분석 : EDA (exploratory data analysis) - 정해진 가설과 모형 없이 데이터의 구조와 특성을 통해 통찰을 얻는 분석 기법 - John Tukey : EDA는 우리가 존재한다고 믿는 것들은 물..

[데이터과학기초] 데이터 과학2

복습하기 위해 학부 수업 내용을 필기한 내용입니다. 이해를 제대로 하지 못하고 정리한 경우 틀린 내용이 있을 수 있습니다. 그러한 부분에 대해서는 알려주시면 정말 감사하겠습니다. ▶데이터 과학 프로세스 (Data Science Process) 문제 정의 (problem definition) 데이터 과학의 시작은 문제를 명확히 정의하는 것으로부터 시작 - 부모의 키가 크면 자녀의 키도 클까? - 집값에 영향을 미치는 요인은 무엇일까? 데이터 수집 (data collection) 데이터화 : datafication - a process of taking all aspects of life and turning them into data. 데이터화의 사례 - 트위터/페이스북 : 생각의 조각을 데이터화 - 구글..

[데이터과학기초] 데이터 과학

복습하기 위해 학부 수업 내용을 필기한 내용입니다. 이해를 제대로 하지 못하고 정리한 경우 틀린 내용이 있을 수 있습니다. 그러한 부분에 대해서는 알려주시면 정말 감사하겠습니다. ▶데이터 과학 (Data Science) 수학, 통계학, 컴퓨터과학 등 여러 학문 간의 학제 간 융합적 학문 분야 (an interdisciplinary field of study) 데이터로부터 실행 가능한 지식과 통찰을 발견하기 위해 (to extract actionable knowledge and insights from data) 데이터를 과학적 방법으로 연구하는 학문의 한 분야 (using scientific methods) ▶데이터 과학의 목적 1. 과거를 분석하여 2. 현재를 이해하고 3. 미래를 예측한다 ▶과학적 방..

728x90