728x90

전체 글 374

[데이터과학기초] 네트워크 분석

복습하기 위해 학부 수업 내용을 필기한 내용입니다. 이해를 제대로 하지 못하고 정리한 경우 틀린 내용이 있을 수 있습니다. 그러한 부분에 대해서는 알려주시면 정말 감사하겠습니다. 그래프 이론 : Graph Theory 정점의 집합과 간선의 집합으로 구성된 그래프를 연구하는 수학의 한 분야 그래프 : 𝐺 = (𝑉, 𝐸) - 𝑉 : 정점의 집합, 𝐸 : 간선의 집합 네트워크 과학: Network Science 다양한 학문 분야에 펼쳐져 있던 복잡계의 연구 대상들이 - '네트워크'라는 하나의 주제로 통일되면서 발생한 학제 간 연구 분야 복잡계 네트워크 : Complex Network - 사회 현상의 탐구 : 소셜 네트워크 - 사람과 사람 사이의 관계 분석 - 생명 현상의 탐구 : 단백질 네트워크 - 분자와 분..

[데이터과학기초] 텍스트 분석

복습하기 위해 학부 수업 내용을 필기한 내용입니다. 이해를 제대로 하지 못하고 정리한 경우 틀린 내용이 있을 수 있습니다. 그러한 부분에 대해서는 알려주시면 정말 감사하겠습니다. 비정형 데이터 : Unstructured Data 미리 정의된 데이터 모델이 없거나, 미리 정의된 방식으로 정리되지 않은 정보 - 이미지, 텍스트, 사운드, 동영상, 기타 등등 비정형 데이터의 처리 : Embedding - 비정형 데이터의 특징을 추출하여 정형 데이터로 바꾸기 - 이미지 임베딩 : ImageNet - 텍스트 임베딩 : Bag of Words, Word2Vec 자연어 처리 : NLP (Natural Language Processing) 자연어 : 사람이 일상생활에서 사용하는 언어 자연어 처리 : 번역, 요약, 분류..

[데이터과학기초] 인공신경망

복습하기 위해 학부 수업 내용을 필기한 내용입니다. 이해를 제대로 하지 못하고 정리한 경우 틀린 내용이 있을 수 있습니다. 그러한 부분에 대해서는 알려주시면 정말 감사하겠습니다. 인공신경망 : ANN (Artificial Neural Network) 사람의 뇌가 동작하는 방식을 그대로 흉내 내어 만든 수학적 모델 뉴런과 시냅스 : neuron and synapse - 사람의 뇌는 뉴런(신경세포)들이 서로 연결되어 다른 뉴런들과 상호작용 - 입력으로 받은 전기 신호를 적당히 처리하여 다른 뉴런에 전달한다. - 신호를 전달하려면 입력으로 받은 전기 신호의 합이 일정 수준을 넘어야 한다. 퍼셉트론 : Perceptron 뉴런의 동작 방식을 모방하여 만든 수학적 모델 입력값 : x1, x2, ⋯ , xn 가중치..

[백준/BOJ] gold5 - 1351번 무한 수열 (Python)

▶1351 - 무한수열 ▶문제 무한수열 A는 다음과 같다. A0 = 1 Ai = A⌊i/P⌋ + A⌊i/Q⌋ (i ≥ 1) N, P와 Q가 주어질 때, AN을 구하는 프로그램을 작성하시오. ▶입력 첫째 줄에 3개의 정수 N, P, Q가 주어진다. ▶출력 첫째 줄에 AN을 출력한다. ▶풀이 dp와 유사한 방식으로 문제를 풀었다. dp를 list로 하는 것이 아닌, dictionary를 이용해서 문제를 풀어나갔다. 그 이유는, list로 하니 메모리초과가 나서 찾아보니 dictionary로 하면 괜찮다 해서 그렇게 풀었다. 그리고 dp처럼 for문을 사용해서 문제를 푸니 이것도 메모리초과가 발생했다. n이 10^12까지 가능해서 그렇게 나온 것 같아서, dfs를 이용해 필요한 값들만 가지고 와서 풀었다. 그..

BOJ Code/Gold 2023.01.10

[LeetCode] Easy - 100 Same Tree

▶100 - Same Tree ▶문제 Given the roots of two binary trees p and q, write a function to check if they are the same or not. Two binary trees are considered the same if they are structurally identical, and the nodes have the same value. ▶예제 Input: p = [1,2,3], q = [1,2,3] Output: true Input: p = [1,2], q = [1,null,2] Output: false Input: p = [1,2,1], q = [1,1,2] Output: false ▶풀이 나는 각 트리의 값들을 직접 저장해..

LeetCode 2023.01.10

[데이터과학기초] 군집 분석 (Clustering)

복습하기 위해 학부 수업 내용을 필기한 내용입니다. 이해를 제대로 하지 못하고 정리한 경우 틀린 내용이 있을 수 있습니다. 그러한 부분에 대해서는 알려주시면 정말 감사하겠습니다. 군집화 : Clustering 데이터를 서로 비슷하거나, 서로 가까운 것들끼리 묶어서 나누는 것 비지도 학습 : 정답(라벨)이 없음. 유사도와 거리로 판단 - 유사도(similarity) : 두 데이터가 얼마나 가까운가를 나타내는 척도 - 거리(distance ): 두 데이터 사이의 거리 - s = 1 – d, s = similarity, d = distance 유클리드 거리 : Euclidean Distance - 두 점 사이의 거리를 계산하는 가장 일반적인 방법 - 유클리드 공간에서 두 점 사이의 거리 맨해튼 거리 : Man..

[LeetCode] Easy - 144 Binary Tree Preorder Traversal

▶144 - Binary Tree Preorder Traversal ▶문제 Given the root of a binary tree, return the preorder traversal of its nodes' values. ▶예제 Input: root = [1,null,2,3] Output: [1,2,3] Input: root = [] Output: [] Input: root = [1] Output: [1] ▶풀이 자료구조 때 배운 방식으로 preorder를 구성해서 풀었다.preorder는 left, right를 가기 전에 현재 node의 value값을 저장하거나 출력하는 방식이다. # Definition for a binary tree node. # class TreeNode: # def __in..

LeetCode 2023.01.09

[LeetCode] Hard - 149 Max Points on a Line

▶149 - Max Points on a Line ▶문제 Given an array of points where points[i] = [xi, yi] represents a point on the X-Y plane, return the maximum number of points that lie on the same straight line. ▶예제 Input: points = [[1,1],[2,2],[3,3]] Output: 3 Input: points = [[1,1],[3,2],[5,3],[4,1],[2,3],[1,4]] Output: 4 ▶풀이 단순히 모든 점들을 확인해보는 방식을 사용했다. 시간 복잡도가 O(n^2)가 나오는 방식이라서 시간초과가 날까 봐 걱정했지만 통과가 되었다. 점들의 기울기 ..

LeetCode 2023.01.08

[LeetCode] Medium - 1834 Single-Threaded CPU

▶1834 - Single-Threaded CPU ▶문제 You are given n​​​​​​ tasks labeled from 0 to n - 1 represented by a 2D integer array tasks, where tasks[i] = [enqueueTimei, processingTimei] means that the i​​​​​​th​​​​ task will be available to process at enqueueTimei and will take processingTimei to finish processing. You have a single-threaded CPU that can process at most one task at a time and will act in th..

LeetCode 2023.01.04

[데이터과학기초] 로지스틱 회귀와 분류

복습하기 위해 학부 수업 내용을 필기한 내용입니다. 이해를 제대로 하지 못하고 정리한 경우 틀린 내용이 있을 수 있습니다. 그러한 부분에 대해서는 알려주시면 정말 감사하겠습니다. 선형모델의 일반화 선형회귀분석을 위한 조건 - 결과변수가 연속형 변수이면서 정규분포를 따라야 한다. 선형회귀분석을 위한 조건에 맞지 않는 경우 - 결과변수가 범주형 변수일 때 : 로지스틱 회귀분석 - 결과변수가 어떤 사건이 발생하는 횟수일 때 : 포아송 회귀분석 일반화 선형모델 : generalized linear model 선형회귀모델을 확장 : 정규분포를 따르지 않는 결과변수에 대한 회귀모델 생성 - 표준 선형회귀모델 : μy = b0 + b1x1 + b2x2 +... + bmxm - μy : 결과변수의 조건부 평균, xm ..

[데이터과학기초] 선형 회귀와 예측

복습하기 위해 학부 수업 내용을 필기한 내용입니다. 이해를 제대로 하지 못하고 정리한 경우 틀린 내용이 있을 수 있습니다. 그러한 부분에 대해서는 알려주시면 정말 감사하겠습니다. 회귀 : regression '회귀'의 사전적 의미 : 되돌아감 회귀라는 용어의 유래 - 프랜시스 골턴의 유전학 연구에서 유래 - 회귀의 법칙 : the law of regression 회귀분석과 선형회귀 회귀분석 : regression analysis - 독립변수와 종속변수의 관계를 잘 설명하는 회귀식을 찾는 과정 선형회귀 : linear regression - 독립변수와 종속변수의 관계가 선형일 때 - 선형 회귀식(직선의 방정식) : y = b + ax - 선형 회귀식의 절편(intercept)과 기울기(slope)를 알면 ..

[데이터과학기초] 탐색적 데이터 분석

복습하기 위해 학부 수업 내용을 필기한 내용입니다. 이해를 제대로 하지 못하고 정리한 경우 틀린 내용이 있을 수 있습니다. 그러한 부분에 대해서는 알려주시면 정말 감사하겠습니다. 데이터에 대한 두 가지 접근법 : CDA vs EDA 확증적 데이터 분석 : CDA (confirmatory data analysis) - 가설을 수립하고 데이터를 통해 통계적 유의성을 검정하는 전통적 분석 기법 - Ronald Fisher : 가설검정, 신뢰구간, 유의 수준, 유의확률(p-value) 탐색적 데이터 분석 : EDA (exploratory data analysis) - 정해진 가설과 모형 없이 데이터의 구조와 특성을 통해 통찰을 얻는 분석 기법 - John Tukey : EDA는 우리가 존재한다고 믿는 것들은 물..

[데이터과학기초] 데이터 과학2

복습하기 위해 학부 수업 내용을 필기한 내용입니다. 이해를 제대로 하지 못하고 정리한 경우 틀린 내용이 있을 수 있습니다. 그러한 부분에 대해서는 알려주시면 정말 감사하겠습니다. ▶데이터 과학 프로세스 (Data Science Process) 문제 정의 (problem definition) 데이터 과학의 시작은 문제를 명확히 정의하는 것으로부터 시작 - 부모의 키가 크면 자녀의 키도 클까? - 집값에 영향을 미치는 요인은 무엇일까? 데이터 수집 (data collection) 데이터화 : datafication - a process of taking all aspects of life and turning them into data. 데이터화의 사례 - 트위터/페이스북 : 생각의 조각을 데이터화 - 구글..

728x90