분류 전체보기

etc/머신러닝 이론

선형 회귀 모델 (Linear regression model)

선형 회귀 모델 머신러닝의 가장 큰 목적은 실제 데이터를 바탕으로 모델을 생성해서 만약 다른 입력 값을 넣었을 때 발생할 아웃풋을 예측하는 데에 있다. 이때 우리가 찾아낼 수 있는 가장 직관적이고 간단한 모델은 선(line)이다. 그래서 데이터를 놓고 그걸 가장 잘 설명할 수 있는 선을 찾는 방법을 선형회귀(Linear Regression) 분석이라 부른다. 선형 회귀 모델은 지도 학습 알고리즘으로 주로 수치 예측 문제에 사용한다. 즉, 독립변수(x)를 이용해서 숫자인 종속변수(y)를 예측하는 모델이다. 선형회귀는 독립변수 x와 종속변수 y 사이의 관계를 모델링하여 선형식을 이용해 설명한다. 선형 회귀는 수치 예측 문제에 사용하기 때문에 예측 문제와 추론 문제에 사용한다. 선형 회귀에서 발생하는 오차, ..

etc/머신러닝 이론

군집화 알고리즘 종류

1. K-평균 (K-Means) 군집 중심점(centroid)이라는 특정한 임의의 지점을 선택해 해당 중심에 가장 가까운 포인트들을 선택하는 군집화 기법 선택된 포인트의 평균지점으로 이동하고 이동된 중심점에서 다시 가까운 포인트를 선택, 다시 중심점을 평균 지점으로 이동하는 프로세스를 반복적으로 수행 장점 일반적으로 군집화에서 가장 많이 사용되는 알고리즘 알고리즘이 쉽고 간결하다 단점 거리기반 알고리즘으로 속성의 개수가 매우 많을수록 군집화 정확도가 떨어짐 (PCA 차원감소 적용) 반복을 수행하는데 반복횟수가 많을 경우 매우 느려짐 몇 개의 군집을 선택해야할 지 가이드하기가 어려움 2. 평균 이동 (Mean Shift) K 평균과 유사하지만 거리 중심이 아니라 데이터가 모여있는 밀도가 가장 높은 곳으로 ..

etc/머신러닝 이론

회귀 (Regression)란?

회귀분석의 개념 머신러닝 회귀 예측의 핵심은 주어진 피처와 결정 값 데이터 기반에서 학습을 통해 최적의 회귀 계수를 찾아내는 것이다. Y = W1 * X1 + W2 * X2라는 선형 회귀식을 예로 들면 W1, W2는 회귀계수이다. 예측의 정확도 판단 회귀 모델이 학습으로 찾은 함수를 가설 함수라고 하며, 예측 결과의 정확도를 판단하는 함수를 비용 함수라고 한다. 회귀 모델에서 비용 함수는 평균 제곱 오차 (MSE)가 사용되며, 가설 함수의 결과 (=예측값)와 실측값(=정답)의 오차 제곱의 합이 그것이다. 좌표계에서 평균 제곱 오차의 의미는 다음 그림으로 설명된다. 거리는 예측값과 실측값의 차이이며, 모든 데이터에 대해 이 값이 가장 작은 함수가 바로 찾고자 하는 가설 함수이다. 회귀 모델의 종류 회귀는 ..

etc/머신러닝 이론

분석 시 회귀와 분류 구별하는 법

지도학습의 종류 1. 회귀 종속변수가 양적 데이터일 때 사용 예시1 예시2 2. 분류 종속변수가 범주형 데이터일 때 사용 예시1 예시2

etc/머신러닝 이론

분류(Clasification)란?

1. Classification (분류) 말 그대로 분류를 뜻하는 Classification은 Supervised learning 지도학습의 일종으로 기존에 존재하는 데이터의 Category 관계를 파악하고, 새롭게 관측된 데이터의 Category를 스스로 판별하는 과정이다. 다중 분류는 비지도학습의 Clustering과 비슷하지만, 가장 큰 차이점은 Category의 도메인이 정의되어있는가 그렇지 않은가이다. 지도학습의 Classification은 이미 정해진 카테고리(레이블) 안에서 학습하여 새로운 데이터를 분류하지만, 비지도학습의 Clustering은 정해지지 않은 카테고리(레이블)를 원하는 만큼 생성하여, 분류하는 것이 가장 큰 차이점이다. 예시 이진 분류 Q: 이 글은 스팸이야? A: True ..

etc/머신러닝 이론

강화학습이란?

강화학습(Reinforcement Learning) 지도 학습과 비지도 학습이 학습 데이터가 주어진 상태에서 환경에 변화가 없는 정적인 환경에서 학습을 진행했다면, 강화 학습은 어떤 환경 안에서 정의된 주체(agent)가 현재의 상태(state)를 관찰하여 선택할 수 있는 행동(action)들 중에서 가장 최대의 보상(reward)을 가져다주는 행동이 무엇인지를 학습하는 것입니다. 강화 학습은 주체(agent)가 환경으로부터 보상을 받음으로써 학습하기 때문에 지도 학습과 유사해 보이지만, 사람으로부터 학습을 받는 것이 아니라 변화되는 환경으로부터 보상을 받아 학습한다는 점에서 차이를 보입니다. 이러한 강화 학습은 사람이 지식을 습득하는 방식 중 하나인 시행착오를 겪으며 학습하는 것과 매우 흡사하여 인공지..

etc/머신러닝 이론

비지도 학습이란?

비지도 학습(Unsupervised Learning) 정답을 따로 알려주지 않고(label이 없다), 비슷한 데이터들을 군집화 하는 것. 일종의 그룹핑 알고리즘. 라벨링 되어있지 않은 데이터로부터 패턴이나 형태를 찾아야 하기 때문에 지도학습보다는 조금 더 난이도가 있다. 실제로 지도 학습에서 적절한 피처를 찾아내기 위한 전처리 방법으로 비지도 학습을 이용하기도 한다. 대표적인 종류로는 클러스터링(Clustering), Dimentionality Reduction, Hidden Markov Model 등을 사용한다. 1. 군집화(clustering) 비지도 학습의 대표적인 기술로 x에 대한 레이블이 지정되어있지 않은 데이터를 그룹핑하는 분석 알고리즘 데이터들의 특성을 고려해 데이터 집단(클러스터)을 정의하..

etc/머신러닝 이론

지도학습이란?

머신러닝의 분류 머신러닝은 학습하려는 문제 유형에 따라 크게 다음과 같은 세 가지로 분류할 수 있습니다. 지도 학습 (Supervised Learning) 비지도 학습 (Unsupervised Learning) 강화 학습 (Reinforcement Learning) 지도학습 (Supervised Learning) 정답을 알려주고 학습시키는 머신러닝의 학습 방법이다. 입력과 출력 데이터(훈련 데이터)가 있고 이를 모델화하여 새로운 데이터에 대해 정확한 출력을 예측하는 것 지도 학습에는 데이터에 대해 여러 개의 값 중 하나의 답을 도출해내는 분류(classification)와 데이터 분석을 통해 특징으로 답을 도출해내는 회귀(regression)의 방법이 있다. 먼저, 분류(classification)의 방..

hyesoup
'분류 전체보기' 카테고리의 글 목록 (7 Page)