통계학8 [데이터 분석] 어떤 분석 모델을 사용해야 할까? (Machine Learning 모델 기법 정리) 안녕하세요, 파키노 랩입니다. 1. Introduction 분석가들은 프로젝트를 진행하면서 여러가지 분석기법을 선정하고, 선택하며 최고의 퍼포먼스를 이끌어내기위해 고민합니다. 데이터의 형태, 종속 변수의 포맷 등 여러가지 사항을 고려하여 모델을 선택하는 것 또한 분석가의 역량입니다. 아래 'Machine Learning Algorithms Cheat Sheet'를 살펴 볼까요? 2. Selection 예를 들어, SVM(Support Vector Machine)의 경우 모델 학습시간이 오래 걸려 대용량의 데이터에는 적절하지 않습니다. 또한 RF(Random Forest)와 같은 블랙박스 기법은 변수의 인과관계를 정확히 따져야하는 경우 적절하지 않죠. 위의 자료는 우리가 어떤 상황에서 어떤 .. 2022. 1. 5. [데이터 분석] Weighted Linear Regression- 가중 선형 회귀 (Weighted Least Square) 본 포스팅은 회귀분석의 선수 지식이 요구되는 내용을 포함하고있습니다. Weighted linear Regression _이론 [weighted least square]. 1. introduction. 여러분들도 아시다시피, 선형회귀 분석은 등분산성 가정을 기반으로 분석이 진행됩니다. 그런데 만약 등분산성이 만족하지 않는다면 어떻게 해야 될까요?. 혹은 데이터를 조정한다고 해도, 모든 데이터를 등분산성에 만족시킬 수 있을까요? 여기서 고안된 방법이 바로 가중 선형 회귀, 일명 가중 최소 제곱법입니다. 2. Assessment 가중회귀는 일반 선형회귀보다 조금 더 "유연하다"라고 말할 수 있습니다. 가중 최소제곱법 이라고 불리는 이 기법은, 편차를 이용한 최소제곱법에 기반하지만 조금 더 발전한.. 2021. 12. 16. [데이터 분석] Logistic Regression- 로지스틱 회귀 분석 안녕하세요 파키노 랩입니다. 이번시간에는 종속변수가 이진 반응 변수로 분류되는 경우에 사용할 수 있는 회귀 기법인 로지스틱 회귀 분석(Logistic Regression)에 대해 배워 보겠습니다. 1. Instroduction 예를 들어, 여러분이 어떤 질병을 연구하고 있을 때 수술 후 사망일지 생존일지를 통계적으로 분석하고 싶습니다. 그렇기 위해선 생존에 대한 반응 변수가 0과 1사이의 확률로 표현이 되어야 하는데 일반적인 회귀 분석의 경우 그렇지 않죠. 그렇기 때문에 반응 변수를 0과 1사이의 확률값으로 나타낸 회귀를 로지스틱 회귀 분석이라고 합니다. 2. Configuration 로지스틱 회귀분석에 중요한 요소는 크게 세 가지가 있습니다. 하나는 “Odds”라고 불리는 파라미터와, 이를 이용한 "로.. 2021. 12. 15. [데이터 분석] Kernel Regression- 커널 회귀 본 포스팅은 회귀분석의 선수 지식이 요구되는 내용을 포함하고있습니다. Kernel Regression _이론. 1. introduction. 여러분들도 아시는 것처럼, 선형 회귀분석은 통계분석에서 아주 중요한 기법으로 평가되어 왔습니다. 그럼에도 ‘선형’이라는 한계로, 불규칙적 데이터 예측을 위한 여러가지 파생 모델들이 발전해 왔습니다. 오늘은 그 중에 ‘Kernel Regression’을 배워보겠습니다. 기존 회귀분석의 선형 적합의 단점으로 인해, 좀 더 복잡한 데이터를 해석하려 고안된 모델입니다. 2. Assessment 커널 회귀는 기존의 비선형 데이터에 적합할 수 있다는 점에서 선형 회귀와 가장 큰 차이를 보입니다. 특히, 선형 회귀분석은 데이터가 정규성을 띈다는 가정하에 모수 추정.. 2021. 12. 6. [데이터 분석] Funnel Plot - 깔때기 도표 부제 : 편향을 이용한 통계 도표 FUNNEL PLOT _이론. 1.introduction. 소개– 1984년 Light와 Pillemer에 의해 소개된 Funnel Plot은, 분포가 깔때기와 같다고 하여 붙여진 이름입니다. 주로 문헌 고찰, 메타 분석, 연구분야의 정밀도를 분석하는 보조 장치로 사용되는 도표입니다. 본 목적을 초월하는 용도로 사용되며 여러 분야에서 발전될 가능성이 높은 기법입니다. 2.Assessment 기존의 x,y축 도표와 다른 것은 피라미드형 모양의 지표 밖에 없지만, 연구 정밀도에 따른 편향의 분포나, 정규분포를 따르는 데이터의 분포를 Perfect spot을 기준으로 해석할 수 있다는 점에서 높은 평가를 받습니다. 즉, 시각적 보조 도구와 증거 설득의 역할로.. 2021. 12. 5. [회귀 분석] 단순 회귀 모형 추정, 방정식 유도 부제: 회귀 방정식 유도 안녕하세요 파키노랩입니다. 여러분 잘 지내셨나요? 저는 요새 바쁜 일정에 치여 정신을 못차리고 있답니다. + 제가 글씨를 굉장히 못씁니다. 그래도 나름 잘 읽히도록 정리해봤으니 읽어주세요. 1. Introduction 회귀분석은 머신러닝의 기초라고 불리우는 학문입니다. 직관적이게도, 손실 함수나 계수 추정 등 머신러닝에서 필수로 요구하는 요소들을 전부 가지고 있죠. 네이버에 '회귀 분석'이라고 치면 수 많은 자료가 나오는 것을 알 수 있는데요, 아쉽게도 회귀 방정식 유도에 대한 게시물은 다소 적은 걸 알 수 있었답니다. 2. LSE (least square method) LSE는 오차항의 제곱을 가장 작게 줄여주는 모형을 추정하는 방식입니다. 여기서 오차항의 .. 2021. 11. 28. [통계] 최대 우도 추정(MLE) ,가능도(Likelihood) 부제: 가능도와 최대 가능도 추정 안녕하세요 파키노랩입니다. Josh Starmer의 유투브 자료는 참고를 위해 게시글 하단에 첨부하겠습니다. 1. Introduction 통계학에서 많이 사용되는 MLE 개념은 최대의 가능도(우도)를 추정하는 방법입니다. 가능도라는 개념도 참 애매모호합니다. 뭐가 가능하길래 확률과 다른걸까요? 가능도 또한 모수를 추정하는 방법중 하나입니다. Likelihood와 MLE에 대해 알아보겠습니다. 2. Likelihood 가능도란 " 관측값 A가 관측되었을때 , 어떠한 분포 B에 해당할 확률" 입니다. 즉 관측된 A의 모집단 분포는 어떤 분포에 해당할까~? 라는 질문에서 시작되었습니다. 예를 들어 어떤 물체 A의 무게가 20g이라고 하면, 이 물체의 모집.. 2021. 11. 27. [PCA] 주성분 수를 결정하는 여러가지 PCA 방법론 (SAS) 이번 포스팅에서는 여러가지 주성분 분석 기법들과 그 차이에 대해 알아보겠습니다. PCA(principle components analysis) Introduction 여러 개의 변수를 가진 데이터는 고차원 데이터로 불리는데, 이는 저차원 데이터에 비해 계산의 과정이나 효율에 있어서 여러 가지 단점들을 가지게 됩니다. 우리는 주성분 분석을 통해 여러 변수를 한 변수로 축약하거나 차원을 줄임으로써 이 문제를 해결합니다. 주성분의 수를 결정하는 것 또한 하나의 이슈가 될 수 있는데, 이번 포스팅에서는 주성분의 수를 결정하는 세 가지 규칙들을 비교함으로써 그 방법과 차이를 알아 보겠습니다. 세 가지의 기법으로는, Broken-stick Model Scree plot Average of Eigenvalue.. 2021. 11. 27. 이전 1 다음 반응형