안녕하세요, 파키노 랩입니다.
1. Introduction
분석가들은 프로젝트를 진행하면서 여러가지 분석기법을 선정하고, 선택하며 최고의 퍼포먼스를 이끌어내기위해 고민합니다. 데이터의 형태, 종속 변수의 포맷 등 여러가지 사항을 고려하여 모델을 선택하는 것 또한 분석가의 역량입니다. 아래 'Machine Learning Algorithms Cheat Sheet'를 살펴 볼까요?
2. Selection
예를 들어, SVM(Support Vector Machine)의 경우 모델 학습시간이 오래 걸려 대용량의 데이터에는 적절하지 않습니다. 또한 RF(Random Forest)와 같은 블랙박스 기법은 변수의 인과관계를 정확히 따져야하는 경우 적절하지 않죠.
위의 자료는 우리가 어떤 상황에서 어떤 모델을 선택해야 조금 더 효율적인 분석을 진행할 수 있는지 가이드를 제시해줍니다. 이 글을 읽는 분들에게도 많은 도움이 되었으면 좋겠네요.
3. Extension
물론 위의 가이드가 모델 선택의 근거와 완벽한 모델 기법을 제시하진 않습니다. 그 후의 과정은 데이터 분석가의 역량에 따라 선택될 것입니다. 예를 들어 RF기법과 XGBoost 모델을 사용했을 때, 여러분은 어떤 근거로 RF를 선택했는지 설명할 수 있었야합니다. "본 데이터의 이상치는 부적절한 측정법에 의해 축적되었어요. 이상치에 가중을 더하는 XGBoost는 본 데이터와 적절하지 않다고 판단하여 제외하였습니다" 라고 말할 수 있어야 하죠.
데이터가 너무 많거나, 속도보다 정확도가 중요하거나, 혹은 정확도가 속도보다 중요하거나, 여러 데이터 프로젝트에선 각각 우선수위로 두어야 할 상황들이 있습니다. 도메인에 따라 다르기도 하고, 조직이 추구하는 목표에 따라 다르기도 하죠. 데이터 분석에 '정답'이라고 하는 건 없는 것 같습니다.
실제로 공모전에 나가 수상을 받은 모형을 살펴 보면, 논리적으로 적합한 모델이 성능이 떨어지는 경우가 있고, 블랙-박스(결과에 대한 설명이 어려운 모형) 모형이면 모델 성능이 좋아도 실무에선 사용하지 않는 경우가 있습니다. 철저하게 숫자로 이루어진 분야이지만, 때론 숫자로 설명되지 않는 부분이 있다는 뜻이겠죠.
중요한 건 데이터 사이언티스트가 어떤 근거로 어떤 Action을 취했냐는 거고, 그 것이 구성원들에게 충분히 납득할 이유냐는 겁니다. 그렇기에 데이터 공부는 끝 없이 어려운 것 같네요.
오늘도 즐거운 머신러닝 공부가 되셨으면 합니다.
'통계학' 카테고리의 다른 글
[데이터 분석] Weighted Linear Regression- 가중 선형 회귀 (Weighted Least Square) (1) | 2021.12.16 |
---|---|
[데이터 분석] Logistic Regression- 로지스틱 회귀 분석 (0) | 2021.12.15 |
[데이터 분석] Kernel Regression- 커널 회귀 (1) | 2021.12.06 |
[데이터 분석] Funnel Plot - 깔때기 도표 (0) | 2021.12.05 |
[회귀 분석] 단순 회귀 모형 추정, 방정식 유도 (1) | 2021.11.28 |
댓글