SAS11 [SAS 프로그래밍 실습] IML로 Kernel Regression 구현하기 Kernel Regression 1. Introduction 지난 시간 우리는 Kernel 회귀 알고리즘의 구성과 방법론에 대해 배워보았습니다. 여러분도 알다시피, 커널 회귀는 데이터 간의 심플한 선형 관계가 없을 때 사용되는 기법입니다. 오늘은 연료/산소 비율에 따른 질소산화물(대기 오염에 기여하는) 데이터로 Kernel Regression을 구현해보도록 하겠습니다. 2. Data data gas; label NOx = "Nitric oxide and nitrogen dioxide"; label E = "Air/Fuel Ratio"; input NOx E @@; datalines; 4.818 0.831 2.849 1.045 3.275 1.021 4.691 0.97 4.255 0.825 5.064 0.8.. 2022. 8. 10. [SAS 프로그래밍 실습] Restricted Cubic Regression [Restricted cubic Regression] 1. Introduction 안녕하세요. 지금까지 많은 회귀 모형들을 다뤄봤는데요, 저도 공부하면서 정말 신기한 회귀모형들을 찾게되어 새롭습니다. 오늘은 비선형 회귀모형의 한 종류인 Restricted cubic을 적용한 회귀에 대해 배워보겠습니다. 실제 상황에서 데이터는 비선형인 경우가 굉장히 많습니다. 이 경우 Restricted Cubic이라는 방법론을 사용하여 비선형 적합을 할 수 있습니다. 본 실습에선 sashelp 라이브러리에서 제공하는 Cars데이터를 사용하겠습니다. 2. Data 자동차 데이터로, 각 자동차의 제조사와 무게, 모델, 가격 , MPG(city & Highway)등을 담고 있습니다. Sashelp 라이브러리에서 쉽게 찾을 수.. 2022. 8. 9. [SAS 프로그래밍 실습] Monte-Carlo Estimate Monte Carlo Estimate 1. Introduction 안녕하세요 박세훈입니다. 몬테카를로 알고리즘에 대해서 들어 보신적 있나요? 흔히 확률적 기법이라고도 불리는 위 알고리즘은, 대용량 데이터에서 낮은 정확도지만 빠른 성능을 보이는 알고리즘입니다. 자세한 이론은 향후 “SAS 고수의 팁”란에 추가로 포스팅하겠습니다. 예를 들어 100억개의 신용카드 트랜잭션 데이터의 중앙값을 찾아보도록 하죠. 전통적인 방식의 PROC MEAN을 사용하면 굉장히 오랜 시간이 걸립니다. 하지만 사실 중앙값이 16.45$든, 16.5$든 중요하지 않죠. 근사값만 구하면 되니까요. 이럴 때 사용되는 것이 몬테카를로 기법입니다. 2. Data 학습속도와 성능 차이를 비교하기 위해, 10000000(천 만개) 개의 무작위.. 2022. 1. 20. [SAS 프로그래밍 실습] 가중 회귀 분석(Weight Regression) 구현하기 부제 : [PROC REG 사용하여 회귀분석 실습하기] *SAS University Edition은 SAS Institute에서 무료로 제공하는 통계 분석 소프트웨어입니다. 관련 포스팅은 차후에 진행하도록 하겠습니다. 1. Introduction 지난 시간, 우리는 가중 회귀 (가중 최소 제곱)의 이론과 활용 사례를 배웠습니다. 이번에는 SAS University Edition를 활용하여 가중 회귀를 구현해보도록 하겠습니다. University Edition 실행 화면입니다. 2. Data 데이터는 SAS Global 커뮤니티의 Rick Wicklin 분석가가 제공한 것이며, 저희가 계산할 w가 산출 되어있는 값이므로 실습에 적절합니다. data RegData; input y.. 2022. 1. 19. [SAS 프로그래밍 실습] Histogram Overlay Histogram Overlay 1. Introduction 안녕하세요. 박세훈입니다. 이번엔 비교적 가벼우면서 쓸 만한 히스토그램 다루기 내용을 가져왔습니다. 데이터는 Python 예제로도 많이 사용되는 Iris 데이터 입니다. 2. SGPANEL 사용 proc univariate data=sashelp.iris; class Species; var SepalLength; /*기술 통계량 계산 */ histogram SepalLength / nrows=3 odstitle="PROC UNIVARIATE with CLASS statement"; ods select histogram; /* 히스토그램 표시 */ run; Iris(붓꽃)데이터를 사용했구요, var로는 꽃받침 길이로 선택했습니다. 붓꽃에는 크게 .. 2022. 1. 17. [SAS 프로그래밍 실습] Quantile Regression Quantile Regression 1. Introduction 안녕하세요. 박세훈입니다. 오늘은 회귀분석의 한 종류인 Quantile Regression에 대해 배워보겠습니다. 데이터는 때때로 같은 X값에 여러 개의 Y값을 가진 경우가 있습니다. 본 실습에선 X가 년도이기 때문에 연도별로 여러 개의 Y값을 갖게 되죠. 이럴 때 각 Y값 들의 분포에 따라 다른 모델을 적용하고 합니다. Quantile Regression은 이를 가능케 해줍니다. 2. Data 이 데이터는 미국 통계학 교수 459명의 연도별 급여를 측정한 데이터입니다. data salary; input Salaries Years @@; call streaminit(1); /* for blog example, add random jitter.. 2022. 1. 16. [SAS 프로그래밍 실습] Quantile Regression Quantile Regression 1. Introduction 안녕하세요. 박세훈입니다. 오늘은 회귀분석의 한 종류인 Quantile Regression에 대해 배워보겠습니다. 데이터는 때때로 같은 X값에 여러 개의 Y값을 가진 경우가 있습니다. 본 실습에선 X가 년도이기 때문에 연도별로 여러 개의 Y값을 갖게 되죠. 이럴 때 각 Y값 들의 분포에 따라 다른 모델을 적용하고 합니다. Quantile Regression은 이를 가능케 해줍니다. 2. Data 이 데이터는 미국 통계학 교수 459명의 연도별 급여를 측정한 데이터입니다. data salary; input Salaries Years @@; call streaminit(1); /* for blog example, add random jitter.. 2022. 1. 16. [SAS 프로그래밍 실습] 로직스틱(LOGISTIC) 회귀를 이용한 PROC PLM 실습 부제 : SAS PROC PLM 기능 *본 포스팅은 로지스틱 회귀분석에 대한 선수 지식이 요구됩니다. 1. Introduction 지난 시간 동안 여러 회귀 모형을 실습해보았습니다. 회귀 모형을 구현하면서, 모델을 수정하고 파라미터를 조절하고 코드를 수정하는 과정을 여러 번 거칩니다. 사실 분석가 입장에서 최적의 모델을 구현하기 위해 실행-수정-실행-수정-실행 등의 프로세스는 불가피하고, 또 불편합니다. PLM은 이런 과정을 효율적으로 개선해줍니다. 즉, 사후모델링에 아주 유용합니다. 그렇기 훗날을 위해 여러 번 호출이 필요한 모델에 적용합니다. 2. Assessment PROC PLM에는 크게 4가지의 기능이 있습니다. 1. SCORE 문을 사용하여 새로운 데이터에 대한 Scoring 2. .. 2022. 1. 6. [SAS 프로그래밍 실습] 로직스틱 회귀 분석 [2편](Logistic Regression) Logistic Regression 1. Introduction 이번에도 지난시간에 이어서 Logistic 회귀 실습을 진행해보겠습니다. 이번에는 모든 변수를 사용하여 Logistic을 구현하고, 교차 효과를 적용하고 그래프를 그려보겠습니다. 2. Data 저번 시간과 동일한 데이터를 사용하겠습니다. data Survival; input ID Status Shock Malnutrition Alcoholism Age BowelInfarction; datalines; 1 0 0 0 0 56 0 2 0 0 0 0 80 0 3 0 0 0 0 61 0 4 0 0 0 0 26 0 5 0 0 0 0 53 0 6 1 0 1 0 87 0 7 0 0 0 0 21 0 8 1 0 0 1 69 0 9 0 0 0 0 57 0 1.. 2022. 1. 4. 이전 1 2 다음 반응형