Hello :) Today is Day 182! A quick summary of today: learning about IV, WoE, and finding a best model for an imbalanced insurance fraud imbalanced dataset The time has come to start thinking about the project for MLOps zoomcamp. I was looking around for some interesting dataset related to PD (probability of default) or LGD (loss given default) or EAD (exposure at default), and I found this notebook. Warning - it is fairly long. But inside I saw something that interested me - it talked about WoE and IV. It says that they are good estimators for evaluating features for fraud and similar classification tasks. This website's definition was the most clear. Weight of Evidence (WoE) It is a technique used in credit scoring and predictive modeling to assess the predictive power of independent variables relative to a dependent variable. Originating from the credit risk world, WoE measures the separation between "good" and "bad" customers. Here, "bad" custom...
모험을 시작하기 전에 기초 지식을 복습하고자 했다. 오늘 SPSS 대안 프로그램을 찾아보려고 해서 JASP에 대해 알게 되었다. 유용한 프로그램인 것 같아서 선회귀와 기술통계를 내려고 했는데 재미있었다. 그런데 JASP에 대해 더 알기 전에 '기초 통계 지식을 좀 복습을 하고자 하면 좋을 것 같아'란 생각을 들었다. 다행히, Coursera에서 Stanford University의 Guenther Walther 교수님께서 진행된 Introduction to Statistics 무료 강좌가 있다. 좀 부족한 부분은 다양한 검정통계 하는 거고 (F test, t-test, chi-square 등) 이제 JASP 아니면 다른 통계 프로그램 사용하게 되어도 이런 부분을 좀 더 자세히 집중하여 공부하면 된다. 특히 homoscedasticity 및 heteroscedasticity 개념을 기억에 남았다. Homoscedasticity (선): Definition: In a homoscedastic dataset, the variance of the errors (residuals) is constant across all levels of the independent variable(s). In simpler terms, the spread of the residuals is the same throughout the range of predictor values. Heteroscedasticity (악): Definition: Heteroscedasticity occurs when the variance of the errors is not constant across all levels of the independent variable(s). In other words, the spread of residuals changes as the values of the independe...
안녕하세요! 모험을 시작했습니다! 오늘은 기초 머신러닝 지식을 복습해 보도록 했으며 California Institute of Technology의 Yaser Abu-Mostafa 교수님이 진행된 머신러닝 강의를 봤다. 과정은 강의 18개를 포함하며 교수는 가장 유명하고 높이 평가 받는 Yaser Abu-Mostafa이다. 강의는 2012년에 진행했는데도 머신러닝 기초 지식과 기초 개념 배우려면 도움이 될 거 같다. 이 강의를 우연히 찾게 되었는데 첫 강의부터 교수님을 마음에 딱 들어서 계속 봤다. 강의가 굉장히 재미있어서 오늘 1번부터 11번까지 강의를 다 공부했고 내일 끝낼 거 같다. 머신러닝 왕초보 아닌데도 그런 강의가 좋다고 생각한다. Each lecture was filled with different math functions and math explanations, and the lecturer explained it all very well, step by step, and looking back at it, it seems complicated in the end, but during the lecture the explanations were very clear. 강의 내용이 다음과 같다. 1. 학습 문제 2. 학습이란 것이 가능할까? 3. 선형 모델 I 4. 실수 및 노이즈 5. 훈련 대 테스팅 6. 일반화 이론 7. The VC dimension 9. 선형 모델 Il - "If you look at linear models, you can think of them as an economic car. They get you where you want to go and they dont consume a lot of gas. You may not be very proud of them, but they actually do the job. It is remarkable how often the...