50+ days of Machine Learning

Posts

[Day 10] 주택가격예측 모델 비교

1/11/2024 10:54:00 pm

안녕하세요! 오늘은 Day 10입니다! 20% 넘었다! 오늘 연습했던 것 House price basic prediction model comparison 오늘의 모델이 다음과 같은 데이터를 사용한다 대부분 범주형 데이터인데 pd.get_dummies으로 처리하였다 주택 사이즈 (area)와 가격에 밀접한 상관 관계가 있어서 다음 시각화를 만들었다 이상치 데이터도 있구나 처리하기 위해 z-score이나 IQR 방식을 사용하게 되었다. 그 다음에 피처 선택은 가격과 제일 밀접한 상관 관계가 있는 어떤 톱1(top10) 피처를 찾기 위해 .corr() 방식 쓰고 ```'area', 'bathrooms_2', 'airconditioning', 'stories_4', 'bedrooms_2', 'mainroad', 'prefarea', 'guestroom', 'furnishingstatus_unfurnished', 'parking_2'로 나왔다. 모델 구성은 단순 모델: LinearRegression 만든 후에 DecisionTreeRegressor, RandomForestRegressor, XGBRegressor와 비교해 봤다. 결과는: LinearRegression - Train MSE: 0.81978 | Test MSE: 1.37829 DecisionTreeRegressor - Train MSE: 1.06803 | Test MSE: 1.64172 RandomForestRegressor - Train MSE: 0.91908 | Test MSE: 1.41498 XGBRegressor - Train MSE: 0.26813 | Test MSE: 1.60890 마지막으로 PolynomialRegression 모델도 구성하여 비교해 봤는데 결과는: 뜨거운 물이 왼손 손가락에 쏟아져서 이거 빨리 쓰고 다시 찬 물에 넣을게요! 너무 ...

[Day 9] CGPA 예측 단순 선형 회귀 모델

1/10/2024 08:32:00 pm

안녕하세요! 오늘은 Day 9입니다. Linear regression to predict student GCPA 오늘 단순한 예측 모델 구성해 봤다. 데이터는 clean이며 다음과 같다 간단한 시각화도 만들어 봤다 CGPA 高 => placement = 1 확율도 高 IQ는 상관없는 것 같다 그냥 재미로 ~ 피처는 iq와 placement, 목푯값은 cgpa로 택했다 scikit-learn의 LinearRegression()으로 R-squared은 0.69937나왔는데 statsmodel로 구성했던 모델와 비슷하다. 예상대로 iq의 중요성이 낮다. 오늘은 이상입니다. 내일 뵐게요 ^^

[Day 8] 시계열 - Trend 모델 구성

1/09/2024 11:32:00 pm

안녕하세요! 오늘은 Day 8입니다! 오늘은 네팔에서 2013년부터 2021년까지 채소 및 과일(Provisions)의 가격에 대한 기본적인 Trend 모델을 만들어보았다 Basic trend model for Provision prices in Nepal 데이터는 전처리 한 뒤 시각화 만들었다 이동 평균도 만들었다 Trend 모델 구성한 후, Trend 예측은 오늘 구성한 모델도 간단한데 연습하는 데 도움이 되었다. 오늘 이상입니다 내일 뵐게요 ^^

[Day 7] 시계열에 대해 배운 것을 실제로 적용한다

1/08/2024 11:58:00 pm

안녕하세요! 오늘은 Day 7입니다! 오늘 굉장히 재미있는 것을 도전했다. Kaggle의 시계열 course에서 배운 것을 튜터리얼 데이터 아니라 다른 데이터를 사용하여 적용해 봤다. 한·미화(韓美貨)의 환율 예측 - 선형 회귀 모델 서울 자전거 대여 수요 예츨 - 선형 회귀 모델 및 계절성 피처 자세한 정보는 위 링크 클리크하여 확인해 주시면 감사하겠습니다. 내용을 요약하자면: 한·미화(韓美貨)의 환율 예측 - 선형 회귀 모델 Kaggle의 시계열 course를 따라 한-미화의 환율 예츨 모델을 구성하고자 한다. 데이터는 누락 데이터를 처리하는 데 interpolate() 사용하고 시각화 좀 하기도 했다. 피처 엔지니어링: lag_1 ( 지연값) 하나만 만들었다. won_dolla와 관계를 살펴보기 위해 위에 있는 시각화 만들었다. 관계는 이렇게 선형을 따라 lag_1 피처가 won_dollar에 영향을 준다는 뜻이다 모델 구성: 간단한 선형 회귀 모델을 구성한다 모델 평가: R-squared, MSE, MAE를 사용했다 결과: R-squared: 0.9940588280410957 Mean Squared Error: 63.36394443791358 Mean Absolute Error: 4.608992127520536 Homoscedasticity check: 모델 결과는 좋으면서도 피처는 lag_1밖에 안 써서 좋은 모델이 아니라는 것을 잘 알고 있는데 그냥 어제 배운 것을 실제로 적용하도록 했다. 서울 자전거 대여 수요 예츨 - 선형 회귀 모델 및 계절성 피처 서울 자전거 수요 데이터를 활용한 시계열 예측을 살펴봤는데 이 데이터에는 서울에서 대여한 자전거의 일별 및 시간별 정보와 날씨 정보가 포함되어 있다. 목표는 계절성 피처과 휴일 정보를 통합한 기본 선형 회귀 모델을 구성하는 것이었다. Categorical 피처 처리 연습했다 또 시각화 만들어 봤다. Trend 있는지 확인했다 (특별 trend 없음)...

[Day 6] Time Series Course - Kaggle

1/07/2024 09:41:00 pm

안녕하세요! 오늘은 Day 6입니다! Kaggle의 시계열 에 대한 내용을 공부했다. 내용이 좀 어려우면서도 흥미를 느끼게 되었다. Linear Regression With Time Series 시간 순차성 (Time-Step) 피처 시간축에서 직접 추출 가능하며 시작부터 끝가지 일정 시간 간격으로 측정된 년, 월, 일, 시간 특성이 대표적이다. 이는 관측값이 주기적 성질을 지니고 있을 때 유용한 특성이다 지연값 (Lag) 피처 관측값에 시간 차이로 발생되며 현재 관측값들은 이전 관측값들로 표현된다. 이는 관측값이 자기 상관 또는 계열 상관성을 지니고 있을 때 유용한 특성이다 Trend 전체적으로 긴구간에 걸쳐 일정하게 증가 또는 감소하는 패턴을 가리이다 이동 평균으로 trend 발견할 수 있으며 once we've identified the shape of the trend, we can attempt to model it using a time-step feature Seasonality Seasonality는 시간 순차적(Time Step) 특성에서 발생되는 대표적 요인 중 하나이며 여기서 계절성(Seasonaliy)이란 주기적 변동을 의미하며 시계열 데이터에서는 일, 주, 월, 년 단위로 관측값의 변동이 반복적으로 관측될 때 계절성을 나타낸다고 표현한다 여기 Fourier Features 나왔는데 쉽게 설명하자면 Used to capture and model periodic patterns in time series data They are features based on amplitudes and phases of sine and cosine functions with different frequencies Commonly used for tasks like forecasting to enhance the model's ability to handle cyclic variations. They enable mo...

[Day 5] Kaggle 'Learn' courses

1/06/2024 10:11:00 pm

안녕하세요! 오늘은 Day 5입니다! 오늘 Kaggle에서 굉장히 재미있고 쓸모 있는 것을 찾았다. 그 Course가 머신러닝의 이론적이고 실용적인 면을 섞어 재미있게 공부할 수 있으며 오늘 한 것은: 아래에 각 Course의 내용을 요약해 봤다. Intro to Machine Learning 초급 모델 생성과 훈련, 예측 모델 검증 모델 선택 - 언더피팅 및 오버피팅 초급 RandomForest 모델 생성 Intermediate Machine Learning 누락 데이터 처리 방법 컬럼 삭제 Imputation 범주형 변수 처리 방법 컬럼 삭제 Ordinal encoding One-Hot Encoding Pipelines Define preprocesser Define model Create pipeline 머신러닝 처음 공부했을 때 (2022년 여름~) pipeline에 대해 안 배우기도 하며 있는지까지 몰랐다 Cross-Validation XGBoost 모델 Data leakage (target leakage 및 train-test contamination) Data Visualization seaborn으로 시각화 선도표 막대그래프 및 히트 맵 산점도 Feature Engineering Mutual Information Mutual information is a lot like correlation in that it measures a relationship between two quantities. The advantage of mutual information is that it can detect any kind of relationship, while correlation only detects linear relationships. features should be int Clustering with K-Means Principal Component Analysis (PCA) Its primary goal is to red...

[Day 4] 머신러닝 교과서 및 Microsoft의 ML-For-Beginners

1/05/2024 09:39:00 pm

안녕하세요! 오늘은 Day 4입니다! 오늘의 내용 요약: 파이썬 머신러닝을 이용한 금융 리스크 관리 Microsoft의 ML-For-Beginners 강의 2 - Regression 첫 번째, 교과서의 목차를 살펴볼 때 마음에 들었는데 오늘 책을 도착해 봤으니 그렇지 않았다. 내용이 지나치게 사변적이다고 (theoretical) 보고 환불 신청했다. 예전에 파이썬 딥러닝 텐서플로 와 파이썬 딥러닝 머신러닝 입문 사고 여러번 온라인 강의를 다 봐서 이제 현실적인(practical) 과제로 빠르게 습득할 수 있다고 믿고 있다. 두 번째로, Microsoft 강의의 Regression 부분을 공부했다. 내용은 다음과 같다. 1. Tools는 그냥 scikit-learn, Jupyter notebooks 등을 간단하게 소개했다. 2. Data는 데이터 준비하는 방식과 matplotlib을 소개했다. 요즘에 인공지능으로 시각화 쉬워졌는데 제가 직접 하는 시각화를 해 봤다. (호박 매출액 및 종류 데이터) 3. Linear 및 Polynomial regression 소개했다 4. Logistic regression 소개했고 Linear과 어떻게 분류해야 하는지와 어떤 때에 어떤 것을 사용하면 좋은지 소개했다 Linear Regression: Used when modeling the linear relationship between a dependent variable and one or more independent variables. Logistic Regression: Used for binary classification problems, where the goal is to classify instances i...

[Day 3] 시계열 예측 소개

1/04/2024 11:00:00 pm

안녕하세요! 오늘은 Day 3입니다! 오늘 공부 시간이 많이 못 나서 시계열 예측에 대해 간단하게 알아봤다. 오늘 재미있는 책을 주문하여 내일 도착하고 뭔지 알려줄 것이다 ㅎㅎ. 오늘의 내용: 시계열 예측 Microsoft의 초보 위한 머신러닝 강의 시계열 예측은 주어진 과거 데이터를 기반으로 미래 값을 예측하는 기술이며 이는 다양한 응용 분야에서 사용되며, 금융, 생산, 건강 등 다양한 분야에서 유용하게 적용된다. 시계열 예측 하려면 Facebook에서 개발한 Prophet은 사용이 간편하면서도 강력한 성능을 제공한다. Prophet 손쉽게 사용할 수 있다 ( 출처 ) 이것도 오늘 찾았다. Microsoft에서 무료 머신러닝 GitHub repo이고 내용에 pre-lecture quiz-강의-post-lecture quiz-practical assignment이 포함된다. 오늘 시간을 그렇게 못 찾아서 1-Introduction밖에 할 수 없는데 앞으로 매주매주 해보도록 할 것이다. 내일 뵐게요! P.S. 오늘 새로운 안경을 사러 갔는데 안경을 살 때 눈이 너무 높아서 다양한 안경 가계를 방분했어도 마음에 드는 안경테가 없었다.

[Day 2] Machine learning course by caltech 끝

1/03/2024 08:55:00 pm

안녕하세요! 오늘 공부한 거 요약하자면: Yaser Abu-Mostafa (CalTech 교수)의 머신러닝 강의를 보기 끝냈다 Codecademy의 Master statistics with Python 도 대충 공부했다 첫 번째, Abu-Mostafa 교수님의 나머지 강의를 공부했는데 오늘은 메모도 간단하게 해 봤다 강의 12 - 정규화 강의 13 - 검증 강의 14 - SVM 강의 15 - Kernel methods 이번엔 수학이 너무 많아서 메모 많이 안 했다 강의 16 - Radial basis functions 강의 17 - Three learning principles 강의 18 - 결론 - 교수님이 그냥 강의의 곤텐츠 요약하셔서 메모 안 했다 슬프하게 ~ 강의가 끝났다 ~ 그래도 그런 높은 수준 (caltech 수준)의 강의를 들을 기회가 있어서 기쁘다. 두 번째, 그 Master statistics with Python 거 왜 하냐면 test statistics에 대해 배워 암가해 보기 위해서다. 결국엔 ~ 습득했다 믿고 있다. 앞으로 지식을 활용해야 한다! 또한, 아래 사진도 봤다. 그리고, 챗GPT 통해, 이렇게 간단히 요약했다 오늘 이상입니다. 감사합니다. 내일 뵐게요!