[Day 10] 주택가격예측 모델 비교

 안녕하세요!
오늘은 Day 10입니다!

20% 넘었다! 


오늘 연습했던 것


오늘의 모델이 다음과 같은 데이터를 사용한다



대부분 범주형 데이터인데 pd.get_dummies으로 처리하였다


주택 사이즈 (area)와 가격에 밀접한 상관 관계가 있어서 다음 시각화를 만들었다


이상치 데이터도 있구나


처리하기 위해 z-score이나 IQR 방식을 사용하게 되었다.

그 다음에 피처 선택은 가격과 제일 밀접한 상관 관계가 있는 어떤 톱1(top10) 피처를 찾기 위해 .corr() 방식 쓰고 ```'area', 'bathrooms_2', 'airconditioning', 'stories_4', 'bedrooms_2', 'mainroad', 'prefarea', 'guestroom', 'furnishingstatus_unfurnished', 'parking_2'로 나왔다.


모델 구성은

단순 모델: LinearRegression 만든 후에 DecisionTreeRegressor, RandomForestRegressor, XGBRegressor와 비교해 봤다.

결과는:

LinearRegression - Train MSE: 0.81978 | Test MSE: 1.37829

DecisionTreeRegressor - Train MSE: 1.06803 | Test MSE: 1.64172

RandomForestRegressor - Train MSE: 0.91908 | Test MSE: 1.41498

XGBRegressor - Train MSE: 0.26813 | Test MSE: 1.60890


마지막으로 PolynomialRegression 모델도 구성하여 비교해 봤는데 결과는:




뜨거운 물이 왼손 손가락에 쏟아져서 이거 빨리 쓰고 다시 찬 물에 넣을게요! 너무 아프다 ㅜㅜ

오늘 이상입니다!

내일 뵐게요!


Popular posts from this blog

[Day 198] Transactions Data Streaming Pipeline Porject [v1 completed]

[미리 공부] 기초 통계 복습 (Day 1는 1월2일)

[Day 61] Stanford CS224N (NLP with DL): Machine translation, seq2seq + a side CDCGAN mini project