[Day 10] 주택가격예측 모델 비교
안녕하세요!
오늘은 Day 10입니다!
20% 넘었다!
오늘 연습했던 것
오늘의 모델이 다음과 같은 데이터를 사용한다
대부분 범주형 데이터인데 pd.get_dummies으로 처리하였다
주택 사이즈 (area)와 가격에 밀접한 상관 관계가 있어서 다음 시각화를 만들었다
이상치 데이터도 있구나
처리하기 위해 z-score이나 IQR 방식을 사용하게 되었다.
그 다음에 피처 선택은 가격과 제일 밀접한 상관 관계가 있는 어떤 톱1(top10) 피처를 찾기 위해 .corr() 방식 쓰고 ```'area', 'bathrooms_2', 'airconditioning', 'stories_4', 'bedrooms_2', 'mainroad', 'prefarea', 'guestroom', 'furnishingstatus_unfurnished', 'parking_2'로 나왔다.
모델 구성은
단순 모델: LinearRegression 만든 후에 DecisionTreeRegressor, RandomForestRegressor, XGBRegressor와 비교해 봤다.
결과는:
LinearRegression - Train MSE: 0.81978 | Test MSE: 1.37829
DecisionTreeRegressor - Train MSE: 1.06803 | Test MSE: 1.64172
RandomForestRegressor - Train MSE: 0.91908 | Test MSE: 1.41498
XGBRegressor - Train MSE: 0.26813 | Test MSE: 1.60890
마지막으로 PolynomialRegression 모델도 구성하여 비교해 봤는데 결과는:
뜨거운 물이 왼손 손가락에 쏟아져서 이거 빨리 쓰고 다시 찬 물에 넣을게요! 너무 아프다 ㅜㅜ
오늘 이상입니다!
내일 뵐게요!