[Day 7] 시계열에 대해 배운 것을 실제로 적용한다

 안녕하세요!
오늘은 Day 7입니다!


오늘 굉장히 재미있는 것을 도전했다. Kaggle의 시계열 course에서 배운 것을 튜터리얼 데이터 아니라 다른 데이터를 사용하여 적용해 봤다.


자세한 정보는 위 링크 클리크하여 확인해 주시면 감사하겠습니다.

내용을 요약하자면:

  • 한·미화(韓美貨)의 환율 예측 - 선형 회귀 모델

Kaggle의 시계열 course를 따라 한-미화의 환율 예츨 모델을 구성하고자 한다.
데이터는
누락 데이터를 처리하는 데 interpolate() 사용하고 시각화 좀 하기도 했다.

피처 엔지니어링:

lag_1 (지연값) 하나만 만들었다. 

won_dolla와 관계를 살펴보기 위해 위에 있는 시각화 만들었다. 관계는 이렇게 선형을 따라 lag_1 피처가 won_dollar에 영향을 준다는 뜻이다

모델 구성:

간단한 선형 회귀 모델을 구성한다
모델 평가:
R-squared, MSE, MAE를 사용했다

결과:
R-squared: 0.9940588280410957
Mean Squared Error: 63.36394443791358
Mean Absolute Error: 4.608992127520536

Homoscedasticity check:

모델 결과는 좋으면서도 피처는 lag_1밖에 안 써서 좋은 모델이 아니라는 것을 잘 알고 있는데 그냥 어제 배운 것을 실제로 적용하도록 했다.


  • 서울 자전거 대여 수요 예츨 - 선형 회귀 모델 및 계절성 피처 

서울 자전거 수요 데이터를 활용한 시계열 예측을 살펴봤는데 이 데이터에는 서울에서 대여한 자전거의 일별 및 시간별 정보와 날씨 정보가 포함되어 있다. 목표는 계절성 피처과 휴일 정보를 통합한 기본 선형 회귀 모델을 구성하는 것이었다.

Categorical 피처 처리 연습했다

또 시각화 만들어 봤다.




Trend 있는지 확인했다 (특별 trend 없음)

계절성 있는지 확인했다

Annual 있는데


Daily 없나 보다

계절성 피처 만든 후 모델 구성했다 결과는
그리고 휴일 데이터도 포함한 후 두 번째 모델 구성했다


두 모델을 비교하면



지금 1월8일 오후 11시58분인데 오늘의 글을 publish 할게요.

오늘 이상입니다.

내일 뵐게요!










Popular posts from this blog

[Day 198] Transactions Data Streaming Pipeline Porject [v1 completed]

[미리 공부] 기초 통계 복습 (Day 1는 1월2일)

[Day 61] Stanford CS224N (NLP with DL): Machine translation, seq2seq + a side CDCGAN mini project