[Day 6] Time Series Course - Kaggle
안녕하세요!
오늘은 Day 6입니다!
Kaggle의 시계열에 대한 내용을 공부했다.
내용이 좀 어려우면서도 흥미를 느끼게 되었다.
- Linear Regression With Time Series
- 시간 순차성 (Time-Step) 피처
- 시간축에서 직접 추출 가능하며 시작부터 끝가지 일정 시간 간격으로 측정된 년, 월, 일, 시간 특성이 대표적이다. 이는 관측값이 주기적 성질을 지니고 있을 때 유용한 특성이다
- 지연값 (Lag) 피처
- 관측값에 시간 차이로 발생되며 현재 관측값들은 이전 관측값들로 표현된다. 이는 관측값이 자기 상관 또는 계열 상관성을 지니고 있을 때 유용한 특성이다
- Trend
- 전체적으로 긴구간에 걸쳐 일정하게 증가 또는 감소하는 패턴을 가리이다
- 이동 평균으로 trend 발견할 수 있으며 once we've identified the shape of the trend, we can attempt to model it using a time-step feature
- Seasonality
- Seasonality는 시간 순차적(Time Step) 특성에서 발생되는 대표적 요인 중 하나이며 여기서 계절성(Seasonaliy)이란 주기적 변동을 의미하며 시계열 데이터에서는 일, 주, 월, 년 단위로 관측값의 변동이 반복적으로 관측될 때 계절성을 나타낸다고 표현한다
- 여기 Fourier Features 나왔는데 쉽게 설명하자면
- Used to capture and model periodic patterns in time series data
- They are features based on amplitudes and phases of sine and cosine functions with different frequencies
- Commonly used for tasks like forecasting to enhance the model's ability to handle cyclic variations.
- They enable models to understand and predict periodic structures in the data, enhancing overall predictive performance in tasks with recurring patterns
- Periodogram
- 무슨 Fourier 피처 사용하냐면 Periodogram을 살펴보면 알 수 있다
- 여기, 매년 ~ 연 4회 발행 cycle와 weekly cycle도 있는 것을 볼 수 있다
- Hybrid Forecasting
- 직선회귀는 trend를 밝혀낼 수는 있지만 복잡한 상호작용을 쉽게 밝혀낼 수 없다. 한편, XGBoost는 반대로 복잡한 상호작용을 밝혀낼 수는 있지만 trend를 밝혀낼 수 없다
- "We could imagine learning the components of a time series as an iterative process: first learn the trend and subtract it out from the series, then learn the seasonality from the detrended residuals and subtract the seasons out, then learn the cycles and subtract the cycles out, and finally only the unpredictable error remains."
오늘 강의를 1가지밖에 못 했는데 내용이 좀 어려웠다. 그래도 재미있고 앞으로 실제로 위 방법을 적용하면 좋겠다.
내일도 Kaggle에서 notebook이나 강의를 공부할 생각이다.
오늘은 이상입니다!
내일 뵐게요! ^^