1. 시계열 데이터를 위한 datetime, Numpy & Pandas

공부기록/시계열

1. 시계열 데이터를 위한 datetime, Numpy & Pandas

kaizen_bh 2023. 12. 12. 08:41

통계 등의 수학을 모르지만 회사의 시계열 데이터를 다뤄보고자 시계열 공부를 시작하게 되었다

(유데미 시계열 강의)[https://www.udemy.com/course/250-timeseries-kor-sub-top-100/]

유데미의 시계열 강의를 보면서 공부한 내용들 위주에 부족한 부분들을 검색하고 최종 목표는 회사의 실제 데이터에 적용한 사례까지 소개하는 것이다.

공부할수록 통계 모델을 사용하여 시계열 데이터에 대해 분석 및 모델링을 하는 내용들을 보면서 내가 수학적인 부분에 대해 제대로 이해하지 못했는데 정리해서 블로그에 올리는 게 맞나 싶다가 나 같은 수학을 모르는 입문자들이 이론보다 코드적인 부분들을 먼저 가져가고 적용해 보고 이론 부분을 채워나가는 식으로 글을 한번 정리해보고 싶었다. 그래서 글의 주 내용은 실제 코드 위주가 될 것이다.

1. 시계열 데이터를 위한 datetime, Numpy & Pandas

시계열 데이터의 경우 데이터셋이 짧게는 초, 분단위 부터 시간, 일자, 주, 월, 년 시간순으로 일정 간격으로 데이터들이 나열되어 있다.

그래서 시간을 담고 있는 칼럼 또는 인덱스를 핸들링할 줄 알면 시계열 데이터를 다루는데 유용하다.

주로 시간을 다루는 라이브러리로는 파이썬의 datetime이 있고 판다스의 pd.to_datetime 사용하기도 한다.

이전에 참여한 데이콘 시계열 대회 수상자 코드리뷰 스터디에서 수상자팀은 시계열 데이터 전처리에 주로 판다스의 pd.to_datetime을 사용하였다.

전체 내용을 다루지는 않고 주로 사용했던 기능 위주로만 간단히 정리해보려 한다.

1-1. datetime

파이썬에 내장된 모듈 중 하나로 날짜와 시간을 다룬다. 간단하게 import 해서 사용가능하다.

# Import the entire module:
import datetime

사용법은 어렵지 않으므로 간단하게만 정리해 보자면

# datetime 객체 생성 및 시간 입력
tm = datetime.time(hour=5,minute=25,second=1) / tm = datetime.time(5,25,1)
=> datetime.time(5, 25, 1)

print(tm)
=> 05:25:01

print(tm.minute)
=> 25

print(tm.second)
=> 1

type(tm)
=> datetime.time

---------------------------------------------------
# 날짜 및 시간 입력. 2019,1,2 뒤에 시간이 입력되지 않으면 2019-02-02 00:00:00 이런 형태로 출력된다
day_time = datetime.datetime(2019, 1, 2, 5, 25, 1)
=> datetime.datetime(2019, 1, 2, 5, 25, 1)

print(day_time)
=> 2019-01-02 05:25:01

print(day_time.day)
=> 2

---------------------------------------------------
x = date.today()
print(x)
=> 2019-01-03

y = datetime.today()
print(y)
=> 2019-01-03 12:15:05.526582


---------------------------------------------------
d = datetime(1969,7,20,20,17)
d.weekday()
=> 6

datetime의 객체를 생성하고 날짜와 시간을 입력하여 원하는 날짜의 datetime을 만들고 거기서 필요한 날짜와 시간, 분, 초 등을 추출해 사용할 수 있다. today를 통해 현재 날짜와 시간까지 출력할 수 있다.

weekday를 사용하면 어느 날짜든 정확한 요일을 알려주며 0~6, 월요일 ~ 일요일 순으로 할당된다.

++정말 사소하지만 실무에서 datetime을 사용했던 경우는 vm 서버에서 실시간으로 알고리즘을 처리할 때 중간에 처리속도가 느려져 병목 되는 이슈가 있었다.

이때 datetime을 이용해 실시간으로 로그를 찍어보면서 코드 중간에 검수를 위한 for문이 시간을 많이 잡아먹었음을 찾았던 적이 있었다. 정말 기본적이고 쉬운 라이브러리이지만 이렇게 사용되는 경우가 종종 있기에 기초가 중요하다는 걸 배웠다.

1-2. Numpy

데이터 분석이나 대부분의 인공지능 강의를 보면 넘파이, 판다스에 대한 기초내용들을 다루기 때문에 전체 내용을 다 다루지 않겠다.

넘파이의 가장 큰 장점은 브로드캐스팅, 배열에 대해 다양한 연산을 일괄적으로 적용시킬 수 있다는 점으로 인덱싱이나 슬라이싱 등 비슷해 보이는 리스트와 큰 차이점이기도 하다.

import numpy as np
arr = np.arange(0,10)
=> array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

# BroadCasting
arr + arr
=> array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18])

arr * arr
=> array([ 0,  1,  4,  9, 16, 25, 36, 49, 64, 81])

arr - arr
=> array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

arr / 2
=> array([0. , 0.5, 1. , 1.5, 2. , 2.5, 3. , 3.5, 4. , 4.5])

arr**3
=> array([  0,   1,   8,  27,  64, 125, 216, 343, 512, 729], dtype=int32)

이렇게 단순 연산 외에도 np.sqrt(), exp(), sin(), log() 등의 복잡한 연산도 일괄적으로 적용해 줄 수 있다.

이 외에도 배열에 대해 총합, sum() / 평균값 mean() / 최댓값 max() / 최소-최댓값의 인덱스를 찾는 argmin()과 argmax(), 조건을 통해 값을 찾고 또는 교체까지 할 수 있는 np.where()까지 유용한 기능들이 많다.

특히 넘파이에서 중요하다고 생각하는 기능은 reshape와 조건을 통한 값 필터링 및 인덱스 색인이다.

arr_2d = np.array([[1,2,3,4],[5,6,7,8],[9,10,11,12]])
arr_2d, arr_2d.shape
=> 
array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

=> (3, 4)

arr_2d.reshape(2,6)
=> 
array([[ 1,  2,  3,  4,  5,  6],
       [ 7,  8,  9, 10, 11, 12]])
---------------------------

여러 차원으로 되어 있는 데이터를 핸들링할 때 reshape와 다양한 연산을 같이 이용하여 원하는 값을 추출 및 변환할 수 있다.

위에서 Numpy의 기능들에 대해 간단하게만 언급하였고 Numpy로 Datetime 배열을 다뤄볼 것이다.

import numpy as np
date_array = np.array(['2016-03-15', '2017-05-24', '2018-08-09'], dtype='datetime64')
=> array(['2016-03-15', '2017-05-24', '2018-08-09'], dtype='datetime64[D]')

---

np.array(['2016-03-15', '2017-05-24', '2018-08-09'], dtype='datetime64[h]')
=> array(['2016-03-15T00', '2017-05-24T00', '2018-08-09T00'],
      dtype='datetime64[h]')

---

np.array(['2016-03-15', '2017-05-24', '2018-08-09'], dtype='datetime64[Y]')
=> array(['2016', '2017', '2018'], dtype='datetime64[Y]')

넘파이로 datetime 타입 배열을 생성 시 datetime64 [h], datetime64 [Y] 타입을 지정하여 원하는 시간대를 추출할 수 있다.

리스트의 range와 마찬가지로 넘파이에서도 np.arrange()를 통해 일정 범위 내에 원하는 스텝만큼의 배열을 생성할 수 있는데 타입을 datetime으로 줄 경우 시간 배열도 생성이 가능하다!

# 스텝사이즈는 dtype를 통해 지정. 7, datetiem64[D] => 7일.
np.arange('2018-06-01', '2018-06-23', 7, dtype='datetime64[D]')
=> array(['2018-06-01', '2018-06-08', '2018-06-15', '2018-06-22'],
      dtype='datetime64[D]')


---
np.arange('1968', '1976', dtype='datetime64[Y]')
=> array(['1968', '1969', '1970', '1971', '1972', '1973', '1974', '1975'],
      dtype='datetime64[Y]')

시계열 데이터를 다룬다면 주로 판다스를 통해서 사용하겠지만 넘파이로도 datetime 타입을 다룰 수 있다는 점 기억해두면 좋을 것 같다

1-3. Pandas

(1) Pandas Datetime - Index

시계열 데이터를 다룰 때 판다스로 다양한 핸들링을 한다. 먼저 분석을 하기 좋게 이상치나 결측치들을 처리하고 보기 편한 형태로 변환하거나 그룹끼리 묶어서 연산을 통해 새로운 형태의 테이블과 인사이트를 뽑아낸다.

이렇게 연산한 테이블들을 matplotlib, seaborn 또는 판다스의 내장 plot을 이용해 시각화를 하여 분석을 진행한다.

판다스를 이용한 데이터 핸들링 및 시각화까지 다루면 내용이 너무 길어지기 여기서 다루지 않고 시간 타입에 대해 판다스를 어떻게 사용하는지를 정리하고자 한다.

넘파이에서 np.arange에 데이터 타입을 datetime64로 줘서 시간 배열을 생성한 것처럼 비슷한 기능을 판다스에서도 지원한다.

import pandas as pd

pd.date_range('2020-01-01', periods=7, freq='D')
=> DatetimeIndex(['2020-01-01', '2020-01-02', '2020-01-03', '2020-01-04',
               '2020-01-05', '2020-01-06', '2020-01-07'],
              dtype='datetime64[ns]', freq='D')

---

pd.date_range('Jan 01, 2018', periods=7, freq='D') 
# 판다스의 내장된 형태의 문자열이라면 이렇게 입력해도 인식함.
=> DatetimeIndex(['2018-01-01', '2018-01-02', '2018-01-03', '2018-01-04',
               '2018-01-05', '2018-01-06', '2018-01-07'],
              dtype='datetime64[ns]', freq='D')

---

# THE WEEK OF JULY 8TH, 2018
idx = pd.date_range('7/8/2018', periods=7, freq='D') # 시작, 요청하는 기간의 개수, 기간의 빈도
idx
=> DatetimeIndex(['2018-07-08', '2018-07-09', '2018-07-10', '2018-07-11',
               '2018-07-12', '2018-07-13', '2018-07-14'],
              dtype='datetime64[ns]', freq='D')

꽤 다양한 형태를 입력으로 받을수 있음을 볼 수 있다. 판다스에서 인식하는 형태라면 꼭 형태가 동일하지 않아도 시간 배열을 생성할 수 있다.

넘파이로 생성한 타임 배열을 데이터프레임의 인덱스로 설정하는 기능도 지원한다.

some_dates = np.array(['2016-03-15', '2017-05-24', '2018-08-09'], dtype='datetime64[D]')
=> array(['2016-03-15', '2017-05-24', '2018-08-09'], dtype='datetime64[D]')

---

idx = pd.DatetimeIndex(some_dates)
=> DatetimeIndex(['2016-03-15', '2017-05-24', '2018-08-09'], dtype='datetime64[ns]', freq=None)

이렇게 인덱스를 설정해줄 수도 있지만 시계열 데이터를 불러올 때 컬럼 중 시간 컬럼이 있다면 아래처럼 인덱스 설정과 parse_dates 파라미터를 통해 인덱스를 datetime 타으로 설정하여 데이터를 불러올 수 있다.

데이터는 해당 강의에서 사용한 스타벅스의 주식 값 데이터를 이용한다. Close 컬럼은 마감시 가격, 종가를 의미하고 Volume은 해당 날짜의 주식거래량을 의미한다.

df = pd.read_csv('./Data/starbucks.csv', index_col='Date', parse_dates=True)

Date	Close	Volume
2015-01-02	38.0061	6906098
2015-01-05	37.2781	11623796
2015-01-06	36.9748	7664340
2015-01-07	37.8848	9732554
2015-01-08	38.4961	13170548

위의 방법으로 데이터를 불러온 후에 인덱스를 확인해보면

DatetimeIndex(['2015-01-02', '2015-01-05', '2015-01-06', '2015-01-07',
'2015-01-08', '2015-01-09', '2015-01-12', '2015-01-13',
'2015-01-14', '2015-01-15',
...
'2018-12-17', '2018-12-18', '2018-12-19', '2018-12-20',
'2018-12-21', '2018-12-24', '2018-12-26', '2018-12-27',
'2018-12-28', '2018-12-31'],
dtype='datetime64[ns]', name='Date', length=1006, freq=None)

이렇게 datetime64로 인덱스가 불러와지는 것을 확인할 수 있다.

(2) Time - Resampling

시계열 분석을 함에 있어서 기초가 되는 방법이 Resampling이다. datetime인덱스를 인식하여 다양한 룰셋을 적용해 원하는 날짜와 패턴을 간단하게 묶어서 원하는 연산을 할 수 있는 것이 resample의 장점이다. 만약 어느 달은 30일 혹은 31일까지 없더라도 판다스에서 해당 월의 마지막 날짜를 인식하여 계산해준다.

데이터는 위와 동일한 주가 데이터를 사용한다.

Date	Close	Volume
2015-01-02	38.0061	6906098
2015-01-05	37.2781	11623796
2015-01-06	36.9748	7664340
2015-01-07	37.8848	9732554
2015-01-08	38.4961	13170548

df.resample(rule='A').mean()

여기서 사용한 rule='A'는 year and frequency로 각 연마다 끝 날짜에 대해 평균값을 계산해준다. 이 외에도 다양한 날짜패턴들이 룰셋에 있으므로 필요한 룰 셋을 지정하여 이용하면 된다.

위의 코드를 실행시키면 다음과 같은 결과를 얻는다.

Date	Close	Volume
2015-12-31	50.078100	8.649190e+06
2016-12-31	53.891732	9.300633e+06
2017-12-31	55.457310	9.296078e+06
2018-12-31	56.870005	1.122883e+07

(3) Time - Shifting

판다스에는 shift라는 기능이 존재한다. shift를 통해 데이터 값들을 앞 행 또는 뒷 행으로 이동시킬 수 있다.

하나의 행 또는 열의 데이터를 하나씩 밀어내거나 당긴다고 이해하면 된다.

df.shift(1).head()

Date	Close	Volume
2015-01-02	38.0061	6906098
2015-01-05	37.2781	11623796
2015-01-06	36.9748	7664340
2015-01-07	37.8848	9732554
2015-01-08	38.4961	13170548

여기 기존의 데이터에서

Date	Close	Volume
2015-01-02	NaN	NaN
2015-01-05	38.0061	6906098
2015-01-06	37.2781	11623796
2015-01-07	36.9748	7664340
2015-01-08	37.8848	9732554

열방향으로 행에 있는 데이터를 하나씩 아래로 밀어낸다.

df.shift(periods=1, freq='M').head()

단순히 하나의 행을 밀고 당기는 것 외에도 다른 파라미터 설정을 통해 한달 단위로 이동시키는 것도 가능하다.

periods값을 통해 몇 개의 행을 밀어낼 것인지 설정가능
axis=”columns”로 설정하면 위아래가 아닌 양옆으로 이동도 가능하다.
값을 shift할 경우 맨 처음-맨 마지막 값들이 NaN값으로 채어지는데 fill_value=0을 통해 원하는 값으로 채울 수 있다
위에서 freq=’M’을 준것 처럼 freq=’D’ 등등 일, 월별로 이동도 가능하다

(4) Rolling & Expanding

앞에서 판다스를 통해 datetime타입의 인덱스를 다루고 그룹별로 연산을 해보고 앞뒤로 당겨보며 핸들링을 해보았다면 이제 일정 기간동안 평균값을 찍어보면서 시계열 데이터의 추세를 보는 방법을 연습한다.

먼저 판다스의 rolling에 대해 간단하게 설명해보자면 시간순으로 나열된 데이터들에 대해 일정 주기마다 평균값을 계산하여 새로운 데이터를 만들어내는 기능으로 기간이동 계산 혹은 이동평균 함수라 한다.

해당 그래프는 스타벅스 주식종가의 그래프이다. 이제 판다스의 rolling을 이용하여 원본 그래프와 비교할 것이다.

Rolling

# 7 day rolling mean
df.rolling(window=7).mean().head(15) # window : 한번에 얼마만큼의 섹션을 볼것인지의 크기, 몇 개 행을 볼 건지.

사용하는 데이터는 일단위이고 window=7은 곧 일주일 단위를 의미한다.

Date	Close	Volume
2015-01-02	NaN	NaN
2015-01-05	NaN	NaN
2015-01-06	NaN	NaN
2015-01-07	NaN	NaN
2015-01-08	NaN	NaN
2015-01-09	NaN	NaN
2015-01-12	37.616786	1.238222e+07
2015-01-13	37.578786	1.297288e+07
2015-01-14	37.614786	1.264020e+07
2015-01-15	37.638114	1.270624e+07
2015-01-16	37.600114	1.260380e+07
2015-01-20	37.515786	1.225634e+07
2015-01-21	37.615786	9.868837e+06
2015-01-22	37.783114	1.185335e+07
2015-01-23	38.273129	1.571999e+07

결과값을 보면 처음 여섯개 값은 모드 NaN값이 나오는데 그 이유는 아직 평균을 구하려는 일곱개 값이 채워지지 않았기 때문이다.
롤링 창을 사용할 경우 n-1 개수가 NaN값으로 비게 된다.

df['Close'].plot(figsize=(12,5)).autoscale(axis='x',tight=True)
df.rolling(window=7).mean()['Close'].plot();

그럼 원본 데이터값과 이동평균 함수값을 그래프로 그려서 비교해보면 아래과 같다.

여기서 주목할 점은 window의 값이다. 즉, 평균값을 계산할 주기를 얼마나 주느냐에 따라 그래프의 형태가 많이 달라지게 된다.

< window = 7 >

< window = 30 >

< window = 180 >

window값에 따른 그래프를 비교해봤을 때 윈도우 창 크기가 클수록 반영되는 값들이 많아지므로 그래프가 보다 더 완만해지며 일반화되는 것을, 일반화되는 추세를 보여준다
반면 윈도우 창 크기가 작을수록 원본 데이터에 가깝게 그려진다. 고수준의 추세를 보여준다.

expanding

위에서 rolling을 사용할 경우 데이터의 맨 앞쪽부터 윈도우 개수만큼 채워지지 않는 행까지 평균값을 계산하지 못해 NaN값으로 채워지는 것을 확인할 수 있었다.

expanding을 사용하면 이동하면서 윈도우 창 개수만큼의 데이터를 계산하는 것이 아닌 시계열의 시작점부터 점차 계산하는 창의 크기를 늘려가 맨 마지막 데이터에서는 모든 데이터에 대한 평균을 계산한다. 이렇게 계산하는 범위를 확장하기에 expanding이라 한다.

df['Close'].expanding(min_periods=30).mean().plot(figsize=(12,5));

그래프를 보면서 더 설명해보자면

rolling의 경우 window, 창에 지정한 개수만큼 각 시점마다 이동하는 것과 다르다. 2015-07에 대한 y값은 맨 처음 값부터 해당 시점까지 모든 데이터에 대한 평균값을 의미한다
따라서 시간이 지날수록 평균에 반영되는 데이터들이 많아지므로 일반화가 되면서 완만한 그래프를 그리게 된다
시간이 지나고 맨 마지막 시점인 2019-01의 경우, 전체 데이터 프레임의 모든 행, 하나의 열에 대한 평균 값이 된다.

rolling vs expanding

rolling은 움직이는 창, 윈도우가 이동하면서 평균값을 구한다
expanding은 그 창이 계속 이동과 동시에 확장하면서 평균값을 구한다. 맨 처음부터 시작하여 끝까지 가게되면 그 열의 전체 데이터 평균으로 수렴한다.

참고자료

Numpy
- https://rfriend.tistory.com/356
- https://m.blog.naver.com/bosongmoon/221791527433
resample
- https://wikidocs.net/158101
shift
- https://today-1.tistory.com/55
- https://datalabbit.tistory.com/69
rolling
- https://scribblinganything.tistory.com/386
- https://wikidocs.net/152788