자기회귀모델(AutoRegression, AR(p))
현재 값은 과거의 값이 선형 결합으로 설명함으로써 자신의 과거를 예측하는데 이용 오늘 주가는 어제 값에 영향을 받음
- 빅데이터 & 인공지능
- · 2024. 1. 9.
현재 값은 과거의 값이 선형 결합으로 설명함으로써 자신의 과거를 예측하는데 이용 오늘 주가는 어제 값에 영향을 받음
비정상성(non-stationary) -> 정상성(Stainonnary) 정상성 회복방법 차분(differencing, d) : 현재값에서 d시점 전의 값을 뺀 것(추세나계절성이 있을때) 로그변환 : 로그변환(Log Transformation) (변동폭이 일정하지 않은 경우) 값이 크거나 값 변화의 폭이 큰 경우 사용 값이 양수여야 함
출처 : http://web.vu.lt/mif/a.buteikis/wp-content/uploads/2018/02/Lecture_02.pdf 평균 : 시간에 따라 평균 값이 상승함 분산 : 시간에 따라 분산(폭) 커짐
정상성(Stationary) 시간의 흐름에도 평균(mean), 분산(variance), 자기상관(autocorrelation)이 변하지 않는다. 평균, 분산, 자기상관을 계산하면 시간에 따라 값이 변하는 함수 형태가 아닌 상수(constant)가 되어야 한다. Autocorrelation 두 변수 사이의 관계를 -1 ~ 1의 값으로 표현하는 척도를 Correlation이라 하는데, correlation 개념에 auto를 추가한 것으로 두 개의 변수가 아닌, 자기 자신과 시간의 위치가 바뀐 (time-shifted) 자기 자신과의 Correlation을 말함 정상성이 중요한 이유: 예측값이 무한으로 가거나 값이 튀지 않고 예측의 정확성을 높이는 목적
일정한 시간 간격으로 모아진 데이터 X : 시간, Y : 특정 시간에 따른 값 추세(Trend) - 장기적으로 증가 / 감소 계절성(Seasonality) : 분기별, 계절별 나타나는 패턴 주기(Cycle) - 비슷한 패턴이 있지만 고정된 빈도는 아닌 경우
각 구의 초,중,고 전출 전입 인원 : https://data.seoul.go.kr/dataList/10729/S/2/datasetView.do & 후처리 * 순유입인원은 초중고 도내,도외 전입인원에서 초중고 도내, 도외 전출인원을 뺀값이다. * 각년도별로 가장 큰 순유입인원을 가진 지역구의 순유입인원을 구하고 * 전체 기간의 해당 순유입인원들의 합을 구하여라 import pandas as pd df = pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/krdatacertificate/e5_p1_3.csv') df['순유입인원']=df[[x for x in df.columns if '전입' in x]].sum(axis=1)-df..