副问题[/!--empirenews.page--]
时刻序列数据Time Series Data是在差异时刻上网络到的数据,这类数据是定时刻次序网络到的,用于所描写征象随时刻变革的环境。
时刻序列说明普及应用于计量经济学模子中,通过探求汗青数据中某一征象的成长纪律,对将来举办猜测。
时刻序列数据作为时刻序列说明的基本,学会怎样对它举办奇妙地处理赏罚长短常须要的,Python中的Pandas库为我们提供了强盛的时刻序列数据处理赏罚的要领,本文会先容个中常用的几个。
【器材】
01、时刻名目转换
偶然辰,我们得到的原始数据并不是凭证时刻范例索引举办分列的,必要先举办时刻名目标转换,为后续的操纵和说明做筹备。
这里先容两种要领。第一种要领是用pandas.read_csv导入文件的时辰,通过配置参数parse_dates和index_col,直接对日期罗列办转换,并将其配置为索引。关于参数的具体表明,请查察文档【1】。
如下示例中,在没有配置参数之前,可以调查到数据齐集的索引是数字0-208,'date'列的数据范例也不是日期。
- In [8]: data = pd.read_csv('unemployment.csv')
- In [9]: data.info()
- <class 'pandas.core.frame.DataFrame'>
- RangeIndex: 209 entries, 0 to 208
- Data columns (total 2 columns):
- date 209 non-null object
- UNRATE 209 non-null float64
- dtypes: float64(1), object(1)
- memory usage: 3.3+ KB
配置参数parse_dates = ['date'] ,将数据范例转换成日期,再配置 index_col = 'date',将这一列用作索引,功效如下。
- In [11]: data = pd.read_csv('unemployment.csv', parse_dates=['date'], index_col='date')
-
- In [12]: data.info()
- <class 'pandas.core.frame.DataFrame'>
- DatetimeIndex: 209 entries, 2000-01-01 to 2017-05-01
- Data columns (total 1 columns):
- UNRATE 209 non-null float64
- dtypes: float64(1)
- memory usage: 13.3 KB
这时,索引酿成了日期'20000101'-'2017-05-01',数据范例是datetime。
第二种要领是在已经导入数据的环境下,用pd.to_datetime()【2】将列转换成日期范例,再用 df.set_index()【3】将其配置为索引,完成转换。
以tushare.pro上面的日线行情数据为例,我们把'trade_date'列转换成日期范例,并配置成索引。
- import tushare as ts
- import pandas as pd
-
- pd.set_option('expand_frame_repr', False) # 列太多时不换行
- pro = ts.pro_api()
-
- df = pro.daily(ts_code='000001.SZ', start_date='20180701', end_date='20180718')
-
- df.info()
-
- <class 'pandas.core.frame.DataFrame'>
- RangeIndex: 13 entries, 0 to 12
- Data columns (total 11 columns):
- ts_code 13 non-null object
- trade_date 13 non-null object
- open 13 non-null float64
- high 13 non-null float64
- low 13 non-null float64
- close 13 non-null float64
- pre_close 13 non-null float64
- change 13 non-null float64
- pct_chg 13 non-null float64
- vol 13 non-null float64
- amount 13 non-null float64
- dtypes: float64(9), object(2)
- memory usage: 1.2+ KB
- None
-
-
- df['trade_date'] = pd.to_datetime(df['trade_date'])
- df.set_index('trade_date', inplace=True)
- df.sort_values('trade_date', ascending=True, inplace=True) # 升序分列
-
- df.info()
-
- <class 'pandas.core.frame.DataFrame'>
- DatetimeIndex: 13 entries, 2018-07-02 to 2018-07-18
- Data columns (total 10 columns):
- ts_code 13 non-null object
- open 13 non-null float64
- high 13 non-null float64
- low 13 non-null float64
- close 13 non-null float64
- pre_close 13 non-null float64
- change 13 non-null float64
- pct_chg 13 non-null float64
- vol 13 non-null float64
- amount 13 non-null float64
- dtypes: float64(9), object(1)
- memory usage: 1.1+ KB
(编辑:湖南网)
【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!
|