特定の列におけるパンダの平均値のローリング

Question

さらに

ソース非AMP版編集

特定の列におけるパンダの平均値のローリング

CSVからインポートしたこのようなデータフレームがあります。

              stock  pop
Date
2016-01-04  325.316   82
2016-01-11  320.036   83
2016-01-18  299.169   79
2016-01-25  296.579   84
2016-02-01  295.334   82
2016-02-08  309.777   81
2016-02-15  317.397   75
2016-02-22  328.005   80
2016-02-29  315.504   81
2016-03-07  328.802   81
2016-03-14  339.559   86
2016-03-21  352.160   82
2016-03-28  348.773   84
2016-04-04  346.482   83
2016-04-11  346.980   80
2016-04-18  357.140   75
2016-04-25  357.439   77
2016-05-02  356.443   78
2016-05-09  365.158   78
2016-05-16  352.160   72
2016-05-23  344.540   74
2016-05-30  354.998   81
2016-06-06  347.428   77
2016-06-13  341.053   78
2016-06-20  363.515   80
2016-06-27  349.669   80
2016-07-04  371.583   82
2016-07-11  358.335   81
2016-07-18  362.021   79
2016-07-25  368.844   77
...             ...  ...

列popのローリング平均を計算する新しい列MAを追加したかった。以下を試してみました

df['MA']=data.rolling(5,on='pop').mean()

エラーが発生します。

ValueError: Wrong number of items passed 2, placement implies 1

そこで、カラムを追加せずに動作するかどうか試してみようと思いました。そこで

 data.rolling(5,on='pop').mean()

出力は

               stock  pop
Date
2016-01-04       NaN   82
2016-01-11       NaN   83
2016-01-18       NaN   79
2016-01-25       NaN   84
2016-02-01  307.2868   82
2016-02-08  304.1790   81
2016-02-15  303.6512   75
2016-02-22  309.4184   80
2016-02-29  313.2034   81
2016-03-07  319.8970   81
2016-03-14  325.8534   86
2016-03-21  332.8060   82
2016-03-28  336.9596   84
2016-04-04  343.1552   83
2016-04-11  346.7908   80
2016-04-18  350.3070   75
2016-04-25  351.3628   77
2016-05-02  352.8968   78
2016-05-09  356.6320   78
2016-05-16  357.6680   72
2016-05-23  355.1480   74
2016-05-30  354.6598   81
2016-06-06  352.8568   77
2016-06-13  348.0358   78
2016-06-20  350.3068   80
2016-06-27  351.3326   80
2016-07-04  354.6496   82
2016-07-11  356.8310   81
2016-07-18  361.0246   79
2016-07-25  362.0904   77
...              ...  ...

列のpopにRolling meanを適用できないようです。何が間違っているのでしょうか？

プログラミング

python pandas

16日 4月 2017 в 1:15

1ビュー

質問へのコメント (7)

Chuck

ソース非AMP版編集

編集: pandasでは pd.rolling_mean は非推奨であり、今後削除される予定です。その代わりにpd.rolling`を使用すると以下のことができます：

df['MA'] = df['pop'].rolling(window=5,center=False).mean()

データフレーム df に対して

          Date    stock  pop
0   2016-01-04  325.316   82
1   2016-01-11  320.036   83
2   2016-01-18  299.169   79
3   2016-01-25  296.579   84
4   2016-02-01  295.334   82
5   2016-02-08  309.777   81
6   2016-02-15  317.397   75
7   2016-02-22  328.005   80
8   2016-02-29  315.504   81
9   2016-03-07  328.802   81

を取得する：

          Date    stock  pop    MA
0   2016-01-04  325.316   82   NaN
1   2016-01-11  320.036   83   NaN
2   2016-01-18  299.169   79   NaN
3   2016-01-25  296.579   84   NaN
4   2016-02-01  295.334   82  82.0
5   2016-02-08  309.777   81  81.8
6   2016-02-15  317.397   75  80.2
7   2016-02-22  328.005   80  80.4
8   2016-02-29  315.504   81  79.8
9   2016-03-07  328.802   81  79.6

ドキュメント: http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.rolling.html

古い：非推奨ですが、使えます：

df['MA']=pd.rolling_mean(df['pop'], window=5)

を使って取得できます：

          Date    stock  pop    MA
0   2016-01-04  325.316   82   NaN
1   2016-01-11  320.036   83   NaN
2   2016-01-18  299.169   79   NaN
3   2016-01-25  296.579   84   NaN
4   2016-02-01  295.334   82  82.0
5   2016-02-08  309.777   81  81.8
6   2016-02-15  317.397   75  80.2
7   2016-02-22  328.005   80  80.4
8   2016-02-29  315.504   81  79.8
9   2016-03-07  328.802   81  79.6

ドキュメント: http://pandas.pydata.org/pandas-docs/version/0.17.0/generated/pandas.rolling_mean.html

Andrew L

編集した答え 13日 9月 2017 в 11:32

9

0

解説 (2)

ac2001

ソース非AMP版編集

この解決策は私には有効だった。

data['MA'] = data.rolling(5).mean()['pop']

問題はon='pop'がインデックスからローリングウィンドウを実行するためにカラムを変更しているだけかもしれないと思います。

doc stringより: " DataFrameの場合、インデックスではなく、ローリングウィンドウを計算するカラムを指定します；

ac2001

編集した答え 16日 4月 2017 в 1:33

3

0

解説 (1)

Andrew L · Accepted Answer · 2017-04-16T14:02:46+00:00

カラムを割り当てるには、Series に基づいてローリングオブジェクトを作成する：

df['new_col'] = data['column'].rolling(5).mean()

ac2001が投稿した回答は、最もパフォーマンスの高い方法ではありません。彼はデータフレーム内のすべての列でローリング平均を計算し、"pop"列を使用して"ma"列を代入しています。以下の最初の方法の方がはるかに効率的である：

%timeit df['ma'] = data['pop'].rolling(5).mean()
%timeit df['ma_2'] = data.rolling(5).mean()['pop']

1000 loops, best of 3: 497 µs per loop
100 loops, best of 3: 2.6 ms per loop

他のすべての列に計算されたローリング平均を格納する必要がない限り、2番目の方法を使用することはお勧めしません。