Numpyの配列からPandasのDataFrameを作成する。インデックスカラムとカラムヘッダの指定方法は?
リストのリストからなるNumpy配列があり、以下のように行ラベルと列名を持つ2次元配列を表しています。
data = array([['','Col1','Col2'],['Row1',1,2],['Row2',3,4]])
結果として得られるDataFrameは、Row1とRow2がインデックス値、Col1とCol2がヘッダ値となるようにしたい。
インデックスの指定は以下のようにできます。
df = pd.DataFrame(data,index=data[:,0]),
しかし、列のヘッダーをどのように割り当てるのがよいのかわかりません。
229
3
のように、DataFrame`のコンストラクタに
data
,index
,columns
を指定する必要があります。edit_: @jorisさんのコメントにあるように、正しいデータ型にするためには、上記を `np.int(data[1:,1:])` に変更する必要があるかもしれません。
ここでは、わかりやすい解決策をご紹介します。
私はJorisに同意します。numpy record arraysのように、別の方法で行うべきだと思います。this great answer]2の "option 2" を修正すると、以下のようになります。