特定の列から最小値と最大値を得る scala spark dataframe
データフレームから特定の列の最小値と最大値にアクセスしたいのですが、その列のヘッダーがなく、番号だけなので、scalaを使って行うべきでしょうか?
多分、次のようなものだと思います。
val q = nextInt(ncol) //we pick a random value for a column number
col = df(q)
val minimum = col.min()
くだらない質問に聞こえるかもしれませんが、この質問に関する情報をSOで見つけることができませんでした :/。
18
3
メタデータからカラム名を取得するのはどうでしょうか。
変数を割り当てる際にパターンマッチを使用することができます。
qは
列
または列の名前(文字列)です。データ型がDouble
だとします。カラム番号を使って、まずカラム名を抽出し(
df.columns
にインデックスを付けて)、次にカラム名を集約して使うことができます。