Belirtilen bir şema ile boş bir DataFrame nasıl oluşturulur?
Scala'da belirli bir şema ile DataFrame
üzerinde oluşturmak istiyorum. JSON read kullanmayı denedim (yani boş dosyayı okumayı) ama bunun en iyi uygulama olduğunu sanmıyorum.
79
3
Aşağıdaki şemaya sahip bir veri çerçevesi istediğinizi varsayalım:
Basitçe bir veri çerçevesi için şema tanımlar ve boş
RDD[Satır]
kullanırsınız:PySpark eşdeğeri neredeyse aynıdır:
Örtük kodlayıcıları (yalnızca Scala)
Tuple
gibiProduct
türleriyle kullanma:veya vaka sınıfı:
veya
Spark 2.0.0'dan itibaren aşağıdakileri yapabilirsiniz.
Vaka Sınıfı
Bir
Person
case sınıfı tanımlayalım:SparkSession implicit
Encoders
öğesini içe aktarın:Ve boş bir
Dataset[Person]
oluşturmak için SparkSession kullanın:Şema DSL
Ayrıca bir Şema "DSL" de kullanabilirsiniz (bkz. org.apache.spark.sql.ColumnName içinde Veri Çerçeveleri için destek fonksiyonları).