Membuat dummy variabel-

Question

Pantera

Lebih

Sumber Tidak AMP-versi Sunting

Membuat dummy variabel-

Saya memiliki masalah yang menghasilkan berikut dummy variabel dalam R:

I'm menganalisis tahunan data deret waktu (time periode 1948-2009). Saya punya dua pertanyaan:

Bagaimana saya menghasilkan variabel dummy untuk pengamatan #10, yaitu untuk tahun 1957 (nilai = 1 pada tahun 1957 dan nol sebaliknya)?
Bagaimana saya menghasilkan variabel dummy adalah nol sebelum tahun 1957 dan mengambil nilai 1 dari tahun 1957 dan seterusnya untuk tahun 2009?

Jaap

Pertanyaan edit 16 Oktober 2017 в 9:47

Pemrograman

r r-faq

2 Agustus 2012 в 11:07

17 tayangan

David J. Harris · Answer 1 · 2012-08-03T01:24:30+00:00

Pilihan lain yang dapat bekerja lebih baik jika anda memiliki banyak variabel adalah faktor dan model.matrix.

> year.f = factor(year)
> dummies = model.matrix(~year.f)

Ini akan mencakup mencegat kolom (semua orang) dan satu kolom untuk setiap tahun dalam mengatur data anda kecuali satu, yang akan menjadi "default" atau mencegat nilai.

Anda dapat mengubah bagaimana "default" yang dipilih oleh bermain-main dengan kontras.arg di model.matrix.

Juga, jika anda ingin menghilangkan mencegat, anda hanya bisa drop kolom pertama atau tambahkan +0 untuk akhir formula.

Semoga ini berguna.

Martin O'Leary · Answer 2 · 2012-08-02T23:38:02+00:00

Cara paling sederhana untuk menghasilkan dummy variabel adalah sesuatu seperti berikut:

> print(year)
[1] 1956 1957 1957 1958 1958 1959
> dummy  print(dummy)
[1] 0 1 1 0 0 0
> dummy2 = 1957)
> print(dummy2)
[1] 0 1 1 1 1 1

Secara lebih umum, anda dapat menggunakan ifelse untuk memilih di antara dua nilai, tergantung pada kondisi. Jadi jika bukan 0-1 variabel dummy, untuk beberapa alasan anda ingin gunakan, mengatakan, 4 dan 7, anda bisa menggunakan ifelse(tahun == 1957, 4, 7).

zx8754 · Answer 3 · 2016-10-31T13:34:32+00:00

zx8754

Sumber Tidak AMP-versi Sunting

Menggunakan dummies::dummy():


library(dummies)

# example data
df1

zx8754

Jawaban edit 23 Juli 2018 в 10:26

43

0

Komentar (4)

Enrique Pérez Herrero · Answer 4 · 2016-11-10T16:54:22+00:00

Enrique Pérez Herrero

Sumber Tidak AMP-versi Sunting

Paket mlr termasuk createDummyFeatures untuk tujuan ini:


library(mlr)
df

xm1

Jawaban edit 21 Juni 2019 в 6:27

17

0

Komentar (2)

alistaire · Answer 5 · 2017-12-17T21:59:55+00:00

Lain jawaban di sini menawarkan rute langsung untuk menyelesaikan tugas ini—salah satu yang banyak model (misalnya lm) akan lakukan untuk anda secara internal pula. Meskipun demikian, di sini adalah cara untuk membuat dummy variabel dengan Max Kuhn's populer sisipan dan resep paket. Sementara agak lebih verbose, mereka berdua skala mudah untuk situasi yang lebih rumit, dan cocok rapi ke masing-masing kerangka.

`karet::dummyVars`

Dengan karet, fungsi yang relevan adalah dummyVars, yang memiliki memprediksi metode untuk menerapkannya pada data frame:

df  
#> Formula: ~.
#> 2 variables, 1 factors
#> Variables and levels will be separated by '.'
#> A full rank encoding is used

predict(dummy, df)
#>   letter.b letter.c y
#> 1        0        0 1
#> 2        0        0 2
#> 3        1        0 3
#> 4        1        0 4
#> 5        0        1 5
#> 6        0        1 6

`resep::step_dummy`

Dengan resep, fungsi yang relevan adalah step_dummy:

library(recipes)

dummy_recipe % 
    step_dummy(letter)

dummy_recipe
#> Data Recipe
#> 
#> Inputs:
#> 
#>       role #variables
#>    outcome          1
#>  predictor          1
#> 
#> Steps:
#> 
#> Dummy variables from letter

Tergantung pada konteks, ekstrak data dengan persiapan dan panggang atau jus:

# Prep and bake on new data...
dummy_recipe %>% 
    prep() %>% 
    bake(df)
#> # A tibble: 6 x 3
#>       y letter_b letter_c
#>           
#> 1     1        0        0
#> 2     2        0        0
#> 3     3        1        0
#> 4     4        1        0
#> 5     5        0        1
#> 6     6        0        1

# ...or use `retain = TRUE` and `juice` to extract training data
dummy_recipe %>% 
    prep(retain = TRUE) %>% 
    juice()
#> # A tibble: 6 x 3
#>       y letter_b letter_c
#>           
#> 1     1        0        0
#> 2     2        0        0
#> 3     3        1        0
#> 4     4        1        0
#> 5     5        0        1
#> 6     6        0        1

Ricardo González-Gil · Answer 6 · 2012-08-03T09:44:27+00:00

Ricardo González-Gil

Sumber Tidak AMP-versi Sunting

Apa yang biasanya saya lakukan untuk bekerja dengan jenis variabel dummy adalah:

(1) bagaimana cara menghasilkan variabel dummy untuk pengamatan #10, yaitu untuk tahun 1957 (nilai = 1 pada tahun 1957 dan nol sebaliknya)


data$factor_year_1

9

0

Komentar (0)

Jaap · Answer 7 · 2018-02-13T18:38:52+00:00

Jaap

Sumber Tidak AMP-versi Sunting

Untuk usecase seperti yang disajikan dalam pertanyaan, anda juga dapat memperbanyak logis dengan kondisi 1 (atau mungkin bahkan lebih baik, dengan 1L):


# example data
df1

Jaap

Jawaban edit 26 Agustus 2019 в 11:06

8

0

Komentar (0)

skpro19 · Answer 8 · 2015-05-16T10:37:32+00:00

skpro19

Sumber Tidak AMP-versi Sunting

Saya membaca ini di kaggle forum:


#Generate example dataframe with character column
example

7

0

Komentar (0)

Fernando Hoces De La Guardia · Answer 9 · 2015-03-27T17:45:07+00:00

Fernando Hoces De La Guardia

Sumber Tidak AMP-versi Sunting

Jika anda ingin mendapatkan K variabel dummy, bukan K-1, coba:

dummies = table(1:length(year),as.factor(year))

Terbaik,

7

0

Komentar (1)

Alex Thompson · Answer 10 · 2015-12-09T22:41:46+00:00

≪a href="https://stat.ethz.ch/R-manual/R-devel/library/base/html/ifelse.html">`ifelse` fungsi adalah yang terbaik untuk logika sederhana seperti ini.

> x   [1] 1 1 1 1 1 1 1 1 0 0 0

Juga, jika anda ingin mengembalikan data karakter maka anda dapat melakukannya.

> x   [1] "foo" "foo" "foo" "foo" "foo" "foo" "foo" "foo" "bar" "bar" "bar"

Variabel kategori dengan bersarang...

> x   [1] "baz" "baz" "baz" "baz" "baz" "baz" "baz" "foo" "bar" "baz" "baz"

Ini adalah yang paling mudah pilihan.

Sotos · Answer 11 · 2017-10-06T06:32:19+00:00

Sotos

Sumber Tidak AMP-versi Sunting

Cara lain adalah dengan menggunakan mtabulate dari qdapTools paket, yaitu

df

4

0

Komentar (0)

Maciej Mozolewski · Answer 12 · 2015-08-18T09:50:00+00:00

Saya menggunakan fungsi tersebut (untuk data.tabel):

# Ta funkcja dla obiektu data.table i zmiennej var.name typu factor tworzy dummy variables o nazwach "var.name: (level1)"
factorToDummy  new.names
  dtable[, (new.names) := transpose(lapply(get(var.name), FUN = function(x){x == levels(get(var.name))})) ]

  cat(paste("\nDodano zmienne dummy: ", paste0(new.names, collapse = ", ")))
}

Penggunaan:


data

wordsforthewise · Answer 13 · 2018-02-15T03:48:46+00:00

wordsforthewise

Sumber Tidak AMP-versi Sunting

Mengkonversi data ke data.meja dan penggunaan yang ditetapkan oleh referensi dan baris penyaringan


library(data.table)

dt

1

0

Komentar (0)

Ronak Shah · Answer 14 · 2019-10-02T02:05:52+00:00

Ronak Shah

Sumber Tidak AMP-versi Sunting

Kita juga bisa menggunakan cSplit_e dari splitstackshape. Menggunakan @zx8754's data

df1

0

Komentar (0)

Sophia J · Answer 15 · 2018-05-09T21:09:43+00:00

Sophia J

Sumber Tidak AMP-versi Sunting

cara lain yang dapat anda lakukan adalah menggunakan

ifelse(year < 1965 , 1, 0)

dee-see

Jawaban edit 9 Mei 2018 в 11:54

0

Komentar (0)

kangkan Dc · Answer 16 · 2015-02-06T17:18:08+00:00

kangkan Dc

Sumber Tidak AMP-versi Sunting

Hi saya menulis ini secara umum fungsi untuk menghasilkan sebuah variabel dummy yang pada dasarnya meniru menggantikan fungsi di Stata.

Jika x adalah data frame adalah x dan saya ingin dummy variabel yang disebut a yang akan mengambil nilai 1 ketika x$b mengambil nilai c


introducedummy

0

Komentar (0)