Rimuovere le righe con tutti o alcuni NA (valori mancanti) in data.frame

Question

Altro

Fonte Versione non AMP Modifica

Rimuovere le righe con tutti o alcuni NA (valori mancanti) in data.frame

Vorrei rimuovere le linee in questo quadro di dati che:

a) contiene NA in tutte le colonne. Di seguito il mio esempio di data frame.

             gene hsap mmul mmus rnor cfam
1 ENSG00000208234    0   NA   NA   NA   NA
2 ENSG00000199674    0   2    2    2    2
3 ENSG00000221622    0   NA   NA   NA   NA
4 ENSG00000207604    0   NA   NA   1    2
5 ENSG00000207431    0   NA   NA   NA   NA
6 ENSG00000221312    0   1    2    3    2

Fondamentalmente, vorrei ottenere un frame di dati come il seguente.

             gene hsap mmul mmus rnor cfam
2 ENSG00000199674    0   2    2    2    2
6 ENSG00000221312    0   1    2    3    2

b) contiene NAs solo in alcune colonne, quindi posso anche ottenere questo risultato:

             gene hsap mmul mmus rnor cfam
2 ENSG00000199674    0   2    2    2    2
4 ENSG00000207604    0   NA   NA   1    2
6 ENSG00000221312    0   1    2    3    2

Jaap

Domanda modificata 12º agosto 2018 в 12:32

Programmazione

filter r dataframe missing-data r-faq

1º febbraio 2011 в 11:52

20 visualizzazioni

Roman Luštrik

Fonte Versione non AMP Modifica

Prova na.omit(your.data.frame). Per quanto riguarda la seconda domanda, prova a postarla come un'altra domanda (per chiarezza).

241

0

Commentari (3)

donshikin

Fonte Versione non AMP Modifica

Preferisco il seguente modo per controllare se le righe contengono dei NA:


row.has.na

88

0

Commentari (2)

Joris Meys · Accepted Answer · 2011-02-01T12:21:42+00:00

Controlla anche complete.cases :

> final[complete.cases(final), ]
             gene hsap mmul mmus rnor cfam
2 ENSG00000199674    0    2    2    2    2
6 ENSG00000221312    0    1    2    3    2

na.omit è più carino per rimuovere semplicemente tutti gli NA's. complete.cases permette una selezione parziale includendo solo alcune colonne del dataframe:

> final[complete.cases(final[ , 5:6]),]
             gene hsap mmul mmus rnor cfam
2 ENSG00000199674    0    2    2    2    2
4 ENSG00000207604    0   NA   NA    1    2
6 ENSG00000221312    0    1    2    3    2

La tua soluzione non può funzionare. Se insisti ad usare is.na, allora devi fare qualcosa come:

> final[rowSums(is.na(final[ , 5:6])) == 0, ]
             gene hsap mmul mmus rnor cfam
2 ENSG00000199674    0    2    2    2    2
4 ENSG00000207604    0   NA   NA    1    2
6 ENSG00000221312    0    1    2    3    2

ma usare complete.cases è molto più chiaro, e più veloce.