data.frame内の全部または一部のNA（欠損値）を含む行を削除する。

Question

さらに

ソース非AMP版編集

data.frame内の全部または一部のNA（欠損値）を含む行を削除する。

このデータフレームで、以下のような行を削除したいのです：

a) すべての列でNAを含む。以下は私のデータフレーム例です。

             gene hsap mmul mmus rnor cfam
1 ENSG00000208234    0   NA   NA   NA   NA
2 ENSG00000199674    0   2    2    2    2
3 ENSG00000221622    0   NA   NA   NA   NA
4 ENSG00000207604    0   NA   NA   1    2
5 ENSG00000207431    0   NA   NA   NA   NA
6 ENSG00000221312    0   1    2    3    2

基本的には、以下のようなデータフレームを取得したいのですが。

             gene hsap mmul mmus rnor cfam
2 ENSG00000199674    0   2    2    2    2
6 ENSG00000221312    0   1    2    3    2

b) 一部のカラムにのみNAを含む、この結果も得ることができる：

             gene hsap mmul mmus rnor cfam
2 ENSG00000199674    0   2    2    2    2
4 ENSG00000207604    0   NA   NA   1    2
6 ENSG00000221312    0   1    2    3    2

Jaap

編集された質問 12日 8月 2018 в 12:32

プログラミング

filter r dataframe missing-data r-faq

1日 2月 2011 в 11:52

40 ビュー

Roman Luštrik

ソース非AMP版編集

na.omit(your.data.frame)`を試してみてください。2つ目の質問については、別の質問として投稿してみてください（わかりやすくするため）。

241

0

解説 (3)

lukeA

ソース非AMP版編集

tidyrには新しい関数[drop_na]があります(https://blog.rstudio.org/2016/08/15/tidyr-0-6-0/):

library(tidyr)
df %>% drop_na()
#              gene hsap mmul mmus rnor cfam
# 2 ENSG00000199674    0    2    2    2    2
# 6 ENSG00000221312    0    1    2    3    2
df %>% drop_na(rnor, cfam)
#              gene hsap mmul mmus rnor cfam
# 2 ENSG00000199674    0    2    2    2    2
# 4 ENSG00000207604    0   NA   NA    1    2
# 6 ENSG00000221312    0    1    2    3    2

Arthur Yip

編集した答え 7日 3月 2019 в 12:25

98

0

解説 (5)

donshikin

ソース非AMP版編集

行にNAが含まれているかどうかをチェックする方法は、次のようなものがあります：


row.has.na

88

0

解説 (2)

getting-there

ソース非AMP版編集

行が無効であると見なされる方法をより詳細に制御したい場合は、別のオプションがあります。


final

43

0

解説 (1)

Pierre Lafortune

ソース非AMP版編集

各行に有効なNAの数を制御する場合は、この機能を試してください。多くの調査データセットでは、空白の質問の回答が多すぎると結果が台無しになる可能性があります。したがって、特定のしきい値の後に削除されます。この関数を使用すると、行が削除される前に実行できるNAの数を選択できます。


delete.na

38

0

解説 (0)

C8H10N4O2

ソース非AMP版編集

パフォーマンスが優先される場合は、オプションのparam `cols =`を使用して、 `data.table`および`na.omit()`を使用します。

na.omit.data.tableは最速です私のベンチマーク(以下を参照)、すべての列または選択した列(OP質問パート2)。

`data.table`を使用しない場合は、`complete.cases()`を使用します。

バニラ data.frameでは、complete.casesは[na .omit()](https:/www.rdocumentation.org/packages/3.4. na.omit.data.frameは cols =をサポートしていないことに注意してください。

ベンチマーク結果。

以下は、20の数値変数の100万の観測値と独立した5の観測値の想定データセットで、すべてまたは欠落観測値を選択するためのベース(青)、 dplyr(ピンク)、および data.table(黄色)メソッドの比較です。欠落する可能性の割合、およびパート2の4つの変数のサブセット。

結果は、特定のデータセットの長さ、幅、およびスパーシティに基づいて異なる場合があります。

y軸のログスケールに注意してください。

[。![ここに画像の説明を入力してください][1]][1]。

ベンチマークスクリプト。


#-------  Adjust these assumptions for your own use case  ------------
row_size

C8H10N4O2

編集した答え 16日 2月 2018 в 3:47

35

0

解説 (0)

Raminsu

ソース非AMP版編集

dplyrパッケージを使用すると、NAを次のようにフィルタリングできます。

dplyr::filter(df,  !is.na(columnname))

19

0

解説 (0)

Leo

ソース非AMP版編集

これにより、少なくとも1つの非NA値を持つ行が返されます。


final[rowSums(is.na(final))

17

0

解説 (0)

LegitMe

ソース非AMP版編集

最初の質問については、すべてのNAを取り除くために快適なコードがあります。 @Gregorをシンプルにしてくれてありがとう。

final[!(rowSums(is.na(final))),]

2番目の質問では、コードは以前のソリューションからの単なる代替です。

final[as.logical((rowSums(is.na(final))-5)),]

-5はデータの列数であることに注意してください。 rowSumsの合計が5になり、減算後にゼロになるため、これによりすべてのNAを持つ行が排除されます。今回は、as.logicalが必要です。

C8H10N4O2

編集した答え 7日 3月 2018 в 2:57

15

0

解説 (1)

Ramya Ural

ソース非AMP版編集

これにはサブセット関数を使用することもできます。


finalData

14

0

解説 (0)

Jerry T

ソース非AMP版編集

私はシンセサイザーです:)。ここで、回答を1つの関数に結合しました。


#' keep rows that have a certain number (range) of NAs anywhere/somewhere and delete others
#' @param df a data frame
#' @param col restrict to the columns where you would like to search for NA; eg, 3, c(3), 2:5, "place", c("place","age")
#' \cr default is NULL, search for all columns
#' @param n integer or vector, 0, c(3,5), number/range of NAs allowed.
#' \cr If a number, the exact number of NAs kept
#' \cr Range includes both ends 3

Jerry T

編集した答え 10日 12月 2016 в 6:26

9

0

解説 (0)

Prradep

ソース非AMP版編集

データフレームとして「dat」を想定すると、期待出力はを使用して達成できます。

1。rowSums。

> dat[!rowSums((is.na(dat))),]
             gene hsap mmul mmus rnor cfam
2 ENSG00000199674    0   2    2    2    2
6 ENSG00000221312    0   1    2    3    2

2。幸せ。

> dat[!Reduce('|',lapply(dat,is.na)),]
             gene hsap mmul mmus rnor cfam
2 ENSG00000199674    0   2    2    2    2
6 ENSG00000221312    0   1    2    3    2

8

0

解説 (0)

sapy

ソース非AMP版編集


delete.dirt

4

0

解説 (0)

bschneidr

ソース非AMP版編集

一般的でかなり読みやすいコードを生成する1つのアプローチは、dplyrパッケージで「filter」関数とそのバリアントを使用することです(「filter_all」、「filter_at」、「filter_if」)。

library(dplyr)

vars_to_check % 
  filter_at(.vars = vars(one_of(vars_to_check)),
            ~ !is.na(.))

# Filter all the columns to exclude NA
df %>% 
  filter_all(~ !is.na(.))

# Filter only numeric columns
df %>%
  filter_if(is.numeric,
            ~ !is.na(.))

bschneidr

編集した答え 26日 4月 2019 в 2:45

4

0

解説 (0)

Joni Hoppen

ソース非AMP版編集

これは、この方法でよりエレガントに解決できると思います。

  m  1 NA NA 11 16 21
  #> 2  3  8 NA 18 23
  #> 3  5 10 15 20 NA

3

0

解説 (1)

Joris Meys · Accepted Answer · 2011-02-01T12:21:42+00:00

また、complete.casesもご確認ください：

> final[complete.cases(final), ]
             gene hsap mmul mmus rnor cfam
2 ENSG00000199674    0    2    2    2    2
6 ENSG00000221312    0    1    2    3    2

na.omitは、すべてのNA's を削除するのに適しています。complete.casesは、データフレームの特定のカラムのみを含むことで部分選択を可能にする：

> final[complete.cases(final[ , 5:6]),]
             gene hsap mmul mmus rnor cfam
2 ENSG00000199674    0    2    2    2    2
4 ENSG00000207604    0   NA   NA    1    2
6 ENSG00000221312    0    1    2    3    2

あなたの解決策はうまくいきません。もし、どうしてもis.naを使いたいのであれば、次のようなことをしなければなりません：

> final[rowSums(is.na(final[ , 5:6])) == 0, ]
             gene hsap mmul mmus rnor cfam
2 ENSG00000199674    0    2    2    2    2
4 ENSG00000207604    0   NA   NA    1    2
6 ENSG00000221312    0    1    2    3    2

が、complete.casesを使ったほうが、かなりわかりやすく、スピードも速いです。

data.frame内の全部または一部のNA（欠損値）を含む行を削除する。

パフォーマンスが優先される場合は、オプションのparam cols =を使用して、 data.tableおよびna.omit()を使用します。

data.tableを使用しない場合は、complete.cases()を使用します。

ベンチマーク結果。

ベンチマークスクリプト。

パフォーマンスが優先される場合は、オプションのparam `cols =`を使用して、 `data.table`および`na.omit()`を使用します。

`data.table`を使用しない場合は、`complete.cases()`を使用します。