母集団とサンプルの違いは何ですか?

母集団とサンプルの違いは何ですか?それぞれに使われる共通の変数と統計、そしてそれらの関係は?

ソリューション

母集団とは、調査対象となる実体の集合のことです。例えば、男性の平均身長。これは、これまで生きてきた男性、現在生きている男性、将来生きるであろう男性のすべてを含んでいるので、仮想的な母集団です。私がこの例を気に入っているのは、分析者である私たちが、調査したい母集団を選ぶという点を強調しているからです。通常、すべてのメンバーが観察可能ではないため、全人口を調査/測定することは不可能です(例:未来に存在する男性)。全人口を列挙することが可能であっても、そのためにはコストがかかり、膨大な時間が必要となります。上の例では、人口"men"と、興味のあるパラメータである身長があります。

代わりに、この母集団からサンプルと呼ばれる部分集合を取り、このサンプルを使って、ある条件のもとで調査対象の母集団についての推論を行うことができます。つまり,母集団のサンプルに含まれる男性の平均身長を測定し,それを統計量と呼び,その統計量を使って母集団の興味あるパラメータに関する推論を行うことができるのです。サンプルに基づいて母集団に関する結論を出すには、不確実性や不正確さが伴うため、これは推論となります。これは明らかなことで、サンプルのメンバー数は母集団よりも少ないため、いくつかの情報が失われているのです。

サンプルを選択するには多くの方法があり、これを研究することをサンプリング理論といいます。よく使われる方法は、単純無作為抽出(SRS)と呼ばれるものです。SRSでは、母集団の各メンバーがサンプルに含まれる確率が等しいため、「無作為」という言葉が使われます。この他にも、層別抽出やクラスター抽出など、様々なサンプリング方法があり、それぞれに長所と短所があります。

重要なことは、母集団から抽出するサンプルは、多数の潜在的なサンプルの中の1つに過ぎないということです。10人の研究者が同じ母集団を調査し、それぞれのサンプルを抽出した場合、異なる答えが得られる可能性があります。つまり、問題の統計量(平均身長)は、サンプルごとに異なり、サンプリング分布と呼ばれる分布を持っています。この分布を利用して、母数の推定値の不確かさを知ることができます。

標本平均のサンプリング分布は,標準偏差が標本の標準偏差を標本の大きさで割ったものになる正規分布であることが知られています。これはサンプルの標準偏差と混同されやすいため、サンプリング分布の標準偏差を「標準誤差」と呼ぶのが一般的です。

解説 (2)

母集団とは,あなたが関心を持っている値,すなわち個人の全集合のことです。サンプルは、母集団のサブセットであり、推定に実際に使用する値のセットです。

例えば、中国の住民の平均身長を知りたい場合、これが母集団、つまり中国の人口になります。しかし、これは非常に大きな数字であり、中国に住むすべての人のデータを入手することはできません。そこで、サンプルを抽出します。つまり、中国の一部の人々(人口の一部、サンプル)の身長を観測し、それに基づいて推論を行います。

解説 (3)

母集団とは、研究対象となるグループのすべてです。例えば、アップル社の株価を研究しているのであれば、過去の株価、現在の株価、さらには将来の株価のすべてです。また、卵工場を経営している場合、その工場で作られたすべての卵が対象となります。

いつもサンプルを取って統計的なテストをしなければならないわけではありません。あなたの母集団があなたの肉親であれば、母集団が小さいので、サンプルを取る必要はありません。

サンプリングが人気なのは、様々な理由があります。

  • 国勢調査(全人口を対象としたサンプリング)よりも安価である。
  • 将来のデータにアクセスできないので、過去のデータをサンプリングする必要がある。
  • 一部のアイテムをテストで破壊しなければならないが、すべてを破壊したくない(例えば、卵)。
解説 (0)