皆さんは「統計」をご存じでしょうか?
私は学校で「統計」を習うことができませんでした。
ゆとり教育では「統計学」が指導要領から外されており、テストに統計が出たことがなかったのです。
しかし、最近「統計を使えたらなぁ」と思う機会が増えてきましたので、このブログをノート代わりにして勉強していきたいと思います。
統計を知りたい方は私と一緒に勉強していきましょう!
この勉強のゴール
ここでは統計を使って次のようなことができるようになることをゴールとしています。
私は工場で新しい製品を作ったり、品質管理をしたりする仕事をしています。
現在は自己流の方法でデータ分析をしていますが、適切にデータ分析するには統計の知識が必須だと感じています。
これを機にしっかりとした統計の知識を身に着けるため、いちから勉強していきたいと思います。
統計の基本概念
まずは、統計学とはどういう学問なのだろうか?というところから学んでいきたいと思います。
統計データと統計分析
統計学とは、統計データの分析を行うことであり、統計データの背景にある規則性や傾向を発見しようとするものです。
ここで言う統計データとは、観察の対象となるなんらかの個体の集合について得られた測定値の集合のことで、たとえば生徒100人の身長など、数値データの集合体を指します。
さらに、統計分析は統計データに含まれる変動の規則性の発見のための分析のことを指します。
たとえば、生徒100人の身長のデータを分析して「男子の方が身長が高い」、「学年が上の方が身長が高い」等ということを見つけ出す分析のことを統計分析と言うのです。
統計的記述と統計的推論
統計では本来数多く(理論上は無限大)の試験や観察によってはじめて知りうるような事柄を、1回あるいは小数回の試験や観察にもとづいて推測するということをします。
これを統計的推論と言います。
例えば、中学生100人の身長のデータが手元にあるとき、このデータをもとに全国の中学生の身長について推測することが挙げられます。
これに対して、1回の観察それ自体のみについて分析することを統計的記述と言います。
統計的記述は所持している範囲内についての規則性分析であり、統計的推論はそのデータの背景にあってそのデータが生み出したもの自身がもつ規則性についての分析です。
私がやりたいことは圧倒的に統計的推論ということですね。
母集団と標本
私たちが求める真の値の集合のことを母集団といいます。対して母集団についての試験、観察結果のことを標本もしくはサンプルといいます。
全国の中学生の身長について関心がある場合、母集団は「全国の中学生の、真の身長がすべて記録されたデータベース」であり、標本は「手元にある中学生100人分の身長の測定結果」ということです。
統計的推論の正当性
たとえば、全国の中学生の平均身長を調べるために、とある中学生100人の身体測定の結果を参照したとします。
ここで注意しなければならないのは、身体測定の結果に誤差が含まれているということです。
靴下を履いている人がいたり、見栄を張って少し背伸びした人がいるかもしれませんので、測定した数値が完全に正しいとは限らないのです。
つまり、標本が母集団を完全に代表することはあり得ません。言い換えると統計的推論において誤差はつきものであるということです。
とはいえ、統計学を駆使すれば、どのような標本であれば母集団を代表する標本すなわち、代表的標本と考えてよいか判断できるようになります。
また、標本から母集団への統計的推論には、どのような、そしてどれだけの誤差が伴うかも明らかになります。
統計的推論を行う上で好ましい標本
統計的推論を行う場合、標本は母集団を代表するようなものである必要があります。
しかし先ほど説明したように、母集団を完全に代表する標本はありません。
ではどうするかというと、母集団から確率的に標本を集めればよいのです。
例えば、全国の中学生の身長を知りたい場合に、100人の身体測定データを使うとします。
この場合、バレー部やバスケ部の人だけを100人集めたデータは代表的標本とならないことは明らかだと思います。(全国平均よりおそらく高くなる。)
では、全国から抽選で選ばれた100人について調べた場合はどうでしょうか?
この場合はデータの偏りが抽選の確率に支配されているため、集まったデータと確率を使って統計的推論を行うことができます。
つまり、母集団と標本との間を結びつけるものは確率的関係であり、確率論が統計的推論の基礎にあると言えます。
推定と検定――統計的推論の2つのタイプ
統計的推論には推定と検定の2つのタイプがあります。
統計的推定とは標本に基づいて母集団の性質を推論することです。
推定では以下のようなものについて答えをえることができます。
統計的検定とは母集団の性質についての仮説が正しいかどうか、標本で調べた結果から判別することです。
以下のような仮説に対して、標本について調査した結果からイエスまたはノーで答えを得ることができます。
推定及び検定のいずれについても誤りはつきものです。
たとえば、たまたま調査対象にバスケやバレーボール選手が多かった場合、全国の中学生の身長は高めに推定されるでしょうし、実際には中学生の身長は昨年より伸びていないのも関わらず、伸びたと判断されることもあるでしょう。
しかし、確率論に基づく統計理論を使えば、このような推論の誤りがどのような可能性(確率)をもって生じるかを知ることができるのです。
私がやりたいことはまさに推定と検定ということですね。勉強しがいがありそうです。
まとめ
今回は「統計の基本概念」について解説しました。
統計とは統計データの背景にある規則性や傾向を発見しようとするものです。
統計には得られた統計データのあらましを表す統計的記述と、得られた統計データを超えてデータのもととなったもの傾向を推定する統計的推論の2つがあります。
私たちが求める真の値の集合のことを母集団といいます。対して母集団についての試験、観察結果のことを標本もしくはサンプルといいます。
統計的推論を行う場合、標本は母集団から確率的に抽出されたものである必要があります。つまり、母集団と標本との間を結びつけるものは確率的関係であり、確率論が統計的推論の基礎にあると言えます。
統計的推論には推定と検定の2つのタイプがあります。
推定とは標本に基づいて母集団の性質を推論することで、検定とは母集団の性質についての仮説が正しいかどうか、標本で調べた結果から判別することです。
確率論に基づく統計理論を使えば、推定や検定による推論の誤りがどのような可能性(確率)をもって生じるかを知ることができます。
コメント