学校教育で統計を学ぶことができなかったゆとり世代の私
本記事はそんな私がいちから統計を勉強していくシリーズです。
第2回の今日は平均値、中央値、最頻値とよばれる代表値について学んでいきます。
代表値について
私たちはよくデータの平均値を求めますが、その理由はその一群の数字やデータの雰囲気をただ1つの数字で表したいという思いからです。
このようにデータの雰囲気を示すためのただ一つの数字のことを代表値と言います。
よって、平均値は代表値の中の一つということです。代表値は他にも以下のようなものがあります。
ほとんどの場合は平均値を代表値として大丈夫です。
しかし場合によっては中央値や最頻値を使う方が望ましいので、今回はそれぞれの違いと使い分けについて解説します。
平均値、中央値、最頻値の使い分け
平均値とは「すべてのデータを足してサンプル数で割ったもの」です。中央値とは「データを小さい方から大きい方に並べてちょうど真ん中の数字」です。最頻値とは「データを一定の間隔に区切った際に、最もデータの個数が多い数字」です。
ほとんどの場合は平均値を代表値として使っていれ問題ありません。
ただし、極端にデータが偏っている場合は中央値や最頻値を使う方がよい場合があります。
例えば年収が「200万、270万、285万、315万、330万、400万」という6人の場合、平均年収は300万円で、中央値は300万円です。
ここに1人だけ年収「5億円」の人が入るとその平均年収は7400万円と大きく変化してしまいます。
しかし、中央値は325万円となりその変化は小さいです。また、データを100万円単位で区切った場合も、その最頻値は「250万円以上~350万円未満(300万円)」であり、変化はありません。
このように、データに偏りがあったり、極端なデータがある場合には中央値や最頻値を使用したほうがいい場合があります。
代表値として中央値と最頻値をご紹介しましたが、統計を使ってデータ分析する場合は平均値しか使用しません。
よって、ここでは平均値についてもう少し掘り下げていきたいと思います。
それぞれの平均値の意味と使用方法
平均値は最も多く使われる代表値です。
しかし平均値には以下のような欠点があるので気を付けてください。
先ほども解説しましたが、平均値の一番の欠点として、「極端なデータがあった場合に、それに大きく引っ張られる」というものがあります。
例えば、クラスで数学のテストをして以下のような結果となったとしましょう。
生徒 | 点数 |
---|---|
A | 80 |
B | 75 |
C | 90 |
D | 85 |
E | 70 |
F | 80 |
のび太君 | 0 |
平均 | 68.6 |
クラス全員の点数を足して7で割ると68.6点です。このクラスの生徒の点数はだいたい69点くらいを取っていると解釈したくなります。
しかし、はたして本当にそう考えてよろしいのでしょうか?
のび太君の点数は他の生徒の点数よりも著しく低く、そもそものび太君はこのクラスの成績を代表していると言えません。
よって、のび太君の成績を除いて平均したほうが、このクラスの代表値として適切です。
のび太君を除いた場合、その平均値は80点となり、A~Fの点数と見比べてもより正しく代表できていることが分かります。
平均値を計算する前に、その集団を代表していないデータ(特異点)は排除しましょう。
また、平均値にはいくつか種類があります。それぞれのデータに合わせて計算方法を変える必要がありますので注意してください。
算術平均
算術平均とは、すべての数値を足してサンプル数で割ったもので、一般的に「平均値」と言えばこれを指します。
算術平均は普通「\(\bar x\)(エックスバー)」で表します。
ここに全体でn個のデータがあるとし、これらを「\(x_1,x_2,x_3,\cdots ,x_n\)」と書き表したとすると、そのとき算術平均「 \(\bar x\) 」は以下のような数式で表すことができます。
$$\bar x = \frac{x_1,x_2,x_3,\cdots ,x_n}{n} = \frac1n\displaystyle \sum_{i=1}^{n}x_i\tag{2.1}$$
算術平均は非常に多くの場面で使用されており、統計の分析はこの算術平均を基本としています。
幾何平均
幾何平均とはデータの積をn乗根に開いたもので、比率を平均したいときによく利用します。
幾何平均は普通「\(m_G\)」で表します。幾何平均は英語で「geometric mean」というのでその頭文字を使っています。
$$m_G = \sqrt[n]{x_1 x_2 x_3\cdots x_n} = (\displaystyle \prod_{i=1}^{n} x_i)^\dfrac 1 n \tag{2.2} $$
ある数値が10年間で2倍になった場合、1年あたりの倍率は \(2(倍)/10(年) = 0.2\) 倍/年と算術平均で計算してはいけません。
正しくは幾何平均を使用する方法で、 \( \sqrt[10(年)]{2(倍)} = 1.0712 \) 倍/年と計算する方が好ましいです。
このようにデータが比率である場合には幾何平均を使用しましょう。
調和平均
調和平均とは、逆数の算術平均の逆数の形をしているもので、主に速度の平均を出すときに使用します。
幾何平均は普通「\(m_H\)」で表します。幾何平均は英語で「harmonic mean」というのでその頭文字を使っています。
$$m_H = \frac{n}{\frac{1}{x_1}+ \frac{1}{x_2}+ \frac{1}{x_3}+\cdots\ \frac{1}{x_n}} =\frac{n}{\displaystyle \sum_{i = 1}^n \frac{1}{x_i}} \tag{2.3} $$
たとえば、片道120㎞の道のりを、行きは40km/h、帰りは60km/hで帰ってきたとき、行き返りの平均速度について考えてみましょう。
ぱっと見た感じ \(\frac{40+60}{2} = 50\)km/hと計算したくなりますが、これは違います。
問題文を確認すると、行きは3時間、帰りは2時間で240kmの道のりを合計5時間で進んでいたことが分かります。
しかし、行き返りを50km/hで進んだとするとその時間は\(\frac{240(km)}{50(km/h)}=4.8\)時間となり問題と合いません。
正しい平均速度は240kmを5時間で進んだのですから、 \(\frac{240(km)}{5(h)} =48\)km/hです。これは以下の式の通り調和平均で計算できます。
\begin{eqnarray}
48(km/h) &=& \scriptsize\frac{240(km)}{5(h)}
\\ &=& \scriptsize\frac{120(km)+120(km)}{2(h)+3(h)}
\\ &=& \scriptsize\frac{2 \times 120(km)}{\frac{120(km)}{40(km/h)}+ \frac{120(km)}{60(km/h)}}
\\ &=& \small\frac {2}{\frac{1}{40(km/h)}+ \frac{1}{60(km/h)}}
\\ &=& \scriptsize \frac{n}{\displaystyle \sum_{i = 1}^n \frac{1}{x_i}}
\end{eqnarray}
調和平均は速度の他にも仕事量や和音の周波数計算(ドとファの関係性)にも使用できます。
二乗平均平方根
ばらつきなどの正負のある場合に、その絶対値の平均をとりたい場合があります。
その際にはこの二乗平均平方根を使用します。
絶対値は演算が難しいので、代わりに2乗の算術平均を求め、その後平方根をとるのです。
二乗平均平方根は普通「\(RMS\)」で表します。英語の「root mean square」が由来です。
$$RMS = \sqrt{\frac {1}{n}\sum_{i = 1}^n (x_i)^2} \tag{2.4} $$
誤差にはプラスやマイナスがあるので、その絶対値に注目する場合などによく使用します。
算術平均の3つの特徴
統計では算術平均が基本となっており、代表値の中でもっとも重要なものとなっています。
そんな算術平均には以下の3つの特徴があります。
ややこしい記述になりますが、後にこの性質を利用しますのでよく覚えておきましょう。
①算術平均は1次変換を保持する
もとのデータ\(x_i(i=1,2,\cdots ,n)\)に対して、定数\(a,b\)を用いて以下のような変換をする。
$$y_i = ax_i+b i = 1,2,\cdots ,n\tag{2.5.1}$$
このような変換を\(x_i\)を \(y_i\)に1次変換するといいます。
この変換された \(y_i\)の算術平均 \(\bar y\)は
$$\bar y = a\bar x + b\tag{2.5.2} $$
で表すことができます。
このように個々のデータ \(x_i\)と \(y_i\) の間の1次関係式(2.5.1)は、それぞれの算術平均 \(\bar x\)と \(\bar y\) の間にも成り立つのです。
ちなみに証明は以下の通りです。
$$ \bar y= \frac1n\displaystyle \sum_{i=1}^{n}y_i= \frac1n\displaystyle \sum_{i=1}^{n}(ax_i+b)= \frac an\displaystyle \sum_{i=1}^{n}x_i+ \frac1n\displaystyle \sum_{i=1}^{n}b=a\bar x+b$$
元のデータを2倍すれば平均値も2倍になるし、元のデータすべてに10を足したら平均値も10増えるということです。言われてみれば当たり前のことですね。
②算術平均からの偏差の和は常に0である。
偏差とは個々のデータがその値からどれだけ離れているかを示す数値で、正方向に離れている場合は正の値、負の方向に離れている場合は負の値になります。
\(a\) を定数としたとき、データ \(x_i\) の偏差は以下のようにあらわすことができます。
$$偏差 = x_i -a$$
算術平均からの偏差の和を \(a=\bar x\)とすると以下の式で表すことができ、それは0となります。
$$\displaystyle \sum_{i=1}^{n}(x_i-\bar x) = 0 \tag{2.6}$$
証明は以下の通りです。
$$\displaystyle \sum_{i=1}^{n}(x_i-\bar x) = \displaystyle \sum_{i=1}^{n}x_i – \displaystyle \sum_{i=1}^{n}\bar x=n\bar x-n\bar x=0$$
各データから平均値を引いた後、改めて平均をとると必ず0になるということです。
この式の意味を物理学的に考えると、算術平均はデータの重心を示していると言えます。
③算術平均からの偏差の平方和は他のいかなる一定値からの偏差の平方和よりも小さい。
③は偏差の平方和についての性質です。
偏差の平方和は、2乗しているため偏差の正負は関係なく、単純に各データの値とどのくらい離れているかという距離を示す値です。
平均の偏差の平方和は、他のどの値との偏差の平方和よりも小さくなります。
数式で示せば、 \(a\)を定数とするとき、↓の式がいつでも成り立つということです。
$$\sum_{i=1}^{n}(x_i- \bar x)^2 ≦ \sum_{i=1}^{n}(x_i-a)^2 \tag{2.7}$$
これの証明は以下の通り。
\begin{eqnarray}
\small \sum_{i=1}^{n} (x_i-a)^2 &=& \small\sum_{i=1}^{n} (x_i- \bar x+ \bar x -a)^2
\\ &=& \small\sum_{i=1}^{n}(x_i- \bar x)^2+ \sum_{i=1}^{n}(\bar x-a)^2+ \sum_{i=1}^{n}2(x_i-\bar x)(\bar x -a)
\\ &=& \small \sum_{i=1}^{n}(x_i- \bar x)^2 +n(\bar x – a)^2 + 2(\bar x-a) \sum_{i=1}^{n}(x_i- \bar x)
\\ && \small \bar xの第2の性質より \small \sum_{i=1}^{n}(x_i- \bar x)=0だから上式の第3項は0
\\ &=& \small \sum_{i=1}^{n}(x_i- \bar x)^2 +n(\bar x – a)^2
\\ && \small n>0なので、 \small n(\bar x-a)^2>0が成り立つ。よって、
\\ &≧& \small \sum_{i=1}^{n}(x_i- \bar x)^2
\end{eqnarray}
元のデータから平均値を引いた後、それを平均したときは0でした(式2.6)。0になるのは偏差に正負があり、それぞれが打ち消し合うからです。
では、偏差の正負がなくなるよう偏差をすべて2乗したとき、その合計が最も小さくなるような値は何だろうということが疑問として挙がります。そして、そいつは同じく平均値 \(\bar x\) だよということをここでは言いたいのです。
算術平均は本当によく使うので、その3つの性質についてはしっかり覚えておきましょう。
まとめ
大量にあるデータの集まりを、一つの数字で代表するものが代表値です。
代表値には平均値、中央値、最頻値がありますが、統計で主に使用するのは平均値です。
平均値はデータに偏りがあったり、異常値があると大きく影響を受けるので、計算する前に異常値がないか確認しておきましょう。
また、平均値にはいくつか種類があるので、用途に応じて使い分けましょう。
平均値の3つの特徴は後で使うのでよく覚えておきましょう。
おわりに
今回は代表値について勉強しました。
平均値の種類がこんなにあるなんて意外でしたね。
さらに、統計らしく数式がたくさん出てきました。
数式は難しいのでネット記事では避けられがちですが、このシリーズではがっつり書いていきます。
コメント