経営を学ぶ-経営学・MBA・起業・ネットビジネス・リアルビジネスなど

データの階級分けと特性値…中央値・最頻値・平均値・分散・標準偏差

データの階級分けと特性値…中央値・最頻値・平均値・分散・標準偏差

ここでは度数分布表とヒストグラムを理解することによって、データの階級分けを学んでいきます。

 

まず、中学3年生の身長を調べるために100人分のデータ(架空値)を使ってみましょう。

 

データの階級分け

 

データの集団には「分布の特性」と呼ばれる何らかの特徴があります。しかし、このように数字の羅列をただ見ているだけでは、その特徴をとらえることはとても難しいものです。そこで、これらのデータを整理してみましょう。

 

その後にグラフ化して特徴をとらえ、データ集団を代表する数字を検討します。ここでは、度数分布表を作成してヒストグラムというグラフを作成する手順を解説します。

 

データを階級にわけて度数分布表を作成する

 

手順1:データを昇順に並べ変えをし、最大値と最小値をみつけます。

 

手順2:この最大値と最小値の間を一定値で区切ります。この区切りを「階級」と呼び、階級を代表する値として一般的には中央値が選ばれ「階級値」と呼びます。

 

手順3:それぞれの階級に該当するデータ数をカウントし、これを「度数」と呼びます。度数には、2種類の測り方があります。階級に該当する値をカウントしたものを「絶対度数」といい、全体に対する割合を示したものを「相対度数」と呼びます。この相対度数は、合計すると1になります。また、階級を経るごとに度数を合計したものを「累積度数」と呼びます。

 

手順4:これらの情報を一覧表にまとめたものを「度数分布表」といいます。

 

度数分布表からヒストグラムを作成する

 

この集団の分布の様子を、度数分布表から棒状グラフで表現したものを「ヒストグラム」と呼びます。これは表計算ソフトでも簡単につくることができます。

 

横軸に階級値、縦軸に度数を設定します。また横軸の値は階級であっても連続したことを示すために棒グラフの間隔を0%に設定すれることが一般的です。

 

度数分布表とヒストグラム

 

このヒストグラムをみたときに、いくつかの特徴を得ることができます。

 

1. 中学3年生の身長は、ある特定の場所(150〜154)に集中している。
2. ピークが真ん中にある

 

ヒストグラムは、データ集団のだいたいの中心がどこか、範囲がどの程度か、分布の様子、ピークがいくつあるか、異常値がないか、といったことが視覚的にわかることが利点です。

 

このように度数分布表にまとめてしまうと、個別のデータ値の情報が隠され、見えなくなってしまいます。しかしその代わりに、度数分布表にまとめヒストグラムに表現することで上記のような特徴をみつけることができました。

 

上記例ではヒストグラムの横軸に身長という量的データを取り扱ってきました。衣料品メーカーであれば、入学式や卒業式など、同一学年のイベント衣服をビジネス展開するのに、どのサイズの在庫量を多くすればよいのかのヒントになります。

 

具体的には、度数がもっとも多い階級のサイズを多めに準備すればよいことがわかります。

 

また、幼稚園の入園式と高校の入学式では身長に差があるため、それぞれのヒストグラムの様子は変わったものになるでしょう。横軸を同一にしてヒストグラムを展開したときには、ピークが左右にふれます。

 

また、大人の身長差の幅は、子どもの幅よりも大きくなることも容易に想像できます。

 

ヒストグラム利用時の注意点

 

ここで、ヒストグラムを使うときの注意点を述べます。最初に、階級の設定についてです。

 

広すぎでも狭すぎてもピークがどこにあるのか探しにくくなります。グラフ化したときに特徴がつかめなければ、階級の幅を変更するなど工夫をして、ほどよい設定を見つけ出しましょう。

 

次に、ヒストグラムの形です。複数のピークが見られることもあります。また、左右のばらつきに偏りがあり、歪んだ分布をする場合もあります。このように複数のピークや歪んだ形のときには、その背景を探るようにすれば、新たな特徴の発見につながります。

 

データの特性値(メディアンとモード)

 

人間の身長や体重は、年齢などの条件をそろえてもみんな同じではありません。目的に応じて取得する分析のためのデータは、一つひとつをみれば大小さまざまな値の集合であり、これを統計用語では「分布する」と呼びます。
データが分布する背景には、何かしらの固有の癖があり、そのデータの特徴をとらえるために統計学が発展してきました。

 

では、どのようにしてその特徴をとらえればよいのでしょうか。まずは、データ集団をなんらかの序列にそって並べ替えてみましょう。そうしてから、その集団を代表する値を決めていけばよいのです。

 

分布の特徴を「分布の特性値」とよび、なかでも「中心的傾向の特性値」といわれるものは3つあります。最も一般的なものに平均値メディアン(中央値)モード(最頻値)です。

 

母集団のなかに他と大きく値が異なる「外れ値」がある場合、平均値は大きく影響をうけるので別記します。ここでは、外れ値からの影響をうけないメディアン(中央値)とモード(最頻値)について解説します。

 

データの特性値|メディアン(中央値)

 

分布の特徴を示す特性値のなかでメディアン(中央値)と呼ばれるものは、データを大きさ順にならべたときに真ん中に位置する値です。

 

メディアン

 

・標本が奇数の場合
 データを大きさ順にならべ、全体を半分にわける値が中央値です。

 

・標本が偶数の場合
 データを大きさ順にならべ、全体を半分にわける境にある2値の中点を計算します。足して2で割った値を使用します。

 

データの特性値|モード(最頻値)

 

分布の特徴を示す特性値のなかでモード(最頻値)と呼ばれるものは、度数分布表の階級のなかでもっとも度数が多いデータ値です。ヒストグラムのピークに該当する部分です。その階級で上下の値の算術平均を階級値が、そのまま最頻値になります。

 

モード

 

分布の代表値としてモードを使う場合には、注意点があります。モードは階級の度数が重要になるため、階級の分け方により変わってしまいます。また、ピークが1つではなく複数あり同じ度数の場合には、最頻値を決めることができません。

 

ピークの値が異なる場合にも、その集団をあらわす代表値だと言い難い場合もあります。加えて、サイコロのように同じ確率で出現する分布の場合にも最頻値を使うことはできません。

 

データの特性値(平均値)

 

次に、最も私たちに身近なデータの特性値である平均値について見ていきます。

 

データの特性値|平均値

 

分布の特徴を示す特性値のなかで、平均値と呼ばれるものは日常的によく使われています。2つのデータの間の値を示す平均値ですが、足して割るだけではない平均値があることをご存知でしょうか。用途によって使い分けられるよう、4つの平均値について解説します。

 

平均値|算術平均

 

一般的に平均として知られているものは、算術平均です。データの合計をデータ数で割った値です。

 

平均値|幾何平均

 

n個の数を掛けてn乗根にした値で、成長率を平均するときなどに利用します。例えば、ある商品が爆発的にヒットをとばし、2年目に200%増の売上を達成したものの、3年目に72%減少した事例で説明をします。この場合3年目の売上は、1年目と比較して144%となります。2年間の平均20%増で、120%×120%=144%となります。

 

その商品の売り上げの伸びを幾何平均で考える計算式は、√(2.0×0.72)=√1.44=1.2 となり、平均20%の伸びだということがわかります。このとき算術平均をしてしまうと、(2+0.72)/2=1.36となり、平均36%の伸びと算出されますがこの値は誤りです。

 

平均値|二乗平均

 

平均したい数値を2乗して合計し個数nで割る値を平方根して算出します。輸送機関の時刻表に対する到着時間との差分を算出したいときなどに利用します。

 

2分の遅れも2分早く到着することも、時刻の乱れがあることに違いはないのですが、プラスマイナスがあるまま算術平均をすると相殺してしまいます。このような場合には、2乗することでマイナスをなくして計算をおこなう二乗平均がふさわしいのです。

 

平均値|調和平均

 

平均速度を扱うときなどに利用します。

 

ここで、10と100の2つの値を使って、4つの平均値の算出をしてみましょう。

 

平均値

 

いかがでしょうか。すべての値が異なることがわかります。扱うデータの意味を考え、最適な平均値を使い分けることが大事です。

 

分布の特性を示すのによく使われる3つのまとめ

 

分布の特徴を示す特性値が話題になるのは、世帯別所得がニュースになる場合です。厚生労働省の平成28年国民生活基礎調査の概況資料から図を掲載します。

 

平均値2

 

所得金額階級別に世帯数の相対度数分布をみると、特徴ある形をしています。

 

所得は正の値しかとらず、上限は所得の大きいほうに引っ張られています。この分布の平均は545.8万円となっていますが、実は過半数の人はこの平均値を超えていません。平均所得金額以下の世帯は61.4%もあるのです。

 

このように、値が大きい(もしくは小さい)データに引っ張られる分布のときに使われるのが中央値です。中央値は428万円で、外れ値があても影響されにくいことがよくわかります。

 

また、頻度をみてみると「200〜300 万円未満」が13.7%であり、最も割合の多い階級になります。したがって、最頻値は250万円です。このように、L字型分布の場合、分布の特性値はバラバラになります。

 

ここで、度数分布表での平均値を計算してみましょう。上記の平成28年国民生活基礎調査の概況(厚生労働省)から参考表8を掲載します。

 

平均値3

 

度数分布表を作成すると、データ個別の値はなくなってしまいます。

 

しかし、各階級に存在するデータ全部が階級値と同じだ、と考えましょう。階級140-150階級値145のなかで度数が6であるならば、本来は【141、144、145、146、147、149】であったとしても、145が6つあるとみなすのです。

 

そこで度数分布表からもとめる平均値は、

 

平均値=((階級1の階級値)×(度数)+(階級2の階級値)×(度数)…÷(総データ数)
   =(階級1の階級値)×(階級1の度数)÷(総データ数)+ (階級2の階級値)×(階級2の度数) ÷(総データ数)…
   =(階級1の階級値)×(階級1の相対度数)+(階級2の階級値)×(階級2の相対度数) …
   =(階級値)×(相対度数)の合計
になります。

 

その結果は、534.1万円となりました。ここで、元のデータの平均値545.8万円と比較してみると、大きなずれはありません。

 

データのばらつきの測定(分散と標準偏差)

 

度数分布表にまとめヒストグラムにすると分布にはさまざまな形があり、左右対称にならない場合には、中央値、最頻値、平均値の値に差があることがわかっています。そのような場合には、分布の広がり具合に着目してみましょう。

 

特急列車の時刻表と到着時刻を例にあげます。通勤時間帯の特急列車は、時刻表7時00分より平均値として1分遅れることがわかりました。しかし、それだけで列車の信頼性を決めることはできません。到着時刻にはばらつきがあるからです。そこで、標準偏差をもとめると約2.6分だとわかりました。言いかえれば、列車は平均到着時刻7時01分から前後2.6分ほどの間に散らばって到着する、といえます。

 

このように、幅をもって値が分布していることを話題にするとき、統計用語で「変動の特性値」と呼びます。代表的なものを3つあげます。

 

変動の特性値1:分散
データと平均値の差を2乗して合計し個数で割る値で、平均値からどの程度離れているのかを示す。2乗しているので値は大きくなりがちで、もとの値と単位が異なる。

 

変動の特性値2:標準偏差
分散の平方根の値で、もとの値と単位が同じくなるので直観的に理解しやすい。

 

変動の特性値3:変動係数
標準偏差を平均で割った値で、異なる標本のばらつきを比較するのに利用する。

 

ここでは、統計学で特に重要な分散と標準偏差について解説を行います。

 

変動の特性値|分散

3分遅れたり3分早く到着する列車と、10分遅れたり10分早く到着する列車では、ホームに到着する心構えが異なります。基準時刻に対してプラスマイナスがあると、算術平均ではその値が小さくなってしまい意味をなしません。

 

そのような場合には、ばらつきの幅を知る「分散」を使います。分散の算出方法は、まずデータと平均値との差「偏差」を求めます。

 

次にプラスマイナスをなくすため偏差を2乗して足し「変動」をもとめ、最後に個数で割ることで算出します。2乗することで、小さい差はより小さく、大きい差はより大きく表現されます。

 

変動の特性値|標準偏差

 

分散は値の2乗を平均しているため、元の数値と単位が変わっています。そこで、分散を平方根し算出した値を「標準偏差」と呼びます。

 

この標準偏差は、平均値の二乗平均と同じものです。標準偏差は元のデータと同じ単位を持つため、平均値+標準偏差といった算術をすることができます。

 

偏差=(データ値)-(平均値)
分散=((偏差の2乗)の合計)÷(データ数)
標準偏差=√(分散)


HOME メルマガ登録 プロフィール お問い合わせ