データ活用やDX推進が注目を浴びる中、データ分析で今までの勘や経験を数値で表し、ビジネスに活かすことが重要になっています。
データ分析は課題解決の一つの手段で、集計や可視化、統計分析などの手法があります。
統計分析とは統計学をベースとした分析手法で、心理学や教育学といった学問でもよく利用されています。
本記事では、統計分析の概念と種類について解説します。
目次
統計分析とは
統計分析とはデータ分析の一つの方法です。
統計学をベースとしたデータの数量化、分析、解釈の技法で、ある一定のモデルに基づきます。
一般的な統計学は、2つに分類できます。
- 記述統計法
対象となる集団に対して分析をし、情報を取りまとめて集約する方法 - 推測統計法
母集団から標本を取り出し、その標本から統計的手法で得られた値で母集団を推測する方法
ブログのアクセスから月間平均UU・PVを出したり、UUとPVの相関を出すなどは、記述統計法に該当します。
一方、ブログのアクセスユーザー(母集団)を無作為に抽出(標本)してA/Bグループに分け、Aグループにはa広告を、Bグループにはb広告を出し、click率の平均値に違いがあるかを見るなどは、推測統計法に該当します。
統計分析の種類
記述統計法、推測統計法それぞれで用いる代表的な技法をご紹介します。
記述統計法
度数分布
連続する値のデータを任意の級間で分けた場合の散らばりや、カテゴリ間の散らばりを表します。
100人のユーザーが1日あたりに閲覧したPV数を1〜10pv、11〜20pvとわけ、それぞれ何人ずつ当てはまるかを見る場合などに利用できます。
PVなど連続する値のことを量的変数と呼び、ユーザーの属性や会員ランクなど非数量的なものを質的変数と呼びます。
ユーザー属性の人数の内訳を見るなど、質的変数でも度数分布は利用されます。
図表で表す場合は、量的変数にはヒストグラム、質的変数には棒グラフや円グラフが用いられます。
平均値・中央値・最頻値
データの中心傾向を測る指標の代表的なものとして、平均値、中央値、最頻値があります。
- 平均値
記述統計、推測統計どちらでもよく利用する大切な概念の一つです。最も個々のデータから近い代表的な数値で、正規分布のデータの測度として適しています。 - 中央値
データの分布を半分に分け、ちょうど真ん中に位置する値のことです。平均値は正規分布のデータに適しているのに対し、中央値は歪んだ分布のデータに利用することができます。 - 最頻値
最も頻繁に起こる値のことです。平均値や中央値よりも極端な値に左右されにくく、外れ値がある場合や質的データに利用しやすいです。
四分領域・分散と標準偏差・散らばり指数
月10万円稼ぐ人が5人、月100万円稼ぐ人が10人の場合、平均値は70万円となります。このようにデータの散らばり度合いによっては平均値の信頼性が低くなる場合があります。
この散らばり度合いを測る指標として、量的データでは四分領域・分散と標準偏差、質的データでは散らばり指数が代表的です。
- 四分領域
中央値の計算方法で、データを25%ずつ区切るものです。
25%〜75%の間を四分位範囲とよび、データの中心傾向と広がりを表現する箱ヒゲ図で表すことができます。 - 分散と標準偏差
データの散らばりを表す指標として最もよく利用されています。
分散とは、平均値から個々の値の差を二乗したものを”全体-1”で割ったものです。
標準偏差は、分散の平方根の値です。標準偏差が0の場合は全てのデータが同じ値であることを示します。標準偏差の値が大きいほど、データのばらつきがあることを意味します。 - 散らばり指数
カテゴリー化された質的データに用いる測度です。
データが一つのカテゴリに集中すれば散らばり指数は0、データが全てのカテゴリに均等にある場合は1となります。
相関係数と線形回帰
2つの値の関連性の高さやデータを予測する際に用いるものに相関係数と線形回帰があります。
UU数が増えると売上が増える(正の相関)、運動量が増えると体重が減る(負の相関)など、2つの値の直線的な関係を示す値が相関係数です。
相関係数は-1〜1の間で表すことができ、Xの増大率と同様にYが増大する場合は1、増大率と同様に減少する場合は-1となります。
このような直線相関がある場合に、UU数がxx増えたら売上はyy増えるだろう、といった予測を可能にする技法が線形回帰です。
推測統計法
t検定
母集団からランダムに抽出した標本に対して、2つの平均値で差異があるかどうかを比較する技法です。
標本は正規分布であると仮定し、有意水準を定めて差があるかどうかを検定します。
t検定には3つの種類があります。
- 独立した1つの標本
特定の値との比較方法です。
【例】ECサイトのアクセスユーザーからランダムに100人抽出する。その100人にクーポンを配布する。100人の購入数の平均と、通常の購入数の平均で差があるかどうかを比較する。 - 独立した2つの標本
別グループとの比較方法です。
【例】ECサイトのアクセスユーザーからランダムに100人抽出する。その100人をaとb2つのグループに分け、aグループにはクーポンを配布し、bグループには配布しない。aとbグループで購入数の平均に差があるかどうかを比較する。 - 関連した標本
同一グループでの比較方法です。
【例】ECサイトのアクセスユーザーからランダムに100人抽出する。その100人にクーポンを配布する。クーポンを配布する前と配布した後で、購入数の平均に差があるかどうかを比較する。
分散分析
2つ以上の平均値に差異があるかどうかを比較する技法です。
分散分析には2つの種類があります。
- 一元配置分散分析
一つの要因からなる比較方法です。
【例】ECサイトのアクセスユーザーからランダムに30人抽出する。その30人をa,b,cグループに分け、aグループには1日限定クーポン、bグループには3日間限定クーポン、cグループには7日間限定クーポンを配布する。a,b,cグループで購入数の平均に差があるかどうかを比較する。 - 二元配置分散分析
二つ以上の要因からなる比較方法です。
【例】ECサイトのアクセスユーザーからランダムに30人抽出する。その30人を”アクセス頻度高/中/低×1日限定クーポン/3日間限定クーポン/7日間限定クーポン”と、9グループに分けて配布する。クーポンの期間、アクセス頻度で購入数の平均に差があるかどうかを比較する。
カイ二乗検定
度数の差異を比較する技法です。
t検定や分散分析は量的データで平均値の差異を調べるもので、カイ二乗検定は質的データでカテゴリ間の度数の差異を調べる方法となります。
クーポンの種類×購入するか否かのクロス集計表を作成し、クーポンの種類が購入に影響するかをみるなど、A/Bテストの仮説検定で利用できます。
まとめ
統計分析の概念と種類についてまとめました。
本来統計学は、少ないデータから効率よくデータ分析をするための方法です。
ビッグデータが扱える今では母集団そのものを扱えることも多く、推測統計法の分析で有意な差がでても、有益な情報といえない可能性があります。
ビッグデータ時代においては、推計統計法とは考え方が異なるベイズ統計と相性が良い場合も多いです。
データ分析の目的とデータの内容に合わせて、最適な方法を選択することが必要となります。
実際のビジネスで活かす方法として、効果検証入門の本も参考となりますので、ご興味ある方は読んでみてください!