文系のための、統計入門方法

こんにちは、みなもとです。

・統計が大事なことはわかる、勉強もしたい、でも何度も挫折している
・自分は文系だから、数式が出てくるともうお手上げ

こんな悩みありませんか？

実は私も同じ悩みをかかえていました、、、。

何度もチャレンジし、なんども挫折しました。

統計関係の本だけが積み重なっていく日々。

ちなみに私も文系です、、、。

やる気はあれど、数式を理解できない、または理解するのに非常に時間がかかってしまう……。

今回は、文系でも理解できる統計の入門方法について記載したいと思います。

文系のための統計入門方法

統計とは

統計とは、いまある情報から結果を予測する学問です。

あらゆるテーマにおいて、全ての情報を揃えられるとは限りません。

意志決定のためには、限られた情報から推測することが必要になり、その知識を体系化したのが統計学です。

例えば、内閣支持率は国民全員が対象ですが、毎回全員に調査するのは現実的ではないですよね。

調査対象を抽出して、聞き出すことをしています。

調査対象者全員からなる集団のことを｢母集団｣

選び出された人々からなる集団のことを｢標本｣

といいます。

このように、今ある情報から結果を推測することを「推測統計学」と言います。

統計学には、もう１つ種類があり

テストの平均点などを抽出する｢記述統計学｣があります。

なぜ文系には、難しいと感じるのか？

数学、とくに「数式」にアレルギーを感じるからだと思います。

数式を追っておいると、いつしか何をしているかわからなくなり、理解ができなくなってしまいます。

Σとか出てくると、思考がシャットダウンしがちになりますよね。

数式の理解が、次のステップに必須な場合、そこから先に進めなくなってしまいます。

統計「入門」のゴールは

いきなり統計学の全てをマスターするのは難しいです。

入門のゴールを決めて、段階を踏むことが大事です。

入門のゴールは、

｢データリテラシーをつけること｣

です。

世の中には、正しいデータっぽいことであふれています。

正しくないデータに、ふりまわされないようにすることは、正しい意志決定にもつながってきます。

では、正しくないデータよはどのようなデータか？

母集団から偏りなく、標本を抽出するという前提を守れていない場合です。

例えば、TVやネットであふれているアンケート結果などは統計的には意味が無い場合が多いです。

N数が多いと、確からしいのではないか？と思ってしまいますが、それも錯覚です。

ただ、間違えを指摘すると言うよりも、データを鵜呑みにしない、という姿勢の方が大事です。

勉強の方法

セミナーを受講するのも、もちろん効果的ですが、時間とお金の制約があります。

何よりも、手軽に入門したいですよね。

やはり、そのための最適ツールは｢本｣だと思います。

とはいえ、自分も｢統計入門｣本を何冊もチャレンジし、挫折してきました。

そんな文系人間の自分にも、最後まで読めて理解もできた入門書が見つかりました。

｢文系の私に超わかりやすく統計学をおしえてください。｣

です。

この本は、｢データリテラシー｣を身につけることを目的にしています。

数式が最小限におさえられていながらも、肝となるところはしっかりと説明していて、図表やイラストが多くて読みやすい。

まさに入門に最適で、事実データに対する見方が変わりました。

レビュー超要約メモ

特に参考になったポイントを共有します。

正しい標本抽出の仕方が知れる

データリテラシー向上の第一歩が、｢無作為抽出法｣を理解することです。

母集団から偏りなく、標本を抽出するという、正しいデータの大前提をクリアする方法だからです。

例えば内閣支持率の調査対象者は、８０歳の高齢者だけでも、年収2000万円以上のエリートだけでも意味身が無ありません。

国民全体をミニチュア化したような標本にする必要があります。

無作為抽出法は母集団の精巧なミニチュアをつくる方法です。

無作為抽出法の例

①単純無作為抽出法
母集団から無作為に抽出する方法

②層別抽出法
母集団を｢都道府県｣などの層に分けた上で、各層で単純無作為抽出法を実行する方法

③２段抽出法
｢都道府県｣をいくつか抽出し、その都道府県ごとに単純無作為抽出法を実行する方法

④層別２段抽出法
層別抽出法と２段抽出法を合体させた方法。

データの雰囲気がつかめる

統計で扱うデータの量は膨大です。

データの雰囲気をまずつかむことが大切になります。

ここが、分析の土台になってきます。

データには２種類あります。

①数量データ：量的データ　「睡眠時間」や「気温」など
②カテゴリカルデータ：質的データ　「おいしさ」や「性別」　など

①数量データ

データの散らばり具合を把握することが基本です。

平均は同じでも、散らばりの大きさでデータの状況はことなるからです。

データの散らばり具合を表す指標として、平方和/分散/標準偏差がある

平方和
平均を基準地点としたうえで、データの散らばり具合を数値化したもの
（個々のデーター平均）²を足したもの

分散
平方和をデータで割ったもの
データの個数が大きくなればなるほど値も大きくなるという平方和の弱点を解消
平方和/データの個数

標準偏差
分散のルート
単位を元通りにした指標（平方和で二乗している）
√分散

また、データを小さな順にならべたときに、ちょうど真ん中にくる値を中央値といいます。

平均よりも中央値のほうが、異様に大きかったり小さかったりするデータがある場合に役立ちます。

国民の貯金額も、平均より中央値のほうがイメージあっている感覚ですね。

②カテゴリカルデータ

カテゴリカルデータでは割合が大事になります

カテゴリーの個数が２つだけのときは、数値で表すことが出来ます

好きと嫌いの２択であれば、好き＝１　嫌い＝０のイメージです。

すると、平均を数値データのように計算できます。

また自分もやってしまったことがあるのですが、

とても良い＝４
良い＝３
やや悪い＝２
悪い＝１

と段階評価を数値に置き換えて、平均を計算する行為はNGです。

「とても良い」という感覚は人それぞれなので、一律に数値に起き変えるのは不適切のようです。

思わぬ落とし穴でした！

データ分析の超基本が知れる

回帰分析と重回帰分析

売上を予測するときに使う分析です。
ビジネスにおいて非常に重要な分析方法だといえます。

回帰分析とは、｢因｣と「果」に当てはまると思われる変数を１つづつ用意し、それらの関係をうまく捉えた｢回帰式｣と呼ばれる、y＝ax＋bを求め、それを利用してYを予測するための分析方法です。

重回帰分析とは、｢因｣に相当する変数が２つ以上ある場合です。

便利なことに、エクセルで分析することが出来ます。

｢ファイル｣タブ選択
↓
｢データ｣タブ選択
↓
｢分析｣欄のデータ分析から｢回帰分析｣を選択
↓
入力Y範囲に結果数値（例：売上など）
入力X範囲に原因数値（例：気温など）
↓
一番下の表
｢係数｣欄に、回帰式y＝ax＋bのaとbの値が出てくる

これは、今すぐに使えます。

まとめ

統計を学ぶことは、数字をみながら考える力を養うことだと思っています。

数字がすべてではないけれど、数字は非常に重要だと思います。

なぜなら、数字こそ世界の共通言語だからです。

議論の空中戦を防ぐ、納得感をもったプレゼンをする、やりたいことを実現するために社内を通す

あらゆる場面で共通言語としての数字は役立ちます。

そのための技術が統計学です。

一度に全てを理解しようとするのではなく、段階を踏んで理解していくことが挫折を防ぎます。

統計学の入門のゴールは｢データリテラシーをつける｣です。

｢分析の私に超わかりやすく統計学を教えてください｣はゴールを達成するための最適な本だと思います。