Statistics: T-testを学ぶ, python ver. 1

メモです。誤解しているところがあるかもしれませんので、おかしな点がありましたが、リンク文書をご確認ください。 I.何を学ぶ?   次にしたがって、T-testをPythonで学びます。   T-Test   T-test using Python and Numpy   II.T-testとは?   1.説明   T-testによって、二つのグループの平均に統計的な関係があるかどうかを判定することができます。データは次の要件を満たす必要があります。   独立である。 無作為である。 正規分布している。   T-te…

Continue reading

Statistics: T-valuesとP-valuesを学ぶ, r ver. 3

赤字部分を追加しました。 I. 何を学ぶ   統計のレポートには、t値やp値が書かれていて、統計学を学んだことがないと読み飛ばしてしまいますが、これらの意味は意外に簡単です。簡単なサンプルで説明します。   II.サンプル   次に解説にしたがい、Rのサンプルデータでt値とp値を集計します。   How to Do a T-test in R: Calculation and Reporting   データ   10匹のネズミの体重のデータです。     name weight 1 M_1 18.9 2 M_2 1…

Continue reading

Statistics: どこまで信じる平均と相関係数と偏差値? 2/3 ver. 2

V.Anscombe’s quartet   要約統計量では適切に表現できないデータの極端な例を紹介します。   1.平均、標準偏差、相関係数を算出   Anscombe’s qurtetは、Rのサンプル・データに含まれています。x1とy1、x2とy2、x3とy3、x4とy4とがセットです。     それぞれのxとyの平均と標準偏差と相関係数を算出します。みやすい一覧にするのに、ライブラリTmiscをインポートして集計します。   スクリプト   library(Tmisc) data(quartet…

Continue reading

Statistics: どこまで信じる平均と相関係数と偏差値? 3/3 ver. 1

VII.標準偏差とZ   偏差値は平均を50とし、標準偏差を10したものです。偏差値はデータが正規分布する場合にデータを適切に表現します。 一般に、学力や身長などは正規分布するとされていますので、学力試験に偏差値を用いることは適切ですが、学力を適切に測定できない問題であったり、得点が正規分布せずいちじるしくかたよっている場合には、偏差値を用いるべきではありません。 偏差値(T Scores)と標準偏差(Standard Deviations)とZスコアとは基本的には同じもので表現が違うだけです。3者の数値の関係は次のようになります。   https://ja.wikiped…

Continue reading

Statistics: どこまで信じる平均と相関係数と偏差値? 1/3 ver. 4

I.偏差値と平均は信仰の域(いき)?   最近、あるお母さんと話して驚いたことがあります。 たまたま、中学生のお子さんの話になりました。   「学校の国語の平均が?点、この子は?点で、前回の塾の学力試験の偏差値が54で、通っている中学ならトップになれるはずだから、学校の勉強をがんばるようにって言ってるんですけどねえ、、、 で、希望している高校に行くには偏差値が62以上なのですが、今から偏差値が10あがりますかねえ?」   とすらすら話されて、「ええっ、お子さんって、まだ中学一年生でしょ」って思わず口から出そうになりました。 私の小学校のころは、今でも覚えていますが…

Continue reading

Statistics: 確率の基本表記とMaximum Likelihood Estimation (MLE) ver. 1

確立の基本を学ぶためのメモです。   I.確率のタイプ   1.Marginal Probability   フェアなサイコロで3がでる確率(probablity)は次のように表します。 P(3)=1/6   トランプで赤の札を引く確率は次のように表します。   P(red) = 0.5   2.Joint Probability   トランプで赤で4の札を引く確率は次のように表されます。   P(4|red) = 2/26 = 1/13   ベン図で描くと次のようになります。   P(A∩B)…

Continue reading

Statistics: ベイズ確率を学ぶ ver. 3

だれかに尋ねられたときにうまく答えられるように、ベイズ確率について基本から学びます。そのためのメモです。   I.歴史的理解   Frequentist vs Bayesian- Which Approach Should You Use?   1.Ronald Fisher    定義 The probability of an event is equal to the long-term frequency of the event occurring when the same process is repeated multiple …

Continue reading

Statistics: 平均って何?

I.平均とAverageとMean   PythonやRで統計解析を学びはじめると、すぐにMeanに出会います。MeanはAverageのことだという説明を見つけて次へ進みます。 でも、ちょっと疑問に思って、英語でAverageとMeanを検索して解説を読むと、「???」となります。 AverageとMeanの区別もややこしいのですが、日本語の日常語の「平均」とずれるところもあって、いよいよややこしいです。 それぞれの定義の対応表をつくれば一応理解できるのですが、そもそも「平均」とは何かを考えると、これらの区別だけではなく、私たちが求める「平均」の長所も欠点が明らかになります。 &n…

Continue reading

Statistics: 日本はデータに無関心?

I.データはどこ?   例えば、データ国会議員の年齢分布をグラフにしたいとします。米国議会については簡単です。国会ギンに関するデータサイトがいくつかあって、簡単にグラフを描くことができます。これについては、未完ですが次に書きました。   米国議会議員のの年齢構成米国国会のデータと大統領選の分析, tigris, gsheet   上で次のグラフを作成しました。一見すれば、全体として下院のグラフが上院より左によっている、つまり、若いということがわかります。   米国会員議員の年齢のヒストグラム 米国上院議員の年齢のヒストグラム 平均、最高、最低の集計結果は…

Continue reading