Python: ループ(繰り返し)の結果をデータフレームに

I.課題   先に、Pythonでギャンブルのシミュレーションを学んでいます。   No successful gambling system is possible, python, Monte Carlo simulation   その際、ギャンブラー100人がそれぞれ別のルーレットで51から99に賭けた場合をシミュレートしました。元手を10000、1回の賭け金を100、賭けた回数を50回としました。次はその結果の一部です。     賭ける回数を100回、200回、1000回、5000回と増やしていくと、元手がどのように変化するかをグラフに…

Continue reading

Python: ファオルダ内画像をランダムにTwitterにアップ, Spyder, tweepy

日本各地の人口のグラフを描くプログラムをRで作成しました。   日本各地の人口の推移のグラフ(日本語), R, tidyverse   三重県と三重県内の地域のグラフを作成しフォルダにまとめました。これをTwitterにランダムにツイートします。 フォルダ内画像のTwitterへアップするプログラムは次に書きました。事前にcredential情報を取得しておく必要があります。文書を書いて申請し、許可を受ける必要があるので多少時間がかかります。   Python: フォルダ内画像をランダムにTwitterにアップ, tweepy   同じスクリプトで画像を…

Continue reading

Statistics: データの正規化と標準化とリスケールの区別, Python ver. 1

Normalisingとstandardizingとrescalingの区別を学びます。 解説は次にありますが、理解のために適当にグラフを加えました。   How, When and Why Should You Normalize / Standardize / Rescale Your Data?   I.データのロード   データは次にあります。1GBほどのデータです。   Lending Club Loan Data   データが大きいので30000行、3列のみ読み込みます。     II.データを視覚化 &nbsp…

Continue reading

R: mapすると楽, purrr

最近遅ればせながらtidyverseを勉強しています。今回はライブラリpurrrのmapについて書きます。purrrはfunctional programmingのためのライブラリでtidyverseに含まれています。 Functional programminngとは何かについては、別に書きたいと思います。というか、現在のところ解説するほどの知識を持ち合わせていません。 今回は、purrrを使うとわかりやりやすいスクリプトで手間を省くことができる事例を紹介します。   I.データ   英語と日本語の試験結果についての架空のデータです。     II.国…

Continue reading

R: tidyverseはExcelよりわかりやすい? for beginners

R初心者の方向けにRのライブラリTidyverseを紹介します。   I.ライブラリとは   Rでは集計をしたりグラフを描くのに、目的に応じたライブラリをインストールして作業します。ライブラリはExcelでいうと、関数のセット、例えば、統計関数セットとか論理関数セットのようなものです。Excelの場合はあらかじめ全ての関数がインストールされていますが、Rでは目的に応じて適当なライブラリをインストールして作業します。   II.Tidyverseとは   Rの初心者は、当然のことですが、どのライブラリを使ってよいかわかりません。Tidyverseをインスト…

Continue reading

R: アンケートの複数選択回答の集計はやっかい?, tibble ver. 3

I.複数選択回答の集計   5、6年前になりますが、Rを学び始めたころにアンケートの集計をしました。そのとき苦労したのは、回答項目を複数選択できる婆愛の集計です。 下に当時のスクリプトとグラフを示します。 ちょっとみただけではわからない複雑なスクリプトになっています。プログラムをはじめて間もない頃で家事をやりながら何日もかかって書いたことを思い出します。グラフはベースで描かれています。     # barplot for multiple choices # divie choices and give colnames lev <- levels(fact…

Continue reading

Statistics: はずれ値のの扱い1, Python ver. 1

I.外れ値について   与えられたデータに手をいれる際には、罪悪感を感じます?罪悪感はなくても、できるだけ避けたいですよね。特に私のような素人はそうです。 しかし、他と「かけ離れた数値」(「はずれ値」(outliers))があると、もっとも身近な統計量である平均も影響を受けます。例えばmクラスのほとんどの学生の点数が低くても何人か飛び抜けて点数のよい学生がいれば平均点は上がり、平均がクラスの試験結果の状況を適切に表現していない、つまり、他のクラスとの比較に使えない、平均を出しても仕方がないということになります。 それは機械学習でも同じです。というか、プログラムが計算処理するので、ou…

Continue reading

Python: 正規分布の判定, scipy, shapio

統計解析では何事につけ正規分布(normal distribution, Gaussian distribution)の理解が重要です。 一般に多くのものが正規分布に従う、例えば、身長とか学力試験とか、と言われますが、実際の身近なデータはむしろ正規分布でないほうが多いです。もちろん、私が扱うデータはサンプル数が少ないので当然そうなのでしょうが、授業の試験結果では正規分布することはほとんどありません。まあ、これは実力を測る試験になっていないという理由からですが、、、。 データが正規分布しているかどうかを測るものとして、Shapiro–Wilk test が広く知られています。 Pythonのライ…

Continue reading

Python: SpyderをRStudioふうに

「やっぱりRStudioのインターフェースがいいね」という人が、Pythonを始めるならSpyderがおすすめです。SpyderはAnacondaに同梱されています。 SpyderはもともとRStudioふうですが、次のように簡単な設定でさらにRStudioみたいになります。   1.RStudioふうのにペインを配置   次を選択するだけなので簡単です。   View > Windows layouts > Rstudio layout     2.グラフをinline表示に   デフォルトでは、画像は別ウィンドウで表示…

Continue reading

Python: 機械学習の前に可視化, Yellowbrick ver. 2

機械学習にかかわって、次の解説にしたがってYellowbrickについて学びます。   Parul Pandey, Analyzing Machine Learning Models with Yellowbrick   Yellowbrickは機械学習の際に、対象データを可視化してデータの様子を確認するためのライブラリです。 機械学習はスクリプトを書いて実行すればコンピュータが自動的に学習してくれますが、誤った結果を導かないようにするには、事前にデータを可視化してどの機械学習法が適切かを判定する必要があります。 Google Colaboratoryでスクリプト…

Continue reading