Economy: Libya情報, wbstats ver. 1

リビアの内戦がアフリカ中部のSahel周辺諸国に波及することが懸念されています。   I.Libia周辺地図         II.リビア内戦   UN’s Guterres warns of ‘impact’ on Sahel region from Libya war       III.GDPにおける石油依存   次は、2017年のGDPにおける石油の貢献度の高い上位20国をグラフにしたものです。 石油算出国のリビアは、石油利権を求め内外の激しい利益獲得…

Continue reading

R: 複数の度数分布を比較表示, see

同じグラフを用いているとあきます。みんなが用いているグラフだと、ちょっと恥ずかしくなります。だれもが、RやPythonで同じグラフを描くとおなじように嫌になるでしょうが、プログラムの場合は、いろいろなグラフがあるのであきません。目的に応じてグラフを選択できます。今回はグラフを描くライブラリseeのお話です。 以前に、コンピュータ英語IIの第14回までの出席率について簡単に分析しました。   Computer English II14回の出席データの分析   次のように学部3と学部4の出席率には差がありました。   学部3 0.952 学部4 0.796 …

Continue reading

R: The New York Times APIで検索し1941年の記事を読む ver. 2

I.The New York Timesを購読しました   通常は週2ドルのところが、1年間だけですが、週0.5ドルです。月に200円程度です。4週ごとの支払いなので、4週で解約することもできます。 以前にNauruについて書きました。   人口1万人あまりの国 Nauruについて   1942年に日本が占領しました。当時、Nauruについてどのような記事が書かれていたかを調べようと思いましたが、ふつうの検索では1970年より前にはさかのぼれないようです。 そこで、The New York TimesのAPIで記事を調べ、The New York Timesのサイ…

Continue reading

R: The New York Timesが一週間0.5ドルで読める

I.The New York Timesを購読する?   通常は週2ドルのところが、1年間だけですが、週0.5ドルです。月に200円程度ですので購読しようと思います。現在、情報関連で購読しているのはICT系のMediumだけです。月5ドルほどで1年分支払っています。The New York Timesを読み始めたら、その内容についてここにも書きたいと思います。 通常は、テレビ局のサイト、BBC、CNN、Aljazeeraはよく読みますが、新聞の場合は、The Washington Postの無料で読めるのはごくわずかですし、The New York Timesは基本的に読めません。 …

Continue reading

Lecture: 基礎英語IIの出席データで考えるoutliers, python, r ver. 5

授業のデータを下にしていますが、個人が特定されないように、また、わかりやすい集計にするために数値が変えてありますので実際の出席とは異なります。 はずれ値(outlier)を見つけて取り除くことはデータを適切に分析ための前提条件です。 例えば、日常的によく使われている平均はoutliersに非常に弱いです。特別高い、あるいは、特別低い値があると平均値より中央値(median)のほうが「中ぐらいの値」をよく表しますが、これもデータによります。実際、ここで扱うクラスの出席率の中央値は100%となり、あまり役立ちません。 平均値が役立つ数値であるためには、先にoutliersをのぞく必要がああるという…

Continue reading

Lecture: Computer English II14回の出席データの分析, r

Computer EnglishII(全学年対象選択科目)の第14回(全15回)までの授業の出席データの分析です。分析と言っても基本データを要約しただけですが、それでも全体の平均だけではわからない情報を得ることができます。   I.クラス全体の出席   どのような印象でしょうか? 14回までのクラス出席率は次です。    86.3%   次は各回の出席率の推移のグラフです。横軸が授業回数、縦軸が出席率です。     選択科目ですが、出席率が80%をこえているので出席率は高いほうです。しかし、これだけではデータの解釈としては全…

Continue reading

R: 別階層に同名項目のあるJSONをRに読み込む方法 修正予定

全面的に書き直す予定です。 tibbleのentframeを用いて、例えば、次のようにすると階層構造を反映した名前がつきます。しかも、縦長のデータに変換されるので大変便利です。   enframe(unlist(data0$countries))   The World FactbookのAPIをRで集計するためのメモです。Pythonでは比較的簡単にできましたが、Rではまだできていません。問題の所在と対応方法についての情報をリンクしておきます。 結局、The World FactbookのJSONの構造の場合は、Pythonでデータを取得したほうが簡単にできそうです。Py…

Continue reading

Economy: Nigeriaのデータを収集整理する, python, r, atom, datapasta ver. 9

ナイジェリアはアフリカで一番人口が多く、資源も豊富で石油の輸出国です。しかし、多くの人々が1日2ドル以下で暮らしています。ナイジェリアに関するデータを収集、整理します。             I.2016年の人口上位15か国を表示   1.作成した表   ナイジェリアは7位です。     2.作成手順   データはDataHubのものです。DataHubはプログラムで扱いやすい形式でデータを提供するサイトで、データを取得するためのPythonやRのスクリプトもあります。  …

Continue reading

R: 暗号解読?, voynich manuscript ver. 5

I.有名なの暗号文書?をRで分析   Voynich manuscriptは、未知の言語?で15世紀に書かれたと言われています。多くの植物が描かれていますがほとんど架空のもの?です。他にも人物や多様な図形が描かれています。   練習もかねて、SketchbookとInkskapeでその図形に似せて描きました。Sketchbookは幾何学的パターンを簡単に作成できます。Inkscapeは文字を曲線の上に配置できます。円の中の文字はRの分析に使ったテキストです。     次の解説ににしたがってRで分析します。   解説1:Illuminating …

Continue reading

R: スクレイプで好きな俳優の情報を取得, rvest, stringr ver. 4

I.何をする?   スクレイピングの学習に、好きな俳優のbioと出演映画4件のリストを作成します。 たまたま本日はAnthony Hopkinsの誕生日なので、bio情報を取得しました。   対象ページ   https://www.imdb.com/name/nm0000164/?pf_rd_m=A2FGELUUNOQJNL&pf_rd_p=c5a083ed-8d70-4a96-957f-fe492ee476bc&pf_rd_r=3X4DBCZCTHGEBHZBMV7D&pf_rd_s=center-8&pf_rd_t=15061&…

Continue reading