Julia&Python&R: 全ての列を見るには?ver. 3

I.何が問題   PythonのPandasの長所として、データの全ての列を簡単に表示できる点があげられていました。   Emmett Boudreau, Pandas Makes Python Better   私が一番最初に学んだのはRでしたが、列が多いデータの場合、全ての列を見ようと苦労したことを思い出します。その点、すべての列を表示する方法を知っておくとはじめてデータフレームを扱うときに役立ちます。 Excelなら全てが表示されるので、全体を見て安心したいという衝動がありますよね。 上の文書では、Juliaを取り上げて説明していますので、はじめに…

Continue reading

Python&R: Topologyを学ぶ, synfig ver. 2

I.何をする   Topologyの磯を理解し、PythonとRでTopological Data Analysisを実行します。 Topologyのアイデアは、 Königsbergの7つの橋をすべてを一度だけ渡ることができるかについての、Leonhard Eulerの解決(1736年)にまでさかのぼると言われています。   https://en.wikipedia.org/wiki/Seven_Bridges_of_K%C3%B6nigsberg#/media/File:Konigsberg_bridges.png   要は次のように、3のエッジのあるノード3…

Continue reading

Python&R: Excelでa, b, c, , ,を入力したい, google sheets, excel ver. 1

1.Google SheetsとExcelの場合   1, 2, 3, , ,はAutoFill入力できますが、a, bは、 a, b, a, b , , ,の繰り返しになります。a, b, c, d, e, f,を入力するのはどうしたらよいでしょう?     A3に次の式を書き、A4以下にペーストすれば、a, b, c, , ,を入力できます。   =CHAR(CODE(A2)+1)    2.Pythonの場合   sequenceとアルファベットのリストを取得して、dictionary を作成して、データフレームにしま…

Continue reading

Python&R: PDFの表を取得, tabula, tabulizer ver. 3

PythonにはPDFの表データを取得するライブラリがいくつかありますが、よく用いられているのはtabulaとcamelotです。ここでは、tabulaを紹介します。 次に簡単な解説があります。CamelotとWebインターフェースのExcaliburの説明もあります。   3 WAYS TO SCRAPE TABLES FROM PDFS WITH PYTHON   Rについては、tabulizerを紹介します。次に解説があります。   PDF Scraping in R with tabulizer   対象としたPDFは次です。   Th…

Continue reading

COVIT-19: 新型コロナウイルスを解析する_中国編 1/2, python ver. 5(updated on 3/05)

I.何をする?   次にPythonを使ったデータの分析があります。これをもとに中国のコロナウィルスの死者数の推移からどのようなことが言えるかを考えます。   Behind the Coronavirus Mortality Rate   Understanding the Coronavirus Epidemic Data   II.データはどこ?   上の文書に次がリンクされています。   1.https://ncov.dxy.cn/ncovh5/view/pneumonia   スマートフォンの病気関係アプリケーション…

Continue reading

Python&R: Dendrogramを学ぶ, ver. 1

I.何をする?   ネズミ講(ponzi scheme)をグラフにします。 例えば、10人が10人をメンバーにし、それぞれが10人をメンバーにする。それを10回繰り返すと、次の3行目のように1000億人になります。2人で始めれば200億人、1人ではじめれば、100億人です。     ツルー場のグラフを用います。   Dendrogram   II.Dendrogram from a nested data frame     # libraries library(ggraph) library(igraph) librar…

Continue reading

Python&R: パイプ演算子について考える, pipey, dfply ver. 2

I.何を学ぶ   パイプ演算子について考えます。Rのtidyverse、Pythonのpipey、dfplyを取り上げます。   II.Rの%>%を使うとわかりやすくなる   Rを学ぶのに、はじめからTidyverseを使うのがわかりやすいです。Tidyverseだと非常にわかりやすく式を書くことができます。特にパイプ演算子(%>%)を使うと入れ子型の式をすらすら読めるので、わかりやすく表現することができます。例をあげます。   1, 2, 3の3つの角度(それぞれradian)について次のスクリプトを作成します。 それぞれのtangents…

Continue reading

Python&R: スクレーピングは違法か?

スクレーピングについてMediumに米国のスクレイピングに関するLinkdInがサイトのスクレイプで情報分析しているHiQへの差し止め訴訟についての記事がありました。   Web scraping is now legal   詳しくは上の記事を読むことをお勧めしますが、スクレイピングについての日本での一般的な認識にそうものだと思います。 日本での一般的な認識とは、特別の利用条件の承認を前提としていない、つまり、ふつうにアクセスできる内容をスクレイプしても著作権の侵害にはならないというものです。 現実に日本で裁判になったらどうなるかわかりますが、現在のところ私の理解も上述の…

Continue reading

Python&R: CIA The World FactbookのAPIの活用法, json, jsonlite ver. 9

I.JSONファイルについて   JSONファイルは、JavaScriptのデータ形式ですが、構造のあるデータを保存できるので、広く用いられるようになりました。ここで取り上げるデータもThe World FactbookのWebページのデータをJSON形式に保存したものです。 The World Factbookは、CIAが各国の概要をまとめたもので、各国の概要を知るためにまずアクセスすべき基本文書となっています。しかし、国別にわかれていますので、国別の基本データを知るにはよいのですが、国際比較するためにそれぞれのページからデータを取得し、項目ごとに一覧にするのは手間がかかります。 …

Continue reading