Python & R: 総合データサイトDatahubの使用法, R, ver. 2

I.Datahubとは

 

Datahub

 

Datahubはデータを見つる、共有する、公開する、こととのできるサービスです。基本的なデータをダウンロードするだけなら無料で使用することができます。

 

II.データの形式

 

データは、CSV形式でダウンロードすることもできますが、JSON形式でも提供されており、登録なしでPythonやRのライブラリを使用してでAPIで簡単に取得できます。

 

III.データの種類

 

広範囲なデータを取得できます。左下のGeoJsonでは地図データを取得することもできます。

 

 

https://datahub.io/collections

 

次のように地図を埋め込むこともできます。

 

 

 

IV.RでGDPの推移をグラフに

 

日本のドル建てGDPの推移をグラフにします。

 

1.データのあるページを開く

 

 

 

 

2.Rのスクリプトを実行

 

 

 

library(jsonlite)
library(ggplot2)
library(tidyverse)
# read the jason
json_file <- 'https://datahub.io/core/gdp/datapackage.json'
json_data <- fromJSON(paste(readLines(json_file), collapse=""))
# get list of all resources:
print(json_data$resources$name)
# print all tabular data(if exists any)
for(i in 1:length(json_data$resources$datahub$type)){
  if(json_data$resources$datahub$type[i]=='derived/csv'){
    path_to_file = json_data$resources$path[i]
    data <- read.csv(url(path_to_file))
    print(data)
  }
}
# show the first 6 rows
head(data)
# select the data
data_selected <- select(data, Country.Name, Year, Value)
head(data_selected)
data_selected_filtered <- filter(data_selected, Country.Name == "Japan")
head(data_selected_filtered)
# Line plot with points
ggplot(data=data_selected_filtered, 
       aes(x=Year, y=Value, group=1)) +
  geom_line() +
  geom_point() +
  ggtitle("GDP of Japan (current US$)")

 

V.RでGIN coefficientの推移をグラフに

 

GINI係数は、所得分配の不平等さを測る指標です。下のページの一番下にデータを取得するスクリプトがあります。

 

Historic values of the GINI Index

 

通常は0−1までで0.4を越えると格差が非常に大きくなるので、0.4が社会的警戒ラインと言われています。下のデータではわかりやすいように1-100にしているようです。

 

 

 

なぜか、日本のデータは2008年しかありません。世界銀行のデータをDatahubに置いているようですが、そこでいたんでいるようです。常に元データと照合する必要があります。しかし、日本のデータは元の元の日本政府発表データの信用性が揺らいでいるのでどうしましょう?

 

 

Please follow and like us:

About shibatau

I was born and grown up in Kyoto. I studied western philosophy at the University and specialized in analytic philosophy, especially Ludwig Wittgenstein at the postgraduate school. I'm interested in new technology, especially machine learning and have been learning R language for two years and began to learn Python last summer. Listening toParamore, Sia, Amazarashi and MIyuki Nakajima. Favorite movies I've recently seen: "FREEHELD". Favorite actors and actresses: Anthony Hopkins, Denzel Washington, Ellen Page, Meryl Streep, Mia Wasikowska and Robert DeNiro. Favorite books: Fyodor Mikhailovich Dostoyevsky, "The Karamazov Brothers", Shinran, "Lamentations of Divergences". Favorite phrase: Salvation by Faith. Twitter: @shibatau

Leave a Reply

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.