Python&R: クラウドで学ぶはじめてのプログラミング4, グラフを描くver. 5

赤字部分を修正しました。 I.Pythonの場合(ファイル名pythonGraph.ipynb)   私の担当する授業の出席状況のデータでグラフを描きます。データは次にあります。   https://pastebin.com/raw/jdawqqGm   データは、1回から6回までの出席のデータです。ただし、個人を特定できないように学籍番号を通し番号にし、一部データを修正しています。 idは通し番号です。departmentは学部です。yearは学年です。l1(エルイチ)-l6(エルロク)までが授業の回数です。 数字の前にアルファベットをつけたのは、Rでは列名を数…

Continue reading

Lecture: コンピュータ英語IIの出席情報をRのExploratoryで分析

出席管理システムからデータをRで読み込んで縦長にして、CSVで保存し、RのデスクトップアプリケーションExploratoryで分析しました。 先にRStudioでデータをよこ長からたて長にしましたが、そのままExloratoryで読み込んでも同様の集計ができたると思います。     データを読み込んでCSVで保存するまでのスクリプトは次です。   # import a library library(tidyverse) # load the data df0 <- read_csv(“https://pastebin.com/raw/XNHSGh86”) …

Continue reading

Python&R: クラウドで学ぶはじめてのプログラミング5, histogram

現在グラフが消えています。近日修復する予定です。 データが与えられたら、まず、ヒストグラムか散布図を描きます。 今回は、histogram(度数分布グラフ)を取り上げます。histogramはy軸に度数(frequency)、x軸に階級(bins)をとったグラフです。   第4回ヒストグラムを描く   4_1.Python(ファイル名:pythonHistogram)   データの初めの5行を表示する式は次です。()の中に数字を書いて表示する行数を指定することができます。   データ名.head()    histogramを作成する…

Continue reading

Python&R: クラウドで学ぶはじめてのプログラミング3, csv読み込みと頻度のグラフ 改訂版2

第3回CSV読み込みと頻度の棒グラフ   データは次にあります。   https://pastebin.com/raw/5cttnVTx   3_1.Python(ファイル名:pythonCSV)   データフレームとして読み込むためにはPandasが必要です。 CSV(カンマ区切りのデータ)を読み込む式は次です。ダウンロードしたファイルはパス、ネット上のCSVの場合はそのURLを書き込みます。ただし、URLの場合はrawのページです。   pd.read_csv(“データのパスかURL”)    アンケートなので、選ばれた…

Continue reading

Python&R: クラウドで学ぶはじめてのプログラミング2, dataframes 改訂版1

データフレームは、Excelでおなじみのデータの形です。プログラムはいろいろはデータの形を扱いますが、なじみのあるデータフレーム(Excelの表のように行名や列名がある)から学ぶのが実用的です。   第2回データフレームの作成   2_1.Python(ファイル名:pythonPandasSeriesDataframe)   データフレームを作成するいくつか方法がありますが、ここではdictionaryを使います。学生a、b、c、dの第1回目と第2回目のテストの得点を順に書きます。 dictionaryは、key(下の図の[29]では’a’…

Continue reading

Python&R: クラウドで学ぶはじめてのプログラミング1, arithmetics 改訂版1

何を学ぶ   初めてプログラミングを学ぶ方のための解説です。学ぶ言語はPythonとRです。両方同時でも一方だけでも学ぶことができます。 PythonとRで実行したこととをGoogle SheetsとExcel Onlineでも実行します。これらと比較するとプログラミングが理解しやすくなります。 PythonとRは、Microsoft Azure Notebooksを使用します。PythonとR両方を使用でき、ライブラリもインストールすることができるので、両方同時に学ぶのに適しています。 フリーズして作業ができなくなった場合は、Kernel>Change kernelで他のke…

Continue reading

R: よこ長データをたて長にする新しい方法, tidyr, pivot_longer

tidyrが1.0.0となり、pivot_longerとpivot_widerが導入されました。 これまでデータのたて長とよこ長を変換するのに使われていたgatherとspreadに代わるものです。ただし、gatherもspreadもこれまでどおり使えます。 pivot_longerの使い方を5つのサンプルで説明します。2−5のサンプルは次の文書のものです。   pivot_longer: Pivot data from wide to long   Sample 1   11人の学生の語彙試験6回の試験結果の表です。よこ長データをたて長にします。   …

Continue reading

Python&R: コンピュータ英語IIのアンケートのデータをcopy&pasteで読み取る ver. 1

以前、RとPythonの両方で、copy & pasteの方法を書きました。   R:Webページの表をクリップボードでコピー, datapasta   Python: Webページの表をクリッポードでコピー   これらを使って、コンピュータ英語IIで実施した簡単なアンケートの結果をグラフにします。   I.Rの場合   授業はMOODLEを使用しています。このアンケートもMOODLEの機能を利用したものです。 アンケート結果はMOODLE上で次のように表示されます。担当者(私)からは、だれがどれを選んだかがわかる記名式アンケートです。…

Continue reading

R: text analysis, tidytext ver. 2

自然言語(日常言語、ふつうの言葉)は私のもっとも関心のあるところですが、直接の関心がなくても、検索や機械翻訳や感情分析や会話ロボットなど、言葉に関わる分析で用いられているので、基本的な仕組みをしっておくと、それぞれのプログラムがどのようなデータを処理しているのかがわかります。 例えば、感情分析の結果について、「そんなことまでわかるはずないやろう?」と思ったら、まず、どのように自然言語を処理しているかを確認することからはじめます。   次に、自然言語の分析のためのRの5つのライブラリが紹介されています。   The 5 Packages You Should Know for…

Continue reading