TextMining : シンプル2, python

テキスト・マイニングのプログラムの基本を理解し、日常言語分析の意味論の現状を知るために勉強中です。

次のプログラムにしたがってText miningのJpyter NotebookでPythonのプログラムを実行します。

 

Ultimate guide to deal with Text Data (using Python) – for Data Scientists & Engineers

 

私はPythonを初めて間もないので、プログラムの解説は自分のメモも兼ねてできるだけ詳しく書きます。

 

I.データのダウンロードと読み込み

 

次のデータをダウンロードします。

 

https://github.com/hafidhfikri/Practice-Twitter-Sentiment-Analysis/blob/master/train_E6oV3lV.csv

 

データフレームを扱うライブラリpandasをインポートし、データを読み込みます。

 

 

参考

 

Macの場合のファイルのパスの簡単な取得方法

 

II.Tweetの基本的データの取得

 

1.Tweetの単語数を取得

 

 

2.Tweetの文字数を取得

 

 

3.分析に不要な語(stopwords)数を取得

 

自然言語分析ライブラリのnltkからstopwordsをインポートし、その数を数えます。

参考のため、下にstopwordsの一部を示しました。

 

 

4.大文字の単語数を取得。大文字は強調されているので区別したい。

 

 

5.集計結果のデータフレームを表示

 

 

to be continued

 

About shibatau

I was born and grown up in Kyoto. I studied western philosophy at the University and specialized in analytic philosophy, especially Ludwig Wittgenstein at the postgraduate school. I'm interested in new technology, especially machine learning and have been learning R language for two years and began to learn Python last summer. Listening toParamore, Sia, Amazarashi and MIyuki Nakajima. Favorite movies I've recently seen: "FREEHELD". Favorite actors and actresses: Anthony Hopkins, Denzel Washington, Ellen Page, Meryl Streep, Mia Wasikowska and Robert DeNiro. Favorite books: Fyodor Mikhailovich Dostoyevsky, "The Karamazov Brothers", Shinran, "Lamentations of Divergences". Favorite phrase: Salvation by Faith. Twitter: @shibatau

Leave a Reply

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.