TextMining : シンプル2, python

テキスト・マイニングのプログラムの基本を理解し、日常言語分析の意味論の現状を知るために勉強中です。 次のプログラムにしたがってText miningのJpyter NotebookでPythonのプログラムを実行します。   Ultimate guide to deal with Text Data (using Python) – for Data Scientists & Engineers   私はPythonを初めて間もないので、プログラムの解説は自分のメモも兼ねてできるだけ詳しく書きます。   I.データのダウンロードと読み込み   次…

Continue reading

TextMining: シンプル1, python

III.テキストのクリーニング   1.大文字を小文字に変換し、記号を削除する。   全ての記号を削除してますので、次の問題を無視することになります。 意味は文を単位としている。 記号は語あるいは文と一つになって意味を持つ。     to be continued    …

Continue reading

R: Text mining, qdap

授業で、アラビア数字を英語に変換するライブラリとして紹介しましたが、qrapはテキスト・マイニングの強力なツールです。 使用例が次にRPubsdeで紹介されています。   Text Mining: Bag of Words   上の文書の始めにある単語の集計をやってみました。  …

Continue reading

TextMining: テキストの収集とWord cloudの表示

下のリンクにより、Twitterの現在の書き込みデータでテキスト解析をしようと思いました。 Twitterの書き込み情報を得るためにデベロッパー登録しましたが、高度な利用項目を選択してしまったため、「厳重チェック」対象になってしましました。ネット情報では、許可されるかどうかのメールを受け取るのは30日が目処だそうです。   Your First Text Mining Project with Python in 3 steps   デベロッパー登録ができてば上のプログラムを試したいと思いますが、その前に既存のデータを用いた下のプログラムを試しました。   Twi…

Continue reading

TextMining: AYLIENでツイートを感情分析, python

テキストマイニングの勉強中です。 スクリプトを十分理解できていませんし、また、エラーも出ていますが、一応感情分析の円グラフが作成されましたので、メモしておきます。   英語のツイートでの安倍さんの評判を簡単に知ることができたら面白いかと思ってやってみました。   Your First Text Mining Project with Python in 3 steps   I.必要な登録   1.Twitterのデベロッパーとして登録   Welcome to the Twitter Developer Community.  &nb…

Continue reading

TextMining: KeyやToken情報の隠し方, python

スクリプトを公開するときに、いちいちKeyとToken情報を消すのが面倒なのでスクリプトから隠す方法をみつけました。 下の文書のcredentails情報にかかわる部分について説明します。   Sentiment analysis on Trump’s tweets using Python   情報の収集のためにはTwitter Appを作成し、次の4つの情報を入手する必要があります。 Consumer Key (API Key) Consumer Secret (API Secret) Access Token Access Token Secret これら…

Continue reading

TextMining: TextBlobでツイートを感情分析, python

I.Twitterの情報収集、集計、グラフ、感情分析を解説した文書   Twitterの情報取得から感情分析まで非常に詳しく、またわかりやすく説明されています。   Sentiment analysis on Trump’s tweets using Python   II.スクリプトのポイント   1.ライブラリのインストールとAPIの立ち上げ     参考   PythonでText mining:KeyやToken情報の隠し方   2.Twitterデータの取得   @realDonal…

Continue reading

Text mining: Sentiment Analysis 4, Python

テキスト・マイニングに関心があります。 学び始めたところで荒いものですが、私の基本的な理解を示します。 大学院のときに先輩に教えたもらったCharles W. Morrisの構文論、意味論、言語遂行論の記号論から理想的なテキスト・マイニングを考えます。 ちなみに、シンタックス(構文論)は文の構成規則です、セマンティクス(意味論)は記号と対象との関係です。ですから、語や文が意味をもつとか、文の真や偽を論ずることができます。プラグマティクス(言語遂行論)は、例えば、「私が、、、を宣言します」のように真偽ではなくて、発言の適切あるいは不適切が問われる文を扱います。 要は、言語を考える場合、記号と対象…

Continue reading

Text mining: Sentiment Analysis 3, Python

次の文書にしたがい、テキストマイニングの基本的な手順を示し、テキストマイニングはどのようなものかを理解します。   Text Mining POTUS with Python   この手順がテキストマイニングの基本的な手順のようですが、だとすると、結局単語の個数を数えるだけなので、意味は分析されないのではないか?という疑問がわきます。 というのも、Quineのように文が意味の最小単位と考えるなら、文単位でシンタクスもセマンティクスも考える必要があるからです。 さらに、プラグマティクスも考慮する必要があるでしょうが、そこまでは求めるべきではないかもしれません。   …

Continue reading

Text mining: Sentiment Analysis 2, Python

現在は有料になっていますが、次のスクリプトにしたがって石川啄木(いしかわたくぼく)のローマ字日記の一部(4月7日−20日)のテキストの頻出語(ひんしゅつご)をグラフにしました。   Very simple Python script for extracting most common words from a story   ローマ字だと単語が別れているので、文節で区切らなくても良いのでその分簡単です。 通常の日本語の場合、文節に区切るスクリプトが必要となります。      …

Continue reading