Pythonでtext mining:新聞記事をスクレープNewspaper3k

I.Newspaper3K   Pythonの面白い使い方がないかと調べていると、次の記事をみつけました。Pythonを楽しく使うトリックが書かれています。   An A-Z of useful Python tricks   その中にネット上のニュースサイトから文字情報を取得するライブラリNewspaper3kがありました。Newspaper3kの使い方は次にあります。   Newspaper3k: Article scraping & curation   II.CNNのトップページの情報   トップページのリンク一覧とそ…

Continue reading

RでText mining:Rのライブラリqdap

授業で、アラビア数字を英語に変換するライブラリとして紹介しましたが、qrapはテキスト・マイニングの強力なツールです。 使用例が次にRPubsdeで紹介されています。   Text Mining: Bag of Words   上の文書の始めにある単語の集計をやってみました。   Please follow and like us:…

Continue reading

PythonでText mining:シンプル1

III.テキストのクリーニング   1.大文字を小文字に変換し、記号を削除する。   全ての記号を削除してますので、次の問題を無視することになります。 意味は文を単位としている。 記号は語あるいは文と一つになって意味を持つ。     to be continued     Please follow and like us:…

Continue reading

PythonでText mining :シンプル2

テキスト・マイニングのプログラムの基本を理解し、日常言語分析の意味論の現状を知るために勉強中です。 次のプログラムにしたがってText miningのJpyter NotebookでPythonのプログラムを実行します。   Ultimate guide to deal with Text Data (using Python) – for Data Scientists & Engineers   私はPythonを初めて間もないので、プログラムの解説は自分のメモも兼ねてできるだけ詳しく書きます。   I.データのダウンロードと読み込み   次…

Continue reading

PythonでText mining:Sentiment Analysis 5

次のサイトで感情分析のデモを使ってみました。 日本語もできるようですが、オンラインでは日本語を読み取れないようです。   ParallelDots   単純な例で一般語と論理的関係を示す接続表現をどう感情評価に反映させているかをみました。 ところで、大学で留学生に日本語を教える場合も、対象を指示する一般語と論理的関係を示す接続表現をはっきり区別することが大切です。 接続表現の前後の論理的関係を理解するだけではなく、節と節との論理的関係、文章を論理的に読むという大学で学ぶべき基本技能を習得することになるからです。 この論理的関係を取り出して研究するのが論理学ですが、AIのプロ…

Continue reading

PythonでText mining:Sentiment Analysis 4

テキスト・マイニングに関心があります。 学び始めたところで荒いものですが、私の基本的な理解を示します。 大学院のときに先輩に教えたもらったCharles W. Morrisの構文論、意味論、言語遂行論の記号論から理想的なテキスト・マイニングを考えます。 ちなみに、シンタックス(構文論)は文の構成規則です、セマンティクス(意味論)は記号と対象との関係です。ですから、語や文が意味をもつとか、文の真や偽を論ずることができます。プラグマティクス(言語遂行論)は、例えば、「私が、、、を宣言します」のように真偽ではなくて、発言の適切あるいは不適切が問われる文を扱います。 要は、言語を考える場合、記号と対象…

Continue reading

PythonでText mining:Sentiment Analysis 3

次の文書にしたがい、テキストマイニングの基本的な手順を示し、テキストマイニングはどのようなものかを理解します。   Text Mining POTUS with Python   この手順がテキストマイニングの基本的な手順のようですが、だとすると、結局単語の個数を数えるだけなので、意味は分析されないのではないか?という疑問がわきます。 というのも、Quineのように文が意味の最小単位と考えるなら、文単位でシンタクスもセマンティクスも考える必要があるからです。 さらに、プラグマティクスも考慮する必要があるでしょうが、そこまでは求めるべきではないかもしれません。   …

Continue reading

PythonでText mining:Sentiment Analysis 2

現在は有料になっていますが、次のスクリプトにしたがって石川啄木(いしかわたくぼく)のローマ字日記の一部(4月7日−20日)のテキストの頻出語(ひんしゅつご)をグラフにしました。   Very simple Python script for extracting most common words from a story   ローマ字だと単語が別れているので、文節で区切らなくても良いのでその分簡単です。 通常の日本語の場合、文節に区切るスクリプトが必要となります。       Please follow and like us:…

Continue reading

PythonでText mining:Sentiment Analysis 1

Python or Rを利用したテキスト・マイニングを学び始めました。系統だったものにはなりませんが、学んだことを順次書き込みます。 今回は次の文書に従い、出現回数の多い言葉を選び出すスクリプトです。ストップワードについて一部書き換えています。準備するのは対象とするテキストだけです。   Very simple Python script for extracting most common words from a story   学生のころ、ある哲学者の著作の’Wir’や’uns’の数を数えて論文を書いた友人がい…

Continue reading

PythonでText mining:TextBlobでツイートを感情分析

I.Twitterの情報収集、集計、グラフ、感情分析を解説した文書   Twitterの情報取得から感情分析まで非常に詳しく、またわかりやすく説明されています。   Sentiment analysis on Trump’s tweets using Python   II.スクリプトのポイント   1.ライブラリのインストールとAPIの立ち上げ     参考   PythonでText mining: KeyやToken情報の隠し方   2.Twitterデータの取得   @realDona…

Continue reading