Python: PDFの表を読み取るCamelotの設定 ver. 1

CamelotはPDFファイルの表を読み取るためのPythonのライブラリです。

Pythonには他にもいくつかPDFファイルの表を読み取るライブラリがありますが、Camelotの特徴は、表の特徴に応じて設定できるところです。

 

I.Camelotの解説

 

全般的な解説

 

Camelot: PDF Table Extraction for Humans

 

表の種類に応じた設定(Tabulaとの比較)

 

Comparison with other PDF Table Extraction libraries and tools

 

II.LatticeとStream

 

表の読み取り方法は、大きくLatticeとStreamの2つに分けられます。

 

Lattice

 

表計算ソフトの表のようにはっきりとセルが区切られている表を読み込みます。例えば次のような表です。

 

 

Stream

 

それぞれの数値や文字が空白によって分けられている表を読み込みます。例えば、次のような表です。

 

 

Please follow and like us:
error

About shibatau

I was born and grown up in Kyoto. I studied western philosophy at the University and specialized in analytic philosophy, especially Ludwig Wittgenstein at the postgraduate school. I'm interested in new technology, especially machine learning and have been learning R language for two years and began to learn Python last summer. Listening toParamore, Sia, Amazarashi and MIyuki Nakajima. Favorite movies I've recently seen: "FREEHELD". Favorite actors and actresses: Anthony Hopkins, Denzel Washington, Ellen Page, Meryl Streep, Mia Wasikowska and Robert DeNiro. Favorite books: Fyodor Mikhailovich Dostoyevsky, "The Karamazov Brothers", Shinran, "Lamentations of Divergences". Favorite phrase: Salvation by Faith. Twitter: @shibatau

Leave a Reply

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.