PDFファイルをHTMLへ変換する方法

「簡単に出来ますよ!」と言いたいが、現実は厳しい。出来る事は出来る。お金と膨大な時間があればの話だが・・。

余談は別にして本題に入る。「PDFをHTMLへ変換する」だが、完璧にシステム化するのは無理だと思われる。先に理由を挙げてみる。

① Adobe Acrobatは「名前を付けて保存」機能で、ファイル保存種別にHTMLがある。文書全体がHTML1ページとして保存される。しかし、原型そのままでは無い。Adobe Acrobat側の設定(「名前を付けて保存」の「設定…」)で内容が一部変更できる。しかし、元のPDFの原型のままでのHTML化は出来てない。Adobe Acrobat Pro 8.1.2で動作確認済み。

② HTML化する前提にPDF自体が「透明テキスト付きPDF」である必要がある。画面上は文字でも実は画像文字だったりする場合がある。実は古い文献などはこの形で国などがWEB上でPDFとして公開している。(※現実の話です。) この場合はAdobe Acrobat が持っているOCR機能を利用して「透明テキスト付きPDF」へ変換する事が出来る。が、このOCR機能は使い物になら無いと思っているのが当サイト管理者の考えだ。実際に仕事で使った事はあるが、途中で諦めて自分でパンチした記憶が何度もある。※Adobe Acrobat Pro 8

③ PDF自体が「透明テキスト付きPDF」と言う前提で。 PDFを「名前を付けて保存」機能で、ファイル保存種別にWORD指定が出来る。変換結果はHTMLよりイイ、と思ったが。Adobe Acrobat Pro 8.1.2で動作確認してみた。文字が重なる編集が多々ある。Word変換機能は諦める程、ひどい。バグに近い変換と言える。

以上、3点が理由である。
次に、完璧では無いが、ある程度近い機能を持たせてシステム化する事を考えてみたい。厳しい現実が待っている内容だと思って欲しい。

が、それは、明日。
今日はココまで。 m(_ _;)m (疲れた