● こんなところが便利!
PDF、Word、Excel形式の文書から、テキスト要素を抽出してファイルに保存できる。文書を作成したアプリケーションがインストールされていなくても抽出可能。PDF形式でもらった文書の内容をテキストファイルにして携帯電話にメールで転送するなど、文書の一部をテキストで保存・転送・管理したい場合に便利!
● PDFなどのバイナリ文書からテキストデータを抜き出せる
ビジネスにおけるデータのやりとりでは、素材となる原稿がテキストファイル以外の形式で送られてくることはよくある。ビューワーソフトは持っていても、テキストファイルとして保存する機能がない場合など、文書中のテキストの一部または全部をテキストファイルとして扱うために、最悪の場合は手入力ということになったりする。
こんなときに役立つのが、今回ご紹介するテキスト抽出ツール「xdoc2txt」だ。
|
「xdoc2txt」解凍後のフォルダ。xdoc2txtは、exeファイルのほかに、ActiveX版も同梱されている
|
「xdoc2txt」は、PDFやWord、Excel、一太郎などの各種バイナリ文書からテキスト要素だけを抽出できるツールだ。Microsoft Word 2007やExcel、PowerPointをはじめとして、PDF、OpenOffice.orgで作成したドキュメントや一太郎、HTML、OutlookExpressのMailエクスポート形式、OASYS/Winなどからもテキストデータを抽出できる。
ファイルを開くアプリケーションがない場合でも、「xdoc2txt」があれば、ファイルは開けなくても、テキストだけは参照することが可能となる。
また、現在は利用していないアプリケーションで作成した古いドキュメントでも、「xdoc2txt」が対応している場合があるので、試してみると良いだろう。
「xdoc2txt」は、Windowsのコマンドラインで動作し、オプションを指定することで、出力のエンコードの指定やファイルの出力指定、文書プロパティの表示なども可能。また、ワイルドカードを使用すれば、複数のファイルをまとめて処理できる。
「xdoc2txt」はこのほか、全文検索エンジンのフィルタとしても利用できる。
● ショートカットを活用してドラッグ&ドロップでテキスト抽出
「xdoc2txt」を起動するには、まず任意のフォルダに解凍し、「コマンドプロンプトを起動する。DOSコマンドを使ったことがある人なら、違和感なく利用できるだろう。コマンドは以下のような形になる
コマンド[xdoc2txt] + オプション + <テキスト抽出したいファイルの名前>
|
「コマンドプロンプト」。「スタート」→「ファイル名を指定して実行」で「cmd」と入力するか、「アクセサリ」から「コマンドプロンプト」を選択する
|
オプションは、ヘルプの表示[-h]、変換結果をファイルに出力[-f]、出力テキストのエンコード指定などが用意されているが、通常利用するのはファイル出力[-f]オプションだろう。このオプションを指定しないと、抽出結果は標準出力に出力される。つまり、Windowsのコマンドプロンプトのウィンドウ内に表示される。
● コマンドライン入力に慣れていない場合は
MS-DOSやUNIXなど、コマンドライン環境ベースのOSを使ったことがないユーザーの場合は、コマンドライン入力は少々戸惑うだろう。
「xdoc2txt.exe」をコマンドプロンプトのウィンドウ内にドラッグ&ドロップし、コマンドオプションを入力してから、さらに抽出対象となるファイルをドラッグ&ドロップするという方法もあるが、普段使い慣れていない方は、ショートカットを活用するほうがなじみやすいに違いない。
|
|
|
デスクトップにショートカットを作成し、プロパティを開いて「リンク先」にオプションを入力しておく
|
テキストを抽出したいバイナリ文書を選択し、ドラッグ&ドロップ。ショートカットなら、直感的な操作が可能になる
|
同名のテキストファイルができる
|
デスクトップにxdoc2txt.exeのショートカットを作成し、右クリックし、プロパティを開いたら、リンク先にコマンドオプション[-f]を追加しておくのだ。あとはテキストを抽出したいファイルをまとめて選択し、アイコンにドラッグ&ドロップすればよい。すると、同じフォルダ内に、元のファイルと同じ名前のテキストファイルが生成され、中にはテキストデータが保存されているのが確認できるはずだ。
なお、対応するアプリケーションやコマンドオプションの詳細については、「xdoc2txt」に同梱されている資料に明記されているのでぜひ確認していただきたい。
|
|
元のPDFファイルの中身(INTERNET WatchのTOPページをPDFで保存したもの)
|
PDFファイルから抽出されたテキストの例
|
関連情報
■URL
xdoc2txt
http://www31.ocn.ne.jp/~h_ishida/xdoc2txt.html
2008/09/09 15:34
 |
すずまり 大学卒業後、システム開発会社→ISPの営業企画→フリーのWebデザイナー→フリーのライター、とどんどん脱線。オンラインサービスからソフトウェア、ハードウェアまでIT関連のレビューを中心に活動中。趣味は写真。キックボクシングのリングサイド撮影が講じて、現在は目黒の某ジムの練習生に。現在の目標はミドルキックの上達とくびれの復活。 |
- ページの先頭へ-
|