「読んde!!ココ」は文字認識率が高い

2009年1月 購入
読んde!!ココ
読ん de!!ココ Ver.13 アップグレード版」(EPSON製)を購入した。

パンフレットや雑誌、書籍などを保管するスペースが限られていることと、資料を探すのが面倒なこともあり、電子化してハードディスクの中に放り込んでいる。この時に肝となるのが OCR ソフトの性能である。
最初は「読ん de!!ココ Ver.10」を使っていたのだが、性能に満足がいかず、「読取革命 Ver.11」に乗り換えた。そして、性能が格段に上がった「読ん de!!ココ Ver.13」に戻ってきた。その間、いくつもの OCR ソフトの試用版の性能は試している。
関連商品icon
読んde!!ココ
Ver.10 を持っていたので、楽天からアップグレード版をダウンロードした。

直接スキャナを動かして電子化することもできるが、後述するように、いったん取り込んだ画像をファイル化し、それを読み込んでいる。
画像ファイルを指定すると、自動的に上下方向を合わせ、傾きを補正してくれる機能がある。この機能は他の OCR ソフトより精度が高い。
画面は 3 ペイン構成で、一番左に読み込んだ画像のサムネイル、中央に画像ファイル、右側に OCR結果のテキストが表示される。
文字認識は全自動で、縦書き/横書き、日本語文字/英数字の判別をほぼ自動的に行ってくれる。

認識率はとても高い。文庫、新書、新聞であれば、400dpi、モノクロ(二値画像)で取り込んでやれば、判断誤りはほとんど発生しない。

出力形式はテキスト(クリップボードにコピーする)のほか、Acrobat や Microsoft Office 製品がインストールされいれば、おのおののアプリケーションへ結果を流し込むことができる。

電子化の手順

(A)一部だけ電子化する場合
  • ボールペンで「-」を書いた付箋紙(ポスト・イット スリム見出し)を貼っておく。あとでスキャナで取り込んだ際、「-」の部分だけテキスト化するためである。


(B)1 冊丸ごと電子化する場合
ディスクカッター「DC-210」
  • 雑誌の場合、ペンチでホッチキスを取り除く。
  • スキャナで読み込みやすいように、ディスクカッター「DC-210」を用いて半分に切断する。
  • 書籍の場合、背表紙の接着面をちぎるようにして、40~50 枚単位に解体する。
  • DC-210」を用いて、接着剤がついている部分(5~10mm)を切り離す。
(C)電子化処理
(1)解体した雑誌、書籍などを ADF 付のスキャナで取り込んでいく。
  • 解像度は 300~400dpi。
  • 紙面に合わせて、カラー/グレースケール/モノクロを使い分ける。
  • 画像の形式は、スキャナによるが、複数ページを 1 ファイルにしてくれる TIFF マルチページ形式が便利である。ただし、ソフトによっては対応していない場合があるので、注意が必要である。
(2)OCR ソフト「読ん de!!ココ」を使って電子化する。
  • 一部だけ電子化する場合は、テキスト形式で電子化し、XML データベースに保存していく。
  • 1 冊丸ごと電子化する場合は、後工程でデスクトップ検索を行うため、透明テキスト付 PDF にして保存する。
(3)デスクトップ検索ツール「サーチクロス」を使って全文検索用のインデックスに追加する。(バックグラウンド処理)

動作環境

項目 仕様
対応OS 日本語 Windows Vista Ultimate/Enterprise/Business/Home Premium/Home Basic
日本語 Windows XP Home Edition/XP Professional/2000Professional
必要メモリ 256MB以上(Windows Vistaの場合には 512MB以上)
ハードディスク容量 250MB以上の空き容量が必要(音声辞書含む)

参考サイト

(この項おわり)
header