「読んde!!ココ」は文字認識率が高い

2009年1月 購入
読んde!!ココ
読んde!!ココ Ver.13 アップグレード版」(EPSON製)を購入した。

パンフレットや雑誌、書籍などを保管するスペースが限られていることと、資料を探すのが面倒なこともあり、電子化してハードディスクの中に放り込んでいる。この時に肝となるのがOCRソフトの性能である。
最初は「読んde!!ココ Ver.10」を使っていたのだが、性能に満足がいかず、「読取革命 Ver.11」に乗り換えた。そして、性能が格段に上がった「読んde!!ココ Ver.13」に戻ってきた。その間、いくつものOCRソフトの試用版の性能は試している。
関連商品icon
読んde!!ココ
Ver.10を持っていたので、楽天からアップグレード版をダウンロードした。

直接スキャナを動かして電子化することもできるが、後述するように、いったん取り込んだ画像をファイル化し、それを読み込んでいる。
画像ファイルを指定すると、自動的に上下方向を合わせ、傾きを補正してくれる機能がある。この機能は他のOCRソフトより精度が高い。
画面は3ペイン構成で、一番左に読み込んだ画像のサムネイル、中央に画像ファイル、右側にOCR結果のテキストが表示される。

文字認識は全自動で、縦書き/横書き、日本語文字/英数字の判別をほぼ自動的に行ってくれる。

認識率はとても高い。文庫、新書、新聞であれば、400dpi、モノクロ(二値画像)で取り込んでやれば、判断誤りはほとんど発生しない。

出力形式はテキスト(クリップボードにコピーする)のほか、Acrobatや Microsoft Office 製品がインストールされいれば、おのおののアプリケーションへ結果を流し込むことができる。

電子化の手順

(A)一部だけ電子化する場合
  • ボールペンで「-」を書いた付箋紙(ポスト・イット スリム見出し)を貼っておく。あとでスキャナで取り込んだ際、「-」の部分だけテキスト化するためである。


(B)1冊丸ごと電子化する場合
ディスクカッター「DC-210」
  • 雑誌の場合、ペンチでホッチキスを取り除く。
  • スキャナで読み込みやすいように、ディスクカッター「DC-210」を用いて半分に切断する。
  • 書籍の場合、背表紙の接着面をちぎるようにして、40~50枚単位に解体する。
  • DC-210」を用いて、接着剤がついている部分(5~10mm)を切り離す。
(C)電子化処理
(1)解体した雑誌、書籍などをADF付のスキャナで取り込んでいく。
  • 解像度は300~400dpi。
  • 紙面に合わせて、カラー/グレースケール/モノクロを使い分ける。
  • 画像の形式は、スキャナによるが、複数ページを1ファイルにしてくれるTIFFマルチページ形式が便利である。ただし、ソフトによっては対応していない場合があるので、注意が必要である。
(2)OCRソフト「読んde!!ココ」を使って電子化する。
  • 一部だけ電子化する場合は、テキスト形式で電子化し、XMLデータベースに保存していく。
  • 1冊丸ごと電子化する場合は、後工程でデスクトップ検索を行うため、透明テキスト付PDFにして保存する。
(3)デスクトップ検索ツール「サーチクロス」を使って全文検索用のインデックスに追加する。(バックグラウンド処理)

動作環境

項目 仕様
対応OS 日本語 Windows Vista Ultimate/Enterprise/Business/Home Premium/Home Basic
日本語 Windows XP Home Edition/XP Professional/2000Professional
必要メモリ 256MB以上(Windows Vistaの場合には 512MB以上)
ハードディスク容量 250MB以上の空き容量が必要(音声辞書含む)

参考サイト

(この項おわり)
header