「読取革命 Ver.16」で自炊PDFを全文検索可能に

2021年11月 購入
読取革命 Ver.16
ソースネクストのOCRソフト「読取革命 Ver.16」を購入した。

ドキュメントスキャナ「ScanSnap S1500」を使った書籍の自炊を続けており、全文検索できるようPDFに透明テキストを埋め込んでいるのだが、S1500付属の Acrobat 9 StandardのOCR機能では縦書きの英語を認識できない。Google DriveのOCR機能(無償)なら認識できるのだが、こちらはPDFに透明テキストを埋め込むことができない。
そこで、両方の機能を備えた読取革命を購入した。
関連商品icon
OCR機能ではGoogleに劣るものの、文庫や新書であれば、誤認識は1ページに2~3文字程度。パターン辞書に登録することで、誤認識率を低減できる。
PDF以外にも、テキストはもちろん、Microsoft Word,Excel、PowerPointに書き出すことができる。レイアウトを保つので、たとえば請求書をExcelファイルに変換することもできる。

画像読み込みの場合、傾き補正、台形補正、ノイズ除去、エッジ強調などの補正を行う。
OCRエンジンはパナソニックソリューションテクノロジーが開発したもので、Ver.15まではパナソニックが販売していた。マルチフォント対応で、斜体にも対応している。FAX文書や手書き文書など、低解像度の文字の認識もできる。認識可能な文字種は、JIS記号やギリシア文字の一部を含む約6,800文字。
英語読み取りにABBYY社製の英語OCRエンジンを併用しており、日本語・英語混じりの縦書き文書でも高い精度で認識できる。
言語解析辞書18万語のほか、38ジャンル約61万語の専門用語辞書を標準装備しており、専門書や論文などの認識にも有効だという。
AI型OCRによってPDFに透明テキストを埋め込めるようになるまでは、おそらく最強クラスのOCRソフトであろう。

さらに、画像ファイルを手軽にPDF変換できる「簡単!PDF変換」、逆にPDFファイルをWord、Excel、テキスト、JPEG、BMPに変換する「簡単!PDF for Office」、クリップボードにある画像やQRコードを認識する「クリップボードOCR」、指定フォルダーを監視し、そこにファイルが保存されると自動的に文字認識して指定のファイル形式で出力する「フォルダーウォッチャー」の4つのソフトが付属する。

主要機能

種別 OCRソフト
認識言語 日本語・英語
日本語文字認識 約6,800字
日本語辞書 約180,000語
その他認識機能 表認識, レイアウト認識, 図形認識, QRコード認識語
入力 スキャナ,JPEG/TIFF/BMP/GIF/PDFファイル
50~2,400dpi(400dpiを推奨)
最大A3版(400dpiの場合)
アプリ転送 Word, Excel, PowerPoint, Adobe, Webブラウザ, 一太郎, XPS, テキストエディタ, クリップボード
ファイル出力形式 DOC/DOCX, XLS/XLSX, PPT/PPTX, JTD, PDF, XPS, HTML, TXT, CSV, RTF, XML
画像出力 JPEG/BMP など
クラウド転送 Evernote, Google ドライブ, Onedrive, Dropbox
入力画像編集 色の反転, トリミング, ノイズ除去, 傾き補正, 回転, 長方形化, 上下/左右 反転, リサイズ, シャープネス/エッジ強調, 明るさ/コントラスト/ガンマ補正, カラーフィルター/色合い補正
認識結果編集 文字の結合/分離, 文字列の一括置換, 半角⇔全角 変換, 認識結果の読み上げ, 画像と結果を1行づつ表示(ハイパーチェッカー)
翻訳連携 Google翻訳
価格 12,980円
動作環境 Windows 11 / 10 (32/64bit) / Windows 8.1(32/64bit)
解像度:1024×768ドット以上
インストール容量:約700MB
開発 パナソニックソリューションテクノロジー株式会社
販売・サポート ソースネクスト株式会社
公式サイト https://www.sourcenext.com/product/pc/use/pc_use_003021/
最新バージョン 5.89(2017年12月04日)

参考サイト

(この項おわり)
header