OCRデータの誤認識の確認
OCR(光学文字認識)ソフトを使用してPDFや画像からテキストデータを作成する場合、数パーセント程度の誤認識が発生するのが普通です。特に、形の似た文字が他にあるときに、その傾向が顕著です。英大文字「I(アイ)」と小文字「l(エル)」と数字「1」、英小文字「e」と「c」、カタカナの「ロ」と漢字の「口」などが、これに相当します。そして得られたテキストデータの用途によっては、人間が目で確認しながら誤認識を拾い、修正していく作業が必要です。
このような場面で、「ちゃうちゃう!」を使用して、誤認識などの間違いを見つける方法があります。手法上100%完全ではありませんが、目視「だけ」で拾うよりは精度を高めることが可能です。
下の画像は、世界知的所有権機関(左)と欧州特許庁/欧州特許条約加盟国特許庁(右)が提供する特許データベースから取得した、同一公報(WO2000/000100号)のOCRデータを比較したものです。区切り文字は、「なし」にしています。
一文目では、1とI(アイ)の誤認識のほか、1Aに「1 A」と余分なスペースが入っている部分、文末のピリオドが抜けている部分が確認できます。
二文目の左で5とwithinの間に削除の表示があるのは、右のデータでは改行が入り、スペースではなくなっているからです。また、最後の100℃には「°」の有無が違いとして抽出されているのに、85℃の「C」とそれに続くandが変更の扱いになっている理由は、次のとおりです。
左側の文字の並び:「85」「半角スペース」「゜」「C」「半角スペース」「and」
右側の文字の並び:「85」「半角スペース」「C」「and」
すなわち、「°C and」から「Cand」への変更とみなされています。このように、異なるOCRソフトで(あるいは同一のOCRソフトでも識字レベルの設定などを変更して)取得したデータを比較することで、誤認識を修正するための労力を減らすことが可能です。