NASを業務利用する場合、部署やチーム内で共有する資料や、過去の業務資料、経理資料などの保存場所として活用するなどの活用方法があるでしょう。

企業が保存してきた情報の中には、紙の状態で保存されてきた帳票もあります。しかし、ペーパーレス化の流れや電子帳簿保存法対応などに合わせて、従来の紙帳票をデータ化した企業も多くあります。

この記事では、紙帳票をスキャンしてデータ化した際に失われてしまった文字情報を、再度PDFに付加する「OCR処理」と、QNAP NAS内のPDF・画像データなどに文字情報を付加する「OCR Converter」について解説します。

OCR機能とは

OCR機能とは、データ化した紙などに含まれる文字を、デジタル上で扱える文字データに変換する機能を指します。

かつては、ビジネスでの情報は紙を媒体として行われてきました。文章だけの書類に加え、画像は写真として印刷されました。紙を媒体とする情報共有は、基本的に人間が目で読み取るしかありませんでした。

時代が進み、情報は紙ではなくデータとして転送・共有されるようになりました。それに伴い、これまで紙で管理されていた情報をデジタルデータ化する「ペーパーレス化」も進められてきています。

紙媒体のデータ化には、すでにある書類をスキャナー機能によって、PDFや画像ファイルに変換する機能がよく使用されます。スキャナー機能を使用すると、まるで書類をそのまま写真に撮ったように元の書類どおりの内容をデータ化することができます。

一方で、スキャナー機能による紙のデータ化にも弱点がありました。

それは、あくまで一般的なスキャナー機能は紙情報の「見た通りのデータ」が作成できるだけであり、中に書かれている文字は、テキストデータとしては失われてしまうという点です。

最初からテキストデータで作成されたデータは、ファイルを管理する際に高度な検索ツールを使えば、データ内に含まれる文字列も含めて検索できます。

しかし、スキャナー機能でデータ化した書類は、見た目こそ書類の形となりますが、その内容はあくまで「画像」と同じ形式となってしまいます。

OCR機能は、スキャナー機能などによって作成されたデータに、デジタル上で扱える文字データを加えることによって、単なる画像ではなく、文字を含むデータとして扱えるようになる機能です。

※なお、一部スキャナーには、スキャン時点でOCR処理を施す機能を持つものもあります。

企業におけるOCRの価値と用途

OCR機能は、もちろん個人用途でも使い道があります。

たとえば新聞の切り抜きをスキャナーで保存してOCRにより文字列を追加すれば、デジタルスクラップブックとして活用できるでしょう。

他にも、日常的に管理している書類、たとえばレシートや領収書などの書類に文字データを付与すれば、中に書かれている金額や品目をテキストとして管理し検索などの機能で活用できます。

このようなメリットを持つOCR機能は、ビジネスの場面でその真価を発揮します。

たとえば、電子化前に紙帳票で作成した見積もりの情報や契約書の内容、システムや機器の仕様などは、逐一データを開いて確認しなければならないという環境よりも、検索ツールによって迅速に発見・利用できることが重要です。

電子取引で受け取った書類の電子データ保存が義務化された2024年1月の電子帳簿保存法対応と合わせて、既存の紙帳簿の電子化を進めた企業も多いでしょう。

電子帳簿保存法対応においても、OCR機能は大きな役割を果たします。

また、OCR機能は必ずしも「書かれている文字だけを追加する」という機能に限られるものではありません。たとえば写真や図、グラフやイラストを含むインフォグラフィックにもOCRを使って文字を入れることで、必要な情報の検索性を大幅に改善できます。

書類に書かれている内容を検索する際の手間や時間を削減し、いち早く必要とする情報にたどり着けることが、企業におけるOCR機能の価値であるといえます。

※こちらの記事もご参照ください。
OCRの全文検索により電帳法に対応できるようになったQNAP NAS事例

QNAP OCR Converterとは

QNAP NASには、NAS内の画像・PDFデータにOCR処理を施せる「OCR Converter」というアプリケーションがあります。

NASはビジネスの現場において、全社的に共有する必要があるデータや部署で進行しているプロジェクト用のデータなど、多くのユーザーにとって重要なデータが保存されています。

重要度の高いデータは、データの活用が頻繁に行われることもあり、活用のたびにひとつずつファイルを開いて内容を確認し、必要な情報にようやく辿り着くという運用では非効率的です。

NAS内に保存されたPDFや画像ファイルにOCR処理を施せるOCR Converterは、ビジネスの加速や効率化に大きく寄与してくれるアプリケーションであるといえます。

QNAP OCR Converterの使い方

QNAP OCR Converterを使用するには、まずQNAP NASのAppCenterから「OCR Converter」をインストールします。

OCR Converterインストール
OCR Converter概要画面

インストールしたOCR Converterを起動すると、概要画面が表示されます。

今回はテストケースとして、OCR Converterを使ってPDF書類にOCR処理を施してみましょう。

今回のテストでは、企業にとって重要な書類である「請求書」の処理を行ってみます。

OCR対象の請求書PDF

内容は画像のとおり、「株式会社◯✕△」宛に発行した、2024年12月1日システム保守作業分の請求書とします。

請求書は本来、保存場所やファイル名の命名規則が統一されており、フォルダーを開けば一目瞭然となる状況が理想的ですが、既存の紙帳簿を一気に電子化した場合などには、必ずしも理想通りの運用ができているわけではありません。

また、ファイル名に宛先の社名は含まれていても、摘要欄や請求対象年月などはファイル名に含まない規則としている場合もあるでしょう。

しかし、過去に発行した請求書をいち早く確認したい場合、請求先や摘要、請求対象年月などからファイル検索ができれば、ファイルを迅速に発見できます。

また、請求書に含まれる文字をコピー&ペーストすることで、請求書の再作成や編集も容易になります。

そこで、このPDF請求書に、文字情報を追記していきます。

OCRタスク作成ボタン

まず、OCR Converterの画面から「+OCRタスクの作成」のボタンをクリックします。

一度限りのOCR処理選択

今回はこの請求書だけを対象として処理を行うため、「一度限り」のボタンを選択します。

なお、OCR Converterは、画像やPDFファイルのOCR処理を「タスク」という形で処理します。バックアップなどと同様に「一度きり(ワンタイム)」のタスクか「定常的な(スケジュール)タスク」でOCR処理を行うことができます。

対象ファイル選択画面

次に、どのファイルに対して処理を行うかの選択画面となります。該当のファイルが保存されている場所を選び、ファイルを選択したら「次へ」をクリックしましょう。

OCR処理の詳細設定
OCR言語選択画面

「OCR言語」の項目では、書類に記載されている言語を選択できます。

出力形式設定

「出力形式」の項目では、OCR処理を行った結果の出力ファイル形式を選択できます。OCR処理済みのPDFだけを出力するか、PDFから読み取ったテキストを「.txt」形式で出力するかを選択できます。両方を出力することもできるので、今回は両方にチェックを入れてみましょう。

テキスト方向設定

「テキストの方向」は、縦書き書類・横書き書類によって異なります。一般的にはビジネスでは横書きが多いので「水平」を選択することが多いでしょう。書類に合わせて選択できます。

既定設定適用

設定が完了したら「既定の設定を使用」のボタンをクリックします。

タスク確認画面

設定した項目が今回のタスクに反映されます。

OCRタスク実行確認

最後に、設定した内容の確認画面が表示されます。「適用」をクリックすると、処理が開始されます。

処理完了後の出力PDF

処理が完了すると、出力先として指定したフォルダーにOCR処理済みのPDFが出力されます。

テキスト選択可能なPDF

これにより、文字情報を持たなかったPDFが、テキストを選択できるようになり、OCR処理が完了しました。同様の処理は、画像でも可能です。

グラフを含む画像ファイル

たとえば、上記の画像はグラフを含む画像(PNG画像)です。情報を含む画像はインフォグラフィックと呼びますが、業務資料や会議資料では、こうした図画や表などを含む資料が配布される例も少なくありません。PDFの場合と同様に、OCR Converterを使ってOCR処理を行ってみます。

OCR処理後のインフォグラフィック

処理が完了すると、表やスライドに含まれる文字列がテキストとして選択可能となりました。

このように、文字情報を持たないPDF・画像に対してOCR処理を施したPDFにすることで、ファイル検索ツールでの一括での検索が可能となるほか、過去の書類・資料からのテキストの書き出しも可能となり、紙帳票をデータとして扱いやすくなります。

まとめ

この記事では、NAS内に保存されたPDFなどのデータにOCR処理を施すことができる「OCR Converter」について解説しました。

ペーパーレス化や電子帳簿保存法対応を進める際に、とにかく紙をデータにする、という目的で大量のスキャンをしたものの、スキャンしたPDFに文字情報が含まれていないために検索性や編集性が損なわれてしまったという事例は多くあります。

OCR処理は、書類をスキャンする際に設定するのが一般的ですが、すでに紙帳票が失われてしまっている場合には、再度スキャンをするのは難しいでしょう。

そのような場合にも、QNAPのOCR Converterを活用すると、PDF内に含まれるテキストを自動的に読み取り、文字情報を含むPDFに編集することができます。

紙帳票からデータへの移行を行っている企業や、データ化した帳票の操作性に困難を感じている方は

QNAPのアプリ紹介や設定・使い方はこちら。

ビジネスに必要なIT機器の導入をサポートいたします

お問い合わせ・相談する

製品を検索する

製品カテゴリー
製品名
メーカー指定
並び順      
販売状況
販売店情報

サービス紹介 QNAPあんしんサービス

QNAP NASの導入や運用における悩みを解決をサポートするテックウインド独自のサービスです。
初期設定、データ移行、バックアップ設定などのお悩みを解決します。

詳細はこちら

よくある質問

QNAP NASの導入、管理、セキュリティ、ネットワーク設定、バックアップ、データ復旧、仮想化、アプリケーション活用など、法人様向けによくある質問をまとめたFAQページです。

よくある質問

プロモーション動画紹介

NASとは何かという所からイラストを使って分かりやすく解説している動画です。QNAP TS-262にWD Red Plus HDD(NAS向けHDD)組み込んで、簡単な設定まで説明しています。

クラウドでの大量のデータ管理の問題があったもの大容量ハードディスクとQNAP NAS(TS-464)により、データを効率的に保存・アクセスできるようになった経緯と管理方法を説明しています。