Pythonで簡単!OCRで白紙ページを自動判別する方法

はじめに

こんにちは。スーパーソフトウエア東京オフィス技術部の加藤です。

画像からテキストを抽出する技術、OCR(Optical Character Recognition)は、スキャンした書類のデジタル化や、画像データからのデータ抽出など、様々な場面で活用されています。Pythonには、OCR処理を簡単に行えるライブラリが数多く存在します。本記事では、PythonのPathlib, shutil, PIL, pyocrライブラリを用いて、ZIPファイル内の画像からテキストを抽出する具体的な方法を解説します。

 

環境準備

Tesseract-OCR (テッセラクト)は、画像やスキャンされた文書からテキストを抽出する、オープンソース光学文字認識(OCR)エンジンです。簡単に言うと、写真やPDFなどの画像ファイルに書かれた文字を、コンピュータが読み取れるテキストデータに変換してくれるツールです。

 

本記事の続きはこちらをご覧ください
https://note.com/ssltokyo_tech/n/nfbdf8fdfaf64

 

スーパーソフトウエアの採用情報

あなたが活躍できるフィールドと充実した育成環境があります

blank
blank