Le logiciel libre OCR qui fait des recherches PDF (avec la recherche de texte au bon endroit) - Logiciel
Est-il un logiciel OCR freeware (pour Linux et / ou Windows) qui peut prendre un document numérisé PDF en entrée et en sortie un PDF interrogeable comme Adobe Acrobat fait?
Avec PDF interrogeable je voulais dire que le texte OCRed est invisible sur le texte d'origine et peut être sélectionné avec la souris et copié.
La version plus récente de Tesseract (3,03 RC au moment de la rédaction) peut le faire:
- libre, opensource et contre-plarform
- à partir de la version 3.03 sortie PDF est disponible
- logiciel CLI
- prendre en charge plusieurs langues
- malheureusement, seule entrée d'image, afin de faire un document complet, il faut créer un script batch pour convertir chaque image de la page au format PDF interrogeable. Après que les pages PDF doivent être combinées à un seul fichier PDF en utilisant des outils tels que pdftk.
Ceci est la commande suivante:
pdfsandwich génère « sandwich » OCR fichiers PDF, à savoir les fichiers PDF qui ne contiennent que des images (pas de texte) seront traités par reconnaissance optique de caractères (OCR) et le texte sera ajouté à chaque page invisiblement « derrière » les images.
Cela va générer un alice_ocr.pdf de fichier qui ressemble le fichier orginal, mais le texte reconnu sera placé derrière les images numérisées. Vous pouvez effectuer des recherches en texte intégral maintenant ou sélectionner des zones de texte.
Une autre option pourrait être OCRmyPDF.
pypdfocr est ce qui a fonctionné pour moi. Il est un script Python rationalisation toute utilisation Tesseract. Après avoir installé les dépendances (sur Linux, il est un processus beaucoup plus simple), il est aussi simple que de taper:
Et myfile_ocr.pdf d'ouverture un peu plus tard.
Vous pouvez obtenir la recherche de texte en utilisant Google Drive.
Tout d'abord, choisissez un paramètre clé. Sous la rubrique « générale » dans les paramètres de Google Drive, cochez la case « Convertir uploads: Convertir des fichiers téléchargés sur Google Docs format éditeur. »
Maintenant, téléchargez le pdf sur votre Google Drive (cliquez sur "nouveau", puis "upload de fichier"). Lorsque le téléchargement est terminé (peut prendre une minute ou deux), faites un clic droit. (Si vous avez du mal à trouver, essayez de frapper « récente » dans la barre latérale gauche.) Comme je le disais, droit sur le fichier PDF que vous avez téléchargé et choisissez « Ouvrir avec. Google Docs ». Maintenant, vous aurez la recherche de texte.
répondit le 7 septembre '16 à 14h18
Disclaimer: Je suis le développeur de pdf2pdfocr.