Comment puis-je convertir les images numérisées en format PDF à - un fichier PDF indexable Super User

Les produits suivants ont été trouvés sur Internet énumérés, mais je n'ai pas utilisé les.

OCR Terminal est un service en ligne OCR qui effectue la reconnaissance optique de caractères (OCR) sur vos images numérisées et des fichiers PDF et les rend dans des documents interrogeables et modifiables texte.

Free-OCR.com est un outil gratuit en ligne OCR (reconnaissance optique de caractères). Vous pouvez l'utiliser pour effectuer l'OCR sur une image que vous fournissez.
Ce service est gratuit, aucune inscription nécessaire. Nous avons également ne pas besoin de votre adresse e-mail.
Il suffit de télécharger vos fichiers d'image. Free-OCR prend soit au format JPG, GIF, TIFF BMP ou PDF (seule la première page). La seule restriction est que les images ne doivent pas être plus grand que 2 Mo, pas plus large ou supérieure à 5000 pixels et il y a une limite de 10 téléchargements d'images par heure.

Maestro Recognition Server est commerciale, mais a un essayage en ligne démo.

FreeOCR est une analyse - programme OCR, y compris le moteur de ocr libre Tesseract également connu sous le nom d'une interface graphique Tesseract. Il comprend un programme d'installation de Windows et il est très simple à utiliser et prend en charge tiff de plusieurs pages de documents de télécopie ainsi que la plupart des types d'images de Tiff comprimé le moteur Tesseract lui-même ne peut pas lire .Il a maintenant la numérisation Twain.

pdfsandwich est un outil de ligne de commande pour des livres ou des journaux numérisés OCR. Il est capable de reconnaître la mise en page, même pour le texte multicolumn.

Pour l'essentiel, pdfsandwich est un script wrapper qui appelle les binaires suivants: convertir, cunéiforme, gs et hocr2pdf. Il est connu pour fonctionner sur les systèmes Unix et a été testé sous Linux et Mac OS X. Il prend en charge le traitement en parallèle sur les systèmes multiprocesseurs.

Cunéiforme + hocr2pdf + Ghostscript. Un bricolage solution open-source.

J'ai posté une réponse décrivant une solution impliquant une version du système cunéiforme OCR maintenant open-source et hocr2pdf ainsi Ghostscript pour mettre les pages PDF ensemble.

Cela a été spécialement pour Linux, mais vous pouvez obtenir cunéiforme et Ghostscript pour Windows aussi. Je ne suis pas sûr de hocr2pdf ou un équivalent, cependant.

Articles Liés