Ir al contenido principal

Como Aplicar OCR a un PDF

TUXrank .. SITES
Cómo aplicar OCR a un PDF y habilitar la selección y búsqueda de texto




Supongamos que tenés un PDF que fue creado utilizando un scanner, o que te lo pasaron pero éste contiene la información en forma de imagen. El procedimiento al que debemos someter a nuestro querido PDF se llama OCR: un proceso que identifica automáticamente símbolos o caracteres que pertenecen a un determinado alfabeto, a partir de una imagen para almacenarla en forma de datos con los que podremos interactuar mediante un programa de edición de texto o similar.

pdfocr es una simple herramienta que crea un nuevo PDF con una capa de texto incrustada, lo que permite al usuario seleccionar texto y buscar palabras en él, sin cambiar el aspecto final del PDF.

Para que NO sirve pdfocr:

Esto sirve solamente si el PDF contiene la información en forma de imagen; si exportaste el PDF desde OpenOffice, ya tiene una capa de texto incrustada, por lo que este procedimiento es innecesario.

Cómo instalar pdfocr:
dijo:
sudo add-apt-repository ppa:gezakovacs/pdfocr
sudo apt-get update
sudo apt-get install pdfocr


Cómo usar pdfocr:

Abrí un terminal, andá al directorio donde se encuentra el PDF que querés convertir, e ingresá lo siguiente (reemplazando input.pdf por el PDF que querés convertir y output.pdf por el nombre del nuevo archivo con la capa de texto incrustada)
pdfocr -i input.pdf -o output.pdf

Esperá a que se practique el OCR a cada una de las páginas de tu PDF y que se cree el archivo final modificado. Ello debería llevar unos segundos por páginas, dependiendo en la resolución de tu PDF.

Entradas populares de este blog

Fallo al obtener la lista de compartición del servidor

 - Ubuntu Karmic Koala El problema. El detalle es que a veces tengo que revisar archivos que están en otras computadoras que utilizan windows. Al momento de darle en el menú Lugares - Red - Red de Windows y al elegir el grupo de trabajo en el que están mis equipos me aparece el siguiente error. No se puede montar el lugar. Fallo al obtener la lista de compartición del servidor. La solución . La encontré en este articulo de los Foros de Ubuntu, lo voy a copiar tal cual, espero que no le moleste al autor y solo a manera de respaldo. # — Aquí inicia el articulo de los foros de Ubuntu – 1- En principio es necesario que estén instalados: samba samba-common smbclient winbind   2- Luego editar el archivo /etc/samba/smb.conf sudo gedit /etc/samba/smb.conf   A los cambios necesarios para adaptar el sistema, según los tutoriales de samba es necesario tener presente que: a- Donde dice workgroup = WORKGROUP, reemplazar WORKGROUP por el nombre de grupo de ...

Descargar Packet Tracer 5.2 [Windows y Linux]

Packet Tracer 5.2 [Windows y Linux] Packet Tracer es la herramienta de aprendizaje y simulación de redes interactiva para los instructores y alumnos de Cisco CCNA. Esta herramienta les permite a los usuarios crear topologías de red, configurar dispositivos, insertar paquetes y simular una red con múltiples representaciones visuales. Packet Tracer se enfoca en apoyar mejor los protocolos de redes que se enseñan en el currículum de CCNA. Este producto tiene el propósito de ser usado como un producto educativo que brinda exposición a la interfaz comando – línea de los dispositivos de Cisco para practicar y aprender por descubrimiento. Packet Tracer 5.2 es la última versión del simulador de redes de Cisco Systems, herramienta fundamental si el alumno está cursando el CCNA o se dedica al networking. En este programa se crea la topología física de la red simplemente arrastrando los dispositivos a la pantalla. Luego clickando en ellos se puede ingresar ...

Mensaje de bienvenida en la Consola

Es una pequeña utilidad para mostrar texto ASCII en la consola. Se llama Figlet y la podemos instalar en Ubuntu con “sudo apt-get install figlet”. Podemos hacer que aparezca un mensaje de bienvenida en la consola si añadimos estas lineas al archivo “$HOME/.bashrc”: #Mensaje figlet “Texto Que quieras $USER”