Ir al contenido principal

OcrFeeder es un programa libre para el OCR




OcrFeeder es un programa para el Reconocimiento Óptico de Caracteres (en inglés OCR).
Es una aplicación dirigida a la digitalización de textos.
Identifica automáticamente símbolos o caracteres que pertenecen a un determinado alfabeto/idioma, a partir de una imagen para almacenarla en forma de datos con los que podremos interactuar mediante un programa de edición de texto o similar.
Lógicamente hay que tener bien instalado y configurado el escáner o la función de escáner de una impresora multifunción.
1) Paquetes necesarios:
Aquí están los últimos paquetes .deb para OcrFeeder 
Además del paquete para instalar el programa, si queremos usar el motor de Ocr tesseract debemos instalar los paquetes: tesseract-ocr, o gocr  (en este tema vamos a usar el motor tesseract-ocr ) y uno o varios paquetes para el reconocimiento en un idioma en concreto:  tesseract-ocr-spa  y tesseract-ocr-eng ( para reconocimiento de caracteres en español e inglés ; si fuera necesario se pueden instalar mas paquetes para otros idiomas. ), unpaper ( es una herramienta de post-procesamiento de las hojas de papel escaneados, especialmente para las páginas de los libros que han sido escaneados desde fotocopias. El objetivo principal es hacer que las páginas escaneadas sean mas legibles en pantalla después de la conversión a PDF. Además, unpaper puede ser útil para mejorar la calidad de las páginas escaneadas antes de realizar el reconocimiento óptico de caracteres).
2) Opciones del programa:
Editar motores OCR: 
OcrFeeder ->Herramientas->Motores de OCR:
Se abre una ventana en la que se puede detectar, eliminar, añadir o editar los motores ocr disponibles instalados en el sistema.
Por defecto el programa usa en el OCR el idioma ingles (es decir el paquete tesseract-ocr-eng) , aunque tengas todo el sistema en español y hayas instalado el paquete tesseract-ocr-spa; para “obligar” al programa a usar el español, en Argumentos del motor hay que poner: $IMAGE $FILE -l spa; cat $FILE.txt ; rm $FILE ( el argumento - l spa es el que hace que se use el español; si queremos escanear un documento en ingles hay que sustituirlo por: -l eng ):

Se puede poner como argumento, para cambiar el idioma en el que se hará el escaneo ocr:


$IMAGE $FILE -l spa; cat $FILE.txt ; rm $FILE si quiero hacer el OCR usando el español, o
$IMAGE $FILE -l eng; cat $FILE.txt ; rm $FILE si quiero hacer el OCR usando el ingles.


Unpaper:
OcrFeeder->Herramientas->Unpaper:
Se abre una ventana en la se puede gestionar las opciones de Unpaper ( usar los valores predeterminados )
Otras opciones del programa:
OcrFeeder->Editar->Preferencias:
Se abre una ventana con tres pestañas, en la que se puede editar:
Pestaña General:  <> carpeta temporal  <> colores usados por el programa para:  # área de relleno del texto ( yo he elegido color verde ), # área de tachado del texto ( color amarillo ) # área de relleno de la imagen ( color rojo)
Pestaña Herramientas: <> ruta de Unpaper  <> elegir el motor Ocr favorito (elegimos tesseract )  <> preprocesado de la imagen: # corregir inclinación de imágenes y # preferencias de Unpaper: elegir los valores predeterminados.
Pestaña Reconocimiento: opciones del reconocimiento, como se ve en la imagen.

3) Uso básico con un archivo escaneado previamente: (para extraer el texto de un archivo con texto e imagen )
Para este uso del programa no hace falta que el escáner (o impresora multifunción )  esté conectado al pc.
Abrimos: OcrFeeder -> Archivo -> Importar Pdf (si queremos hacer un OCR a un archivo .pdf  )  o Añadir Imagen ( si queremos hacer un OCR sobre un archivo de imagen: .jpag, png, tif, etc) : elegimos el archivo con el que queremos trabajar, y luego hacemos click sobre el icono de la barra de herramientas:  detectar y reconocer automáticamente todas las páginas  ( en recuadro en rojo).

En la Barra de Herramientas ->Herramientas->Unpaper: una vez se abre la ventana siguiente, se da en el botón Vista Previa y una vez que aparece la imagen correspondiente se aplican las opciones que queramos ( yo selecciono: predeterminado ) , y luego damos a Aceptar.

Tras lo anterior se vuelve a la pantalla principal del programa.
# Seleccionamos Tipo Texto, en la ventana derecha del programa (enmarcado en verde en la imagen )
# Seleccionamos manualmente, moviendo los bordes del área con el cursor del ratón, las distintas áreas de texto sobre las que queremos realizar el OCR.
# Seleccionamos una de las áreas de texto y , tras comprobar que el motor de ocr es Tesseract, y damos al botón OCR (ambas opciones señaladas en la imagen en verde )
# Seleccionamos la pestaña Texto: aparece el texto analizado, al que podemos pasar un corrector ortográfico: Herramientas->Comprobación Ortográfica ( o tecleando Mayusc+F7 )
# Seleccionamos la pestaña Estilo: en donde elegimos: <> el tipo de carácter tipográfico <> el tamaño de la fuente tipográfica  <> el modo de alineación y <> el espaciado, que queramos que tenga el texto una vez que lo exportemos a LibreOffice en un archivo .odt
# Repetimos estos pasos para todas y cada una de las áreas de texto. También repetimos todos los pasos si el archivo que hemos abierto tiene mas de una página.
# Y posteriormente hacemos click en el icono de la barra de herramientas:  Exportar a ODT ( recuadrado en azul) , con ello se crea un archivo .odt editable con LibreOffice .

4) Uso básico escaneando un documento: (para extraer el texto de un archivo con texto e imagen).
Para este uso del programa si hace falta que el escáner (o impresora multifunción )  esté conectado al pc.
En la Barra de Herramientas -> Archivo -> Importar página del escáner
Una vez realizado el escaneo del documento y tengamos en la ventana principal del programa la página escaneada, procederemos sobre ella del mismo modo que se indicó en el apartado 3) “Uso con un archivo escaneado previamente”.

Entradas populares de este blog

Fallo al obtener la lista de compartición del servidor

 - Ubuntu Karmic Koala El problema. El detalle es que a veces tengo que revisar archivos que están en otras computadoras que utilizan windows. Al momento de darle en el menú Lugares - Red - Red de Windows y al elegir el grupo de trabajo en el que están mis equipos me aparece el siguiente error. No se puede montar el lugar. Fallo al obtener la lista de compartición del servidor. La solución . La encontré en este articulo de los Foros de Ubuntu, lo voy a copiar tal cual, espero que no le moleste al autor y solo a manera de respaldo. # — Aquí inicia el articulo de los foros de Ubuntu – 1- En principio es necesario que estén instalados: samba samba-common smbclient winbind   2- Luego editar el archivo /etc/samba/smb.conf sudo gedit /etc/samba/smb.conf   A los cambios necesarios para adaptar el sistema, según los tutoriales de samba es necesario tener presente que: a- Donde dice workgroup = WORKGROUP, reemplazar WORKGROUP por el nombre de grupo de ...

Rootear en Ubuntu un teléfono Android

Tengo un teléfono con Android, concretamente un Motorola Defy, y resulta que en Android, basado en Linux, eres un simple usuario y solo puedes realizar algunas tareas. Otras te están vetadas. Conseguir los permisos de superusuario, se llama entre los entendidos rootear el móvil. En principio es una operación que no entraña riesgos, pero en esta vida todo puede fallar. Así que debe quedar claro que si decides rootear el teléfono, lo haces bajo tu propia responsabilidad. También debes entender, que si rooteas el teléfono, los SAT aprovechan para lavarse las manos de cualquier problema y anular la garantía. Y por último, debes saber que es posible que ya no recibas las actualizaciones automáticas de Android. Para rootear teléfonos se utiliza una aplicación llamada Superoneclick . En mi caso, esta parece ser la única solución. Pero este es un programa para Windows, por lo que.... Afortunadamente, esta escrito en .NET, por lo que vamos a poder ejecutarlo con MONO en nuestro ...

Descargar Packet Tracer 5.2 [Windows y Linux]

Packet Tracer 5.2 [Windows y Linux] Packet Tracer es la herramienta de aprendizaje y simulación de redes interactiva para los instructores y alumnos de Cisco CCNA. Esta herramienta les permite a los usuarios crear topologías de red, configurar dispositivos, insertar paquetes y simular una red con múltiples representaciones visuales. Packet Tracer se enfoca en apoyar mejor los protocolos de redes que se enseñan en el currículum de CCNA. Este producto tiene el propósito de ser usado como un producto educativo que brinda exposición a la interfaz comando – línea de los dispositivos de Cisco para practicar y aprender por descubrimiento. Packet Tracer 5.2 es la última versión del simulador de redes de Cisco Systems, herramienta fundamental si el alumno está cursando el CCNA o se dedica al networking. En este programa se crea la topología física de la red simplemente arrastrando los dispositivos a la pantalla. Luego clickando en ellos se puede ingresar ...