Ir al contenido principal

Extracción de datos PDF en Linux



Esta es una sugerencia enviada por WebUpd8 lector de cortar la piedra, en la extracción de imágenes y el texto de archivos PDF. Es diferente de su anterior consejo y útil para los demás casos.

En primer lugar, instalar las herramientas necesarias para:

- Ubuntu:



sudo apt-get install poppler-utils


- Fedora:


sudo yum install poppler-utils


Este comando va a extraer todas las imágenes de "pdffile.pdf" y ponerlos en el directorio / home / <nombre / pdfimages /:



pdfimages -j pdffile.pdf ~/pdfimages/






Los archivos JPEG se guardan con la extensión de PPM con pdfimages menos que se especifique el parámetro "-j" (para JPEG).

La ventaja de pdfimages es que se va a extraer las imágenes originales, como incrustadas en el PDF - Por ejemplo: se extrae un archivo PDF de nuestro jardín de infantes local para poder utilizar algunas imágenes de una invitación y me quedé muy sorprendido al descubrir que la imagen incrustada era mucho más grande y mostró mucho más de la foto cuando se extrae que cuando incrustado. Antes de que las partes de la imagen fueron enmascarados por el resto del diseño. Interesante y muy útil.

Este comando va a extraer todo el texto actual y poner un archivo con el mismo nombre que el archivo PDF, pero con extensión TXT (pdffile.txt) en el mismo directorio que el archivo de origen:






pdftotext pdffile.pdf





Tenga en cuenta que este comando sólo permite extraer el texto real. Si el PDF contiene imágenes con texto impreso en ellos, entonces esto no funcionará - por favor refiérase a la punta de mi edad para este tipo de archivos: Cómo extraer todo el texto de archivos PDF (incluido el texto de las imágenes) .









Entradas populares de este blog

Mensaje de bienvenida en la Consola

Es una pequeña utilidad para mostrar texto ASCII en la consola. Se llama Figlet y la podemos instalar en Ubuntu con “sudo apt-get install figlet”. Podemos hacer que aparezca un mensaje de bienvenida en la consola si añadimos estas lineas al archivo “$HOME/.bashrc”: #Mensaje figlet “Texto Que quieras $USER”

Fallo al obtener la lista de compartición del servidor

 - Ubuntu Karmic Koala El problema. El detalle es que a veces tengo que revisar archivos que están en otras computadoras que utilizan windows. Al momento de darle en el menú Lugares - Red - Red de Windows y al elegir el grupo de trabajo en el que están mis equipos me aparece el siguiente error. No se puede montar el lugar. Fallo al obtener la lista de compartición del servidor. La solución . La encontré en este articulo de los Foros de Ubuntu, lo voy a copiar tal cual, espero que no le moleste al autor y solo a manera de respaldo. # — Aquí inicia el articulo de los foros de Ubuntu – 1- En principio es necesario que estén instalados: samba samba-common smbclient winbind   2- Luego editar el archivo /etc/samba/smb.conf sudo gedit /etc/samba/smb.conf   A los cambios necesarios para adaptar el sistema, según los tutoriales de samba es necesario tener presente que: a- Donde dice workgroup = WORKGROUP, reemplazar WORKGROUP por el nombre de grupo de ...

ISO Master, crea y modifica tus ISO’s fácilmente

&lt;a href="http://ubuntu.com/getubuntu" title="Descarga Ubuntu"&gt; &lt;img src="http://www.marcelor.com/wp-content/uploads/199_164_ubuntu.png" alt="Descarga Ubuntu."/&gt; &lt;/a&gt; Ha sido liberada la versión 1.3.7 de ISO Master, aplicación que te permite crear y modificar archivos ISO9660 (imágenes ISO). Principales funcionalidades: Crear una imagen ISO desde el principio. Añadir o eliminar archivos y directorios en o desde una imagen de CD. Crear CDs de arranque utilizando diferentes tipos de registros de arranque: no emulación (isolinux, Microsoft Windows), 1,2, 1,44 y 2,88 de emulación de disquete. Apoyo a Rock Ridge y nombres de archivo Joliet. Iso Master es una aplicación de código abierto y está disponible en versión linux y windows. No disponible aún en los repositorios de Ubuntu http://www.littlesvr.ca/isomaster/download/