Ir al contenido principal

Extracción de datos PDF en Linux



Esta es una sugerencia enviada por WebUpd8 lector de cortar la piedra, en la extracción de imágenes y el texto de archivos PDF. Es diferente de su anterior consejo y útil para los demás casos.

En primer lugar, instalar las herramientas necesarias para:

- Ubuntu:



sudo apt-get install poppler-utils


- Fedora:


sudo yum install poppler-utils


Este comando va a extraer todas las imágenes de "pdffile.pdf" y ponerlos en el directorio / home / <nombre / pdfimages /:



pdfimages -j pdffile.pdf ~/pdfimages/






Los archivos JPEG se guardan con la extensión de PPM con pdfimages menos que se especifique el parámetro "-j" (para JPEG).

La ventaja de pdfimages es que se va a extraer las imágenes originales, como incrustadas en el PDF - Por ejemplo: se extrae un archivo PDF de nuestro jardín de infantes local para poder utilizar algunas imágenes de una invitación y me quedé muy sorprendido al descubrir que la imagen incrustada era mucho más grande y mostró mucho más de la foto cuando se extrae que cuando incrustado. Antes de que las partes de la imagen fueron enmascarados por el resto del diseño. Interesante y muy útil.

Este comando va a extraer todo el texto actual y poner un archivo con el mismo nombre que el archivo PDF, pero con extensión TXT (pdffile.txt) en el mismo directorio que el archivo de origen:






pdftotext pdffile.pdf





Tenga en cuenta que este comando sólo permite extraer el texto real. Si el PDF contiene imágenes con texto impreso en ellos, entonces esto no funcionará - por favor refiérase a la punta de mi edad para este tipo de archivos: Cómo extraer todo el texto de archivos PDF (incluido el texto de las imágenes) .









Entradas populares de este blog

Fallo al obtener la lista de compartición del servidor

 - Ubuntu Karmic Koala El problema. El detalle es que a veces tengo que revisar archivos que están en otras computadoras que utilizan windows. Al momento de darle en el menú Lugares - Red - Red de Windows y al elegir el grupo de trabajo en el que están mis equipos me aparece el siguiente error. No se puede montar el lugar. Fallo al obtener la lista de compartición del servidor. La solución . La encontré en este articulo de los Foros de Ubuntu, lo voy a copiar tal cual, espero que no le moleste al autor y solo a manera de respaldo. # — Aquí inicia el articulo de los foros de Ubuntu – 1- En principio es necesario que estén instalados: samba samba-common smbclient winbind   2- Luego editar el archivo /etc/samba/smb.conf sudo gedit /etc/samba/smb.conf   A los cambios necesarios para adaptar el sistema, según los tutoriales de samba es necesario tener presente que: a- Donde dice workgroup = WORKGROUP, reemplazar WORKGROUP por el nombre de grupo de ...

Rootear en Ubuntu un teléfono Android

Tengo un teléfono con Android, concretamente un Motorola Defy, y resulta que en Android, basado en Linux, eres un simple usuario y solo puedes realizar algunas tareas. Otras te están vetadas. Conseguir los permisos de superusuario, se llama entre los entendidos rootear el móvil. En principio es una operación que no entraña riesgos, pero en esta vida todo puede fallar. Así que debe quedar claro que si decides rootear el teléfono, lo haces bajo tu propia responsabilidad. También debes entender, que si rooteas el teléfono, los SAT aprovechan para lavarse las manos de cualquier problema y anular la garantía. Y por último, debes saber que es posible que ya no recibas las actualizaciones automáticas de Android. Para rootear teléfonos se utiliza una aplicación llamada Superoneclick . En mi caso, esta parece ser la única solución. Pero este es un programa para Windows, por lo que.... Afortunadamente, esta escrito en .NET, por lo que vamos a poder ejecutarlo con MONO en nuestro ...

Descargar Packet Tracer 5.2 [Windows y Linux]

Packet Tracer 5.2 [Windows y Linux] Packet Tracer es la herramienta de aprendizaje y simulación de redes interactiva para los instructores y alumnos de Cisco CCNA. Esta herramienta les permite a los usuarios crear topologías de red, configurar dispositivos, insertar paquetes y simular una red con múltiples representaciones visuales. Packet Tracer se enfoca en apoyar mejor los protocolos de redes que se enseñan en el currículum de CCNA. Este producto tiene el propósito de ser usado como un producto educativo que brinda exposición a la interfaz comando – línea de los dispositivos de Cisco para practicar y aprender por descubrimiento. Packet Tracer 5.2 es la última versión del simulador de redes de Cisco Systems, herramienta fundamental si el alumno está cursando el CCNA o se dedica al networking. En este programa se crea la topología física de la red simplemente arrastrando los dispositivos a la pantalla. Luego clickando en ellos se puede ingresar ...