Extracción de datos PDF en Linux

on



Esta es una sugerencia enviada por WebUpd8 lector de cortar la piedra, en la extracción de imágenes y el texto de archivos PDF. Es diferente de su anterior consejo y útil para los demás casos.

En primer lugar, instalar las herramientas necesarias para:

- Ubuntu:



sudo apt-get install poppler-utils


- Fedora:


sudo yum install poppler-utils


Este comando va a extraer todas las imágenes de "pdffile.pdf" y ponerlos en el directorio / home / <nombre / pdfimages /:



pdfimages -j pdffile.pdf ~/pdfimages/






Los archivos JPEG se guardan con la extensión de PPM con pdfimages menos que se especifique el parámetro "-j" (para JPEG).

La ventaja de pdfimages es que se va a extraer las imágenes originales, como incrustadas en el PDF - Por ejemplo: se extrae un archivo PDF de nuestro jardín de infantes local para poder utilizar algunas imágenes de una invitación y me quedé muy sorprendido al descubrir que la imagen incrustada era mucho más grande y mostró mucho más de la foto cuando se extrae que cuando incrustado. Antes de que las partes de la imagen fueron enmascarados por el resto del diseño. Interesante y muy útil.

Este comando va a extraer todo el texto actual y poner un archivo con el mismo nombre que el archivo PDF, pero con extensión TXT (pdffile.txt) en el mismo directorio que el archivo de origen:






pdftotext pdffile.pdf





Tenga en cuenta que este comando sólo permite extraer el texto real. Si el PDF contiene imágenes con texto impreso en ellos, entonces esto no funcionará - por favor refiérase a la punta de mi edad para este tipo de archivos: Cómo extraer todo el texto de archivos PDF (incluido el texto de las imágenes) .









Bloggroll

Páginas vistas en total

Blog Archive