Esta es una sugerencia enviada por WebUpd8 lector de cortar la piedra, en la extracción de imágenes y el texto de archivos PDF. Es diferente de su anterior consejo y útil para los demás casos.
En primer lugar, instalar las herramientas necesarias para:
- Ubuntu:
sudo apt-get install poppler-utils
- Fedora:sudo yum install poppler-utils
Este comando va a extraer todas las imágenes de "pdffile.pdf" y ponerlos en el directorio / home / <nombre / pdfimages /:
pdfimages -j pdffile.pdf ~/pdfimages/
Los archivos JPEG se guardan con la extensión de PPM con pdfimages menos que se especifique el parámetro "-j" (para JPEG).
La ventaja de pdfimages es que se va a extraer las imágenes originales,
como incrustadas en el PDF - Por ejemplo: se extrae un archivo PDF de
nuestro jardín de infantes local para poder utilizar algunas imágenes de
una invitación y me quedé muy sorprendido al descubrir que la imagen
incrustada era mucho más grande y mostró mucho más de la foto cuando se
extrae que cuando incrustado. Antes de que las partes de la imagen fueron enmascarados por el resto del diseño. Interesante y muy útil.
Este comando va a extraer todo el texto actual
y poner un archivo con el mismo nombre que el archivo PDF, pero con
extensión TXT (pdffile.txt) en el mismo directorio que el archivo de
origen:
pdftotext pdffile.pdf
Tenga en cuenta que este comando sólo permite extraer el texto real. Si el PDF contiene imágenes con texto impreso en ellos, entonces esto no funcionará - por favor refiérase a la punta de mi edad para este tipo de archivos: Cómo extraer todo el texto de archivos PDF (incluido el texto de las imágenes) .