Instalamos PDFTK (The PDF ToolKit):
# aptitude install pdftk
Extraer paginas de un pdf (opcion 1):
$ pdftk file.pdf burst
Extraer paginas de un pdf (opcion 2):
$ convert -density 150 archivo.pdf img_%04d.tiff
Convertir imagenes en un pdf:
$ convert *.tiff archivo.pdf
OCR:
$ for x in $(ls img_*tiff); do gocr $x >> kk.txt; done
Extraer imágenes de un pdf:
$ pdfimages -j file.pdf img
Extraer texto de un pdf:
$ pdftotext file.pdf
Unir pdfs:
$ pdftk *.pdf cat output nuevo.pdf
Unir parte de unos pdfs con otros:
# Insertamos la página 2 del fichero B entre la página 2 y la página 3 del fichero A
$ pdftk A=file1.pdf B=file2.pdf cat A1-2 B2 A3-end output nuevo.pdf
Rotar pdfs:
# S(outh) – 180% ; E(ast) 90%; W(est) 270%; N(orth) 0%
$ pdftk A=file1.pdf cat A1-endS output nuevo.pdf
En un pdf que contiene páginas giradas, será necesario rotar al Norte para que recuperen la orientación original.
Añadir marca de agua:
$ pdftk fileIn.pdf background marca_agua.pdf output fileOut.pdf
Se recomienda que marca_agua.pdf sea del tamaño de las páginas del PDF (A4, letter…).
Si el pdf son imágenes, éstas taparán la marca de agua y no se verá.
Es útil en pdfs con textos. La alternativa es el “sello”.
Añadir sello:
$ pdftk fileIn.pdf stamp sello.pdf output fileOut.pdf
Se recomienda que sello.pdf sea del tamaño de las páginas del PDF (A4, letter…).
El pdf se “estampará” como sello encima de las páginas del pdf. La alternativa es la marca de agua.
Modificar los datos de propiedades de un pdf (autor, fecha de modificación…):
$ pdftk fichero.pdf dump_data output propiedades.dat
$ vi propiedades.dat
$ pdftk fichero.pdf update_info propiedades.dat output fichero_mod.pdf
Convertir pdf en txt:
$ pdftotext -layout fich.pdf fich.txt
Trabajar con PDFs desde el prompt, edición de PDFs desde la línea de comandos