Cette publication est issue de l'atelier .pdf du di 16 mai 2021.
sudo apt-cache policy poppler-utils (1) Installé : 0.71.0-5 sudo apt-cache policy ghostscript (2) Installé : 9.27~dfsg-2+deb10u4 sudo apt-cache policy pdftk (3) Installé : 2.02-5 sudo apt-cache policy tesseract-ocr Installé : 4.0.0-2 sudo apt-cache policy tesseract-ocr-fra Installé : 1:4.00~git30-7274cfa-1
Éventuellement :
xournal : annoter livrer, ou compléter un questionnaire, y coller une signature et réimprimer
mupdf : visionner un pdf, même s'il n'est pas tout à fait standard et 'un peu tronqué'
pdfdetach -list pdfdetach -saveall
(pdfattach)
pdfinfo pdfinfo -h #pour afficher l'aide
gs, pour alléger le fichier
3 niveaux de qualité : /screen /ebook /printer
gs -sDEVICE=pdfwrite -dCompatibilityLevel=1.4 -dPDFSETTINGS=/ebook -dNOPAUSE -dBATCH -sOutputFile=file.pdf origine.pdf
pdftk myfile.pdf cat 1-11 13-30 output myfileRaboté.pdf pdftk myfile.pdf cat 59-end output myfilePart.pdf pdftk in1.pdf in2.pdf cat output out1.pdf
pdftotext -layout eticket_vaccin_2.pdf etick2.txt pdftocairo fichier.pdf -tiff -gray tesseract fichier-002.tif fichier-002 -l fra (-l eng+deu+fra+ita)
Rassembler tous les (noms de) fichiers image en un seul fichier
ls fichier-*.tif > fichier.txt
Scanner le tout en un seul fichier
tesseract -l fra fichier.txt fichier-ocr txt
Ou (re-)générer un pdf :
tesseract -l fra fichier.txt fichierocr pdf
supprimer la couche txt
pdftocairo -png your.pdf # pdftocairo is from the poppler package and will render all PDF pages to PNG convert *.png out.pdf # join all PNGs into a single PDF file, from imagemagick
pdfinfo manuel.pdf exiftool BigPDF100Mo.pdf pdftk manuel.pdf dump_data_utf8 output meta.txt nano meta.txt pdftk manuel.pdf update_info_utf8 meta.txt output manuel_modifié.pdf
cat /usr/share/applications/mimeinfo.cache | grep pdf application/pdf=org.gnome.Evince.desktop;inkscape.desktop;libreoffice-draw.desktop;xpdf.desktop;xournal.desktop;calibre-ebook-viewer.desktop;mupdf.desktop;calibre-gui.desktop;gimp.desktop; apropos pdf >> apropospdf apt-cache show pdf* >> showpdf
pdf lourdingue à autopsier
? Pains Gourmands - 50 Recettes simples et creatives.pdf
! Camille Lavrat - Trucs et astuces de A a Z BRICO
(recherche sur 'cuisine', y'a qques autres lourds)
apt-cache pkgnames pdf pdfarranger, xpdf, qpdf, pdfShuffler…
pdftk BigPDF100Mo.pdf cat 1 5 7 9-10 12-16 18 21-26 28-34 36-44 46-48 50 52-54 58-60 62-64 68-70 72-74 76 78-80 82 85-104 114-116 118 120 122 124-126 128 130 132-146 148-156 158-160 output SmallerPDF.pdf pdftk MyMagazine.pdf cat 8 output MyMagazinep.8.pdf ocrmypdf -l fra MyMagazinep8.pdf MyMagazinep8-ocr.pdf --psm N pdftotext -layout MyMagazinep8-ocr.pdf MyMagazinep8.txt pdftocairo MyMagazinep.pdf -ps (fausse piste ?) pdftocairo MyMagazinep.pdf -tiff -gray ## dès maintenant, page par page tesseract MyMagazinep-007.tif MyMagazinep-007 -l fra