Tuesday, February 7, 2017

Guide méthodologique vers le format PDF pour archivage structuré et balisé


format PDF structuré et balisé

Guide méthodologique et les outils de conversion vers le format PDF structuré et balisé.

L’archivage de fichiers numériques requiert l’utilisation de formats de fichiers pérennes. Le format PDF est un des formats les plus répandus. Le SIAF (Service Interministériel des Archives de France) et la TGIR HumaNum (UMS CNRS 3598, anciennement le TGE Adonis) ont souhaité initier une étude sur ce format afin de conseiller les utilisateurs qui souhaiteraient utiliser ce format.

La méthode la plus courante est de créer un fichier source avec un éditeur (ou un logiciel spécifique adapté à son activité comme word 2016, format de fichier TeX, ou Indesign CS6 ou CC 2017 ou quarkxpress version X...).

Mais dans une perspective d’archivage, le format de fichier alors créé peut s’avérer être très dépendant du logiciel de création (et de sa version-, ce qui n’offre que peu de garantie pour une conservation à long terme. C’est pourquoi, on a l’habitude de recourir ensuite à une conversion du format de fichier initial au format PDF.

Deux iframes avec des pdf sont en dessous:

1/ détails du format pdf (date de 2012)
2/ outils de conversion vers PDF d'archivage (date de 2014)





Guide methodologique

Word

Pour ces logiciels, seule la version la plus récente a été retenue afin de tester les possibilités de conversion de ces outils et de disposer notamment des dernières versions de PDF. Par exemple, le choix de tester Word 2003 n’est pas pertinent puisque le logiciel de conversion qu’il contient n’est pas capable de produire du Pdf/A (sorti en 2005).
Les fichiers au format « .doc », acceptés également par les dernières versions de Word, n’ont pas été retenus car lorsqu'un traitement de texte ouvre un fichier .doc ou .docx les deux sont convertis en mémoire dans un format binaire identique qui permet au logiciel de travailler et d'imprimer à partir de ce format. Le format du fichier en entrée n'est donc pas important.

PDF


  • PDF 1.4 : car elle a servi de modèle pour la première version de PDF/A ;
  • PDF 1.7 : qui est actuellement la version la plus aboutie au moment de la rédaction du présent rapport et qui a servi de base aux PDF/A-2 et PDF/A-3. ;
  • PDF/A : qui est la référence en termes d’archivage. Parmi les versions 1, 2 et 3, le choix s’est porté vers le format le plus récent (PDF/A-3 lorsque cela était possible, sinon PDF/A-2 sinon PDF/A-1). Ensuite pour chaque version, il y a une lettre «a», «u» ou «b» pour définir trois niveaux de contrôle («a» pour avancé, « u » pour unicode et « b » pour basique). Nous avons choisi, suivant les possibilités du logiciel, le niveau de contrôle le plus exigeant : PDF/A-3a (ou PDF/A-2a ou PDF/A-1a), sinon PDF/A- (1u, 2u, 3u) ou PDF/A-(1b, 2b, 3b).





No comments:

Post a Comment