www.starend.org

TechNIX

Tags

archivage long terme futur pérénité information photo photographie

Archivage long terme

25/12/2006

Terminé : 15/05/2007

1 / Introduction

Je vais discuter d'un domaine très particulier et plein d'incertitudes. Et je suis ouvert à tous vos commentaires. Cette page n'est pas destinée au monde professionnel, mais plutôt aux particuliers.

Aujourd'hui, nous sommes entrés de plain-pied dans une nouvelle ère, celle de l'information. Nous commençons à accumuler nombre de données informatisées, digitales. Parfois, sans le savoir, sans s'en rendre compte, sans en appréhender la portée. A tort ou à raison.

Par exemple, l'appareil photo numérique immortalise maintenant chaque instant privilégié de nos vies. Plus que ne le faisaient, ne pouvaient le faire, les appareils argentiques. Mieux même que pour beaucoup de ces appareils. Bien plus simplement. Tout en coûtant bien moins cher, tant que tout cela reste sous forme numérique.

Combien de photos jaunies avons-nous gardées
de nos grands parents, de nos familles,
de nos ancêtres, de nos racines...?


Combien de photos numériques avons-nous
sur nos disques durs, nos CD-ROM, DVD,
parfois en un unique exemplaire?

Aujourd'hui, nous pouvons encore palper ces vieilles épreuves d'un autre temps. Mais pour combien de temps? Ces photos vieillissent mal, se dispersent, s'égarent...

Alors que le numérique nous inonde de photos haute résolution du petit dernier, que l'on diffuse à tout va, à tout vent. On en a plein. Tout le monde les a, peux les voir. Ca ne jauni pas puisque c'est numérique. C'est 0 ou 1, pas entre les deux. Hop, on met ça sur un bon DVD, 2 euros au pire.

Et bien, c'est une illusion.

La profusion et la technique donnent un faux sentiment de pérennité.

2 / Présentation du problème

Petit tour du propriétaire :

Disque dur :

Pour le n00b, c'est là où l'on jette les photos, en vrac ou patiemment rangées dans des répertoires.

Techniquement, c'est un (ou plusieurs) disque de métal sur lequel on a déposé une très très fine couche de ferrite (aimantée), le tout tournant à très très grande vitesse. Même les roues de votre voiture ne tourneront jamais aussi vite. Et on accède aux informations magnétiques via un micro lecteur magnétique (tête de lecture/écriture) se déplaçant au bout d'un sweelte bras articulé et relié à un circuit électronique. Lui-même relié au reste de l'ordinateur.

Tout ça chauffe, l'électronique n'aime pas. S'il faut la changer dans un an, pas de problème, quoique. Dans deux ans, joker. Alors dans 50 ans...

Pour les disques en rotations rapides, les roulements s'usent à la longue. En gros, en fonction du temps de fonctionnement. Mais ça n'est pas le pire en fait. A ces vitesses, les têtes de lecture ne doivent pas toucher les disques et leur précieuse couche de ferrite. Elles survolent ceux-ci sur un fin coussin d'air sous lequel un cheveux ne passerait pas. Au bout d'un frêle bras articulé. Elles ont même une zone réservée où elles peuvent décoller/atterrir lorsque le disque démarre/s'arrête. Parce que si elles entrent en contact avec la surface du disque à pleine vitesse, elles vont, de façon irréversible, labourer la ferrite et toutes ses précieuses informations de la même façon qu'un tracteur laboure un champ. J'exagère un peu, certes, mais le principe est là.

Imaginez un disque dur d'ordinateur portable dans un train, sautillant au gré des rails...

(détail sur wikipedia : http://fr.wikipedia.org/wiki/Disques_durs)


Disque optique :

Mais au fait, quelle est la durée de vie d'un CD ou d'un DVD? 10 ans?

Regardez donc les sites des producteurs. On y parle de capacité de stockage en data, en durée d'enregistrement vidéo, simple ou double faces, simple ou double couches, multi-format, et de vitesse de gravure en 'X' à deux chiffres. Même l'industrie de la pornographie n'arrive plus à suivre le rythme...

Un disque optique, c'est quoi? En fait un disque plastique transparent surmonté d'une fine couche réfléchissante (aluminium) et d'une couche de vernis protectrice sur laquelle on imprime une jolie image en couleur, le tout tournant à des vitesses limite supersonique (si si). Ca c'est la version pressée par les éditeurs professionnels. Pour la version "gravable" que l'on utilise à la maison il faut 'juste' ajouter une couche photosensible entre le disque plastique et l'aluminium. C'est cette version qui nous intéresse plus particulièrement.

Comme pour le disque dur, une tête de lecture, laser cette fois-ci, permet de lire le support. Dans le détail, une longue ligne est enroulée comme un escargot sur la surface du disque côté aluminium. Une ligne qui est exclusivement constituée d'une suite de bosses plus ou moins longues et plus ou moins espacées.

Et comme pour le disque dur, la tête de lecture ne doit surtout pas toucher le disque.

Commençons par le disque plastique qui supporte tout le reste. Celui-ci peut se rayer si l'on n'en prend pas soin. Le laser focalisé dessus permet de rattraper des petites rayures. Le plastique vieillit aussi dans le temps et son indice de réfraction peux varier, suffisamment pour rendre le disque illisible (le laser ne focalise plus sur la ligne de bosses).

Pour la couche photosensible, son vieillissement peux aussi poser problème. Elle craint les ultra-violets du soleil.

La couche d'aluminium est primordiale pour la bonne lecture. C'est elle qui réfléchit la lumière du laser si il y a une bosse ou non sur le plastique en dessous. Elle est souvent à incriminer si le disque optique est illisible alors que son état paraît irréprochable. Pourquoi? Tout simplement parce que l'aluminium s'oxyde aussi (comme le fer) au contact de l'oxygène de l'air. Mais si la couche oxydée reste toujours superficielle sur l'aluminium (contrairement au fer), l'épaisseur de celui-ci sur un CD étant très faible c'est toute la couche qui s'oxyde. Pourtant le vernis protecteur devrait empeîcher le contact de l'air, mais il arrive qu'il vieillisse prématurément lui aussi...

Je précise aussi que, autant le CD (ou DVD) supporte une 'petite' rayure côté plastique, autant celle-ci lui sera fatale côté aluminium.

(détail sur wikipedia : http://fr.wikipedia.org/wiki/Disque_optique)

Bande magnétique :

Je n'aborderai pas le problème des bandes magnétiques, cassettes DAT, DLT, et autres. Celles-ci, avec le lecteur qui va bien, sont inabordables pour le budget d'un particulier.

De plus, la limite d'utilisation garantie dans le temps est généralement de 12 mois...

(détail sur wikipedia : http://fr.wikipedia.org/wiki/Bande_magnétique)

Interfaces matériels :

Une interface est une zone d'échange entre deux milieux. En fait, beaucoup de choses peuvent être vues comme des interface, suivant le point de vue d'où on les regarde...

Pour nous, on se limitera à la vision connectique vis-à-vis de l'ordinateur. Et, même là, on en dénombre encore beaucoup : port série (au sens RS232), port parallèle (type imprimante), IRDA, IDE PIO, ATA, SATA, USB, FireWire (IEEE1394), ethernet, wifi, bluetooth, ISA, PCI, AGP, PCIX, ...

Si on ne trouve plus beaucoup de périphériques avec un port parallèle, et encore moins avec un port série, on en trouve de plus en plus du type 'wireless', c'est à dire sans fils (wifi, bluetooth). De même, des interfaces modernes, rapides, et sûres comme l'USB le FireWire, ou l'ethernet évoluent maintenant très vite :
- USB 1.0 : janvier 1996, 12Mbps (historique)
- USB 1.1 : septembre 1998
- USB 2.0 : avril 2000, 480Mbps
- IEEE 1394 (FireWire) : 1995, 100 à 400Mbps (historique)
- IEEE 1394b (FireWire 2) : fébvrier 2000, 800 à 3200Mbps
- Ethernet 10 Mb/s : 1985 (historique et specs)
- Ethernet 100 Mb/s : 1995
- Ethernet 1 Gb/s : 1998
- Ethernet 10 Gb/s : 2002
- Record de vitesse actuel : octobre 2006, 14 Tb/s sur 160Km

On constate une augmentation significative des débits ces 10 dernières années, à comparer aux 115200 b/s du port série. Mais aussi une multiplication des interfaces disponibles. Chacune à son domaine d'emploi spécifique, mais elles ont tendance à devenir de plus en plus concurrentes. Donc, à moyen terme, certaines vont inévitablement disparaître.

Un autre problème vient de la compatibilité ascendante. L'USB 2.0 ne supporte pas l'USB 1.0. Ca encore, ce n'est pas trop grave. Par contre, les disques durs IDE passent maintenant en SATA. Exit la compatibilité avec les anciens disques IDE PIO et ATA. Pour rappel, le bus IDE permet de brancher des disques durs et des lecteurs optiques.

Le SATA s'installe dans la durée, mais quelle durée? Le disque dur ou le lecteur DVD que l'on achète aujourd'hui pourra-t-il être relié à un nouvel ordinateur dans 10 ans? Dans 50 ans? S'il fonctionne encore bien sûr...

Si ce n'est pas le cas, le lecteur tout neuf dans 10 ans pourra-t-il relire le DVD, le CD. Dans 10 ans, je pense que oui, mais dans 50 ans?
Sachant qu'il y a toujours un certain temps de recouvrement entre une nouvelle technologie et celle qu'elle remplace, cela veut dire qu'il faudra pouvoir migrer les données vers un autre support. Et là, on dépasse le cadre de l'interface.

Formats de fichiers :

Après le support de stockage, le format des fichiers contenant les informations peut aussi poser problème. Parce que le fichier n'est pas l'information, mais juste son récipient. Le programme qui permet de voir l'information sait retrouver et exploiter ces informations dans leurs fichiers.

Ce qui peut poser problème, donc : les formats de fichiers et les programmes qui permettent de les relire.

Là, le problème est plus pernicieux, voir plus idéologique que technique. Deux points de vues s'affrontent.
1) Il vaut mieux n'avoir qu'un nombre réduit de grosses sociétés qui entretiennent les programmes et qui gèrent un nombre restreint de formats. Ces sociétés gardant la maîtrise sur ces formats pour éviter des divergences incompatibles entre elles. La demande et la concurrence faisant que l'on pourra relire les anciennes versions.
2) On connaît les travers des (grosses) sociétés et on préfère des formats ouverts pour que tout le monde (qui en a la compétence) puisse (re-)créer ou ajouter à un programme la capacité de les relire.

Je sais ce que vous aller me dire là. Vous n'aller pas jeter vos logiciels, au cas où. Mais combien de programmes d'aujourd'hui pourront encore être lancés en l'état sur une nouvelle machine dans 10 ans? Très peu.

Si vous voulez/devez faire évoluer votre machine, vous devrez faire évoluer aussi le système d'exploitation, et tous les programmes qui gravitent autour.

Voir, vous stockez vos photos numériques au grenier avec les vieilles photos argentiques de vos grands parents. Dans 30 ans, vos petits enfants les ressortent. En supposant qu'ils arrivent à relire le support, auront-ils autant de chance avec le format de vos fichiers? 30 ans, c'est deux fois l'âge de Linux, Windows et les ordinateurs personnels, 10 ans de plus qu'internet, et presque l'âge d'UNIX...

Multiples copies dispersées :

Hier, vous avez diffusé à toute la famille les photos du petit dernier au ski, bien.

Aujourd'hui, votre disque dur fait un drôle de bruit, un peu comme le bruit du train sur les rails.

On va peut-être se faire une sauvegarde sur un DVD. Sauvegarde qui n'arrivera jamais à terme, le disque dur a définitivement rendu l'âme en plein milieu de la gravure. Forcément, le DVD est illisible parce que non terminé.

Verdict pour le disque dur : un roulement s'est cassé et les têtes de lecture sont venues faire des petits copeaux de métal avec vos photos dessus. Vous vous souvenez, le tracteur qui laboure le champ...

Allo les copains?
Super tes photos, surtout l'atterrissage dans le sapin. Mais je ne les ai pas gardées, ça prend trop de place...
...Ah, heu, j'ai déjà nettoyé ma boîte aux lettres...
...T'as de la chance, j'en ai imprimé une du p'tio sur ses skis...
...Binnnn, j'ai aussi perdu mon disque dur hier. C'était le même que toi, on l'a acheté ensemble en promo...
...Je te l'avais dit, le numérique c'est nul...
...

Rayonnement cosmique :

Encore un autre truc qui perturbe les circuits électroniques délicats des ordinateurs, le rayonnement cosmique. La chose est complexe, mais en gros, des particules à hautes vitesses percutent régulièrement la surface de la terre. Et donc aussi nos ordinateurs. La magnétosphère qui protège notre planète n'arrête pas tout. L'énergie dégagée par une particule est minime, mais sur des circuits électroniques dont l'ordre de grandeur des composants est le nanomètre (10^-9 mètre), cela peut suffire à modifier leur état, voir les détruire. Et on ne peut guère les arrêter.

Et plus les composants sont petits, plus souvent cela a de chances de se produire. C'est quoi déjà la taille de gravure des derniers processeurs à la mode? Arg.

Bon, j'arrête là. Statistiquement, cela reste négligeable, pour l'instant. Mais cela montre surtout que la menace sur nos précieuses données est vaste et pas forcément toujours maîtrisable...

3 / Hypothèses de travail

Pour pouvoir travailler, on va supposer plusieurs choses :
1) Aucun support de stockage ne présente en tant que tel une garantie suffisante.
2) Au regarde de 1) le support de stockage le plus flexible d'utilisation : le disque dur.
3) Le format de partition de plus commun et le plus pérène : le VFAT (FAT32).
4) L'interface ayant la plus grande chance de survie en l'état : l'USB.
5) Le support de communication ayant la plus grande chance de survie en l'état : l'ethernet.
6) En cas d'endommagement du support, celui-ci doit pouvoir être changé sans perte de donnée, ou en pouvant facilement les restaurer.
7) Pas de sur-compression, encodage, chiffrement, dissimulation, encapsulage dans un format non documenté.
8) Dupplication de l'information sur supports déconnectables.

Il faut bien se résoudre à confier ses données à un support de stockage.

Puisque je pars de l'hypothèse que je ne peux pas faire confiance à un support particulier, je suis en fait contraint de devoir vérifier la fiabilité de celui-ci régulièrement.

Le choix du disque dur comme support de stockage va grandement améliorer les possibilités de vérifications automatisées. De plus, sa forte capacité réduit naturellement le nombre de disques à entretenir.

Cela veux dire aussi que le système ainsi créé, dans son ensemble, est actif.

4 / Achitecture matériel

La base est constituée d'une machine (PC,PPC,Sparc,...) disposant d'un disque dur interne, d'un port Ethernet, et de ports USB (USB2 c'est mieux). Le système d'exploitation doit pouvoir supporter le partage de fichier SMB, le serveur web Apache avec PHP, bash, mount, awk, seq.En gros pas M$$$ Woinwoin, notament pour la gestion et le montage des partitions en script...

L'espace de stockage est constitué au minimum de deux disques dur, de préférence externe. Compter quand même au moins une partition système sur un disque interne.

Dans mon cas, j'utilise un PC de récupération. P3 750MHz, 64Mo de RAM, 2 disques dur interne de 160Go et 80Go, carte Ethernet 100Mb/s intégrée, et deux ports USB2. Debian GNU/Linux 4.0 comme système d'exploitation. J'ai maintenant aussi un disque externe USB, 40Go, merci Vincent :-)

5 / Achitecture logicielle

Il y a trois étapes au démarrage du système:
1) détecter et monter toutes les partitions disponibles;
2) vérifier (intégralement) toutes les informations dites archivées;
3) répertorier et vérifier la cohérence des copies.

En fonction des étapes précédantes, un compte rendu détaillé de l'état des archives est généré en cours et à la fin du démarrage. Ce compte rendu est disponible soit via le service web, l'accé au partage de fichiers, ou envoyé par mail.

Afin d'améliorer la survivabilité des archives, les disques dur sont découpés en partitions de 4.7Go. Equivalent à un DVD-ROM, au cas ou, pour faire une copie d'apoint temporaire. Une partition étant équivalent à une archive (ou une copie). De plus, par une configuration propre à chaque archive, celle-ci peut être marqué, et donc montée, en lecture seule.

Licence Creative Common 2007 :: BY-NC-SA :: Webdesign DENDIEVEL Stéphane