Les formats au cœur de l'informatique

De Wiki livre Netizenship

format, fichier, logiciel libre, interopérabilité, langage informatique.


Quel drôle de langage, tout de même, l'informatique... Entre les .doc, .zip, .exe, .avi, on aimerait bien avoir un Champollion des temps modernes à la maison... Essayons d'y voir plus clair.

Lorsqu'on écrit un texte, nous saisissons des informations, soit des données. Ces dernières sont entreposées dans un fichier. Un fichier informatique est donc une collection d'informations numériques réunies sous un même nom, enregistrées sur un support de stockage tel qu'un disque dur, un CD-ROM, et manipulées comme une unité. Le nom du fichier sert à décrire le contenu. Ce nom comporte souvent un suffixe (l´extension) qui renseigne sur la nature des informations et le logiciel à utiliser pour les manipuler. On parle ici de formats de fichiers.

Le contenu est l'essence du fichier : des textes, des images, de l'audio ou de la vidéo. Pas question d'ouvrir une vidéo avec un logiciel de traitement de texte par exemple. Ce qui nous renseigne immédiatement sur la nature des données (leur format), c'est l'extension (.doc, .odt pour des textes par exemple; .avi, .Xvid pour de la vidéo). Certaines extensions sont très connues, notamment en vidéo ou traitement de texte, mais il arrive souvent que l'on tombe sur un format de fichier inconnu, ou non reconnu par son ordinateur s'il n'est pas équipé du logiciel capable de l'ouvrir. L'extension renseigne donc sur la manière d'échanger des données entre divers programmes informatiques ou logiciels.

On appelle interopérabilité cette possible compatibilité des données entre différents logiciels ou systèmes d'exploitation (Windows, Apple, Linux). Il convient cependant de distinguer « interopérabilité » et « compatibilité ». Pour être simple, on peut dire que la compatibilité est une notion verticale qui fait qu'un outil peut fonctionner dans un environnement donné en respectant toutes les caractéristiques et l'interopérabilité est une notion transversale qui permet à divers outils de pouvoir communiquer - quand on sait pourquoi, et comment, ils peuvent fonctionner ensemble.

Formats ouverts et formats fermés

On distingue un format ouvert dont la spécification (ou le code) est publiquement accessible, d'un format fermé dont la spécification est secrète. Un format fermé correspond généralement à un logiciel seul capable de pleinement l'exploiter.

Une autre distinction s'opère entre un format normalisé, faisant l'objet d'une normalisation par une institution publique ou internationale (ISO, W3C) et un format quelconque, qui peut devenir un standard de fait s'il est populaire. Un tel format est parfois normalisé par la suite comme OpenDocument[1].

Un format est dit propriétaire s'il a été élaboré par une entreprise, dans un but essentiellement commercial. Un format propriétaire peut être ouvert (le format PDF d'Adobe par exemple) ou fermé (le format .doc de Microsoft par exemple). Mais même lorsque des spécifications sont rendues publiques, les entreprises à l'origine de formats propriétaires tentent d'en conserver le contrôle, soit en proposant régulièrement de nouvelles versions plus élaborées (contrôle par maintien d'une avance technologique) soit en utilisant des moyens juridiques comme le brevet.

Les termes format ouvert, format libre[2] ou encore spécification ouverte, désignent des formats de données interopérables et dont les spécifications techniques sont publiques et sans restriction d’accès ou de mise en œuvre, par opposition à un format fermé ou propriétaire.

Le problème des formats se pose à chaque fois qu'on veut exploiter l'information numérique produite par un logiciel :

  • Lorsqu'on change la version du même logiciel ;
  • Lorsqu'on passe d'un logiciel à l'autre ;
  • Lorsqu'on échange de l'information entre deux personnes ayant chacune son ordinateur ;
  • Lorsqu'on veut exploiter les données d'un logiciel n'existant plus, voire dont l'éditeur a fermé boutique.

C'est un sujet extrêmement sensible auquel tout utilisateur d'ordinateur a été ou sera confronté.

Si vous avez compris les formats, vous avez compris une des choses essentielles de l'informatique.

« .doc », simple format ou monopole ?

Sous le terme format DOC[3], on désigne les fichiers qui sont produits par le logiciel Word de Microsoft. C'est certainement le format de fichiers le plus répandu pour travailler sur les documents destinés à l'impression ou à la diffusion (après conversion dans un format adéquat, notamment de type PDF). Son utilisation est fréquemment source de discussions animées car elle pose des questions d'ordre politique, technique et éthique.

  • Enjeu politique. Comme ce format est géré exclusivement par Microsoft, comment faire si l'on décide d'utiliser un autre logiciel que Word pour lire et/ou écrire des documents dans ce format ? Comment s'assurer sur la durée que l'on voudra toujours passer par Microsoft comme acteur incontournable de notre informatique (personnelle ou professionnelle) ? Quid de la mainmise d'une entreprise à but lucratif, et étrangère, sur un domaine aussi critique que la gestion de l'information (numérique) ?
  • Enjeu technique. Les questions techniques relatives au format DOC concernent la sécurité et la pérennité. En matière de sécurité, ne pas être maître des documents produits et émis par son propre ordinateur équivaut à faire une immense confiance à l'éditeur du logiciel qui les gère. De plus, par le passé, des informations confidentielles non désirées ont été retrouvées dans des documents de ce format. Et pour ce qui concerne la pérennité : comment être sûr que les documents produits aujourd'hui seront exploitables par un quelconque logiciel dans 10 ans, sachant que les versions successives de Word font constamment évoluer le format de ses fichiers ?
  • Enjeu éthique. Envoyer un fichier .doc à ses correspondants place ces derniers dans l'obligation implicite d'utiliser un logiciel spécifique, Word de Microsoft [4].

Cette contrainte, qui semble souvent anodine puisque Word est quasi-omniprésent sur les postes de travail sous Windows, constitue une très forte barrière à l'entrée pour tous les acteurs du logiciel qui voudraient créer des alternatives. L'environnement bureautique paraît donc actuellement une « chasse gardée » de Microsoft.

Type de format Format libre utilisé par la majorité des éditeurs de logiciels Format privé/propriétaire/exclusif
Pages web HTML et ses dérivés (xml, ...) Théoriquement aucun, le web étant entièrement ouvert à la base. Cependant, plusieurs greffons (plugins-addons) indispensables dans certains sites ôtent au web son côté universel...
Document textuel OpenDocument (.odt) Format de Microsoft Word (.doc, .docx)
Tableur OpenDocument (.ods) Format de Microsoft Excel (.xls, .xlsx)
Présentation assistée par ordinateur (PréAO) OpenDocument (.odp) Format de Microsoft Powerpoint (.ppt, .pptx)
Image PNG, SVG, GIF PSD, JPG, WMF
Son, musique Ogg FLAC, Ogg Vorbis, Ogg Speex ALAC, WMA, MP3
Vidéo, film WebM, Ogg Theora, Xvid AVI, MOV, DivX

En savoir plus

Wikipédia. Correspondance entre formats ouverts et formats fermés.

Notes et références

  1. OpenDocument est un format ouvert de données pour les applications bureautiques : traitements de texte, tableurs, présentations, diagrammes, dessins et base de données bureautique.
  2. Le terme « format libre » est largement utilisé par la communauté du logiciel libre pour désigner par exemple certains formats audio libres comme Ogg Vorbis.
  3. Surnommés DOC car ils portent une extension .doc ou .docx.
  4. Il n'y a pas que Word qui gère le format DOC, mais les alternatives produisent parfois des fichiers légèrement différents du format original, ce qui est assez gênant, par exemple lors de l'impression (mise en page, marges, tableaux...).