Les formats texte



ACCUEIL

PLAN DU SITE

FORMATS

TABLEAU
RECAPITULATIF

WEBMASTERS

LIENS

  .doc  

  .rtf  

  .html  

  .xml  



Le format .doc

Définition

Le format DOC est le format propriétaire du logiciel de traitement de texte Word créé par IBM en 1983.

Historique

Word fut le premier traitement de texte populaire pour IBM PC à utiliser le mode graphique pour montrer immédiatement les mises en forme telles que le gras et l'italique. Les précédents traitements de texte, comme WordStar et WordPerfect, utilisaient simplement le mode texte avec des codes de mise en page ou quelquefois, des couleurs différentes.

Domaine d'application

Microsoft Word étant dominant, ce format est le standard que les produits concurrents doivent prendre en compte afin de permettre l’interopérabilité dans un environnement bureautique. Or, Microsoft, voulant garder le monopole, a refusé de donner les spécifications du format DOC à la communauté, faisant de Microsoft Word la seule application pouvant lire ce format de manière fiable. L'application Microsoft Word Viewer existe, mais elle ne tourne que sous le système d'exploitation Microsoft Windows et ne permet pas d'éditer le document. Pour pallier à cela, l’ingénierie inverse a été utilisée afin de comprendre dans les grandes lignes la structure du format ; ce qui a permis à OpenOffice par exemple de lire les documents en format .doc pas trop compliqués. Cependant, seul Word est capable de manipuler ces fichiers correctement. En mai 2005, l'OASIS (Organization for the Advancement of Structured Information Standards) a standardisé le format OpenDocument pour remédier à ces soucis d'interopérabilité et d'indépendance vis-à-vis d'une seule société.

Particularités

Outre les problèmes d’interopérabilité , une autre critique adressée par la communauté au format DOC est qu’il est modifié à chaque nouvelle version de Microsoft Word. Dès lors, il est impossible pour les utilisateurs d’une version antérieure d’ouvrir un document créé à partir d’une version plus récente. Cela oblige ceux-ci à acheter les nouvelles versions.
De plus, le format DOC pose des problèmes de confidentialité . En effet, il a été démontré qu’il est possible de trouver dans ce type de fichiers les noms des personnes qui ont travaillé dessus, le modèle de l'imprimante de l'auteur et même du texte qui a été effacé du fichier avant enregistrement. Il peut aussi révéler le nom de la machine sur laquelle il a été créé, une partie de l'arborescence du disque dur de l'auteur, voire des informations sur la topologie du réseau interne à son entreprise.

Haut de la page

Le format .rtf : Rich Text Format

Définition

Le RTF est un format d’enregistrement de fichier qui stocke dans un fichier texte (Ascii) le document et sa mise en page.

Historique

Elaboré par Microsoft en 1987. Il fut établi au moment où le logiciel de traitement de texte Word n’était pas du tout leader. A l’origine, le RTF a été créé afin de faciliter les échanges de fichiers entre diverses applications et environnements. En effet, une sauvegarde dans ce format facilite l’échange et l’ouverture d’un fichier puisqu’il est compatible avec la majorité des logiciels de traitement de texte. Dès lors, ce format est à conseiller pour l’envoi en pièce jointe. Cependant, certains logiciels ont tendance à utiliser des extensions propriétaires, créant des incompatibilités, même entre des logiciels Microsoft.

Domaine d'application

Le format RTF sauvegarde le fichier comme une chaîne de texte consultable par un logiciel de recherche. De nombreux formats originaux de traitement de texte incorporent les codes de formatage ou compriment les fichiers, ne permettant pas ainsi la consultation
Il est utilisé par défaut dans l'éditeur TextEdit de Mac OS X et dans le traitement de texte Ted, courant sous les systèmes de type Unix. Des versions précédentes de WordPad créaient des fichiers RTF par défaut ; bien que ces fichiers puissent encore être lus et édités par ce programme, le format DOC est à présent utilisé par défaut.

Particularités

Contrairement au format texte universel (TXT), le format RTF offre l’avantage de sauvegarder certains éléments typographiques tels que le souligné, le gras ou l’italique. Ce format permet de représenter des textes de façon plus riche (typographies, styles,…) qu’avec de l’Ascii et offre la même richesse que le format DOC.
Le format RTF est aussi simple à lire qu'à écrire, au même titre que le format texte brut. Cependant, à cause des incompatibilités avec certains logiciels, il est préférable lorsque cela est possible d'utiliser le format texte brut, amplement suffisant la plupart du temps.

Haut de la page

Le format .html: HyperTexte Markup Language

Définition

Le format ouvert HTML est un langage de description de document et une application du langage de balisage SGML (Standard Generalized Markup Language). C'est le format en vigueur sur le serveur du World Wide Web.

Historique

Il fut créé en 1991 par le W3C (World Wide Web Consortium) afin que les matériels de toutes sortes puissent utiliser l’information disponible sur le Web.
Quelques autres langages, ayant la même vocation existaient au démarrage du World Wide Web, mais le besoin d’en définir un nouveau s'est imposé : il fallait fournir une fonctionnalité supplémentaire : la navigation hypertexte. Dès lors, les documents écrits en HTML devaient comprendre des hypertextes liant les différentes ressources du Web.
La dernière version du format HTML est la 4.01 datant de 1999. Au début des années 2000, le développement de HTML en tant qu’application de SGML est abandonné au profit de XHTML, une application de XML.

Domaine d'application

Le langage html est relativement simple étant donné le nombre limité de balises ainsi que leur signification aisée à comprendre. Chaque élément du texte est encadré de balises qui fournissent des indications quant à la nature de l’information et sa mise en page. Un document HTML doit débuter par la balise "" et finir par "/html". Entre ces deux dernières, on trouve essentiellement deux parties. La première est l'en-tête : head. Celle-ci ne contient normalement aucun élément visuel du document, mais sert plutôt à donner des indications quant au document en cours d'affichage dans le navigateur Web c'est-à-dire la mise en page communément appelée feuille de style ou feuille CSS. La seconde est le corps: body. Il contient le contenu proprement dit de la page.

Particularités

Un problème se posa lors de la création du HTML concernant les caractères spéciaux. En effet, la table de caractères ASCII souvent utilisée par les plates-formes, ne permet de coder que 128 caractères. Les caractères accentués ne font pas partie de cette table de caractères. Cependant, chaque plate-forme a étendu, à sa guise, le jeu de caractères ASCII à 256 caractères ; par exemple, un simple e accentué (é ou è) n'est pas codé de la même manière. Pour palier à ce petit problème, des séquences de caractères ont été définies pour pouvoir spécifier un caractère non ASCII.


Haut de la page

Le format .xml : eXtensible Markup Language

Définition

Le format XML (Extensible Markup Language) est un langage ouvert de structuration de données, avec un système de balisage basé sur le SGML (Standard Generalized Markup Language).

Historique

Il fut créé en 1998 par la W3C (World Wide Web Consortium), organisme centré sur les technologies au cœur du Web.

Domaine d'application

XML est le langage destiné à remplacer le HTML sur le World Wide Web. Sa création répond à un besoin de séparer les contenus, la structure et la mise en forme de l’information.
Comme HTML, c’est un langage de balisage, c’est-à-dire un langage qui présente des informations encadrées par des balises. Ce langage se compose d’« éléments », d’« attributs » et d’« entités ». Contrairement à HTML, qui présente un jeu limité de balises orientées présentation (titre, paragraphe, image, lien hypertexte, etc.), XML est un métalangage qui va permettre d’inventer à volonté de nouvelles balises pour isoler toutes les informations élémentaires (titre d’ouvrage, prix d’article, etc.) que peut contenir une page Web. En effet, un document produit par un traitement de texte fournit des informations« à plat » où il est impossible pour un ordinateur de distinguer le titre, le nom de l’auteur, etc.
Logiciels
De nombreux éditeurs existent pour rédiger des documents au format XML. Certains sont issus du monde SGML tels que Framemaker (Adobe), Epic (Arbortext) ou Xmetal (Softquad-Corel). D’autres plus récents peuvent également être utilisés comme XML Mind (Pixware), XML Spy et TurboXML.

Particularités

XML permet d’échanger des données entre systèmes et applications en rendant ces données significatives. Il est indépendant des formats, logiciels et systèmes d’exploitation existants . XML permet au logiciel de comprendre et exploiter au mieux le contenu de ces pages rendu explicite par un balisage indépendant de toute application. De plus, il est compatible avec toutes les langues internationales reconnues car il s’appuie sur le format Unicode.
XML permet dans un premier temps aux utilisateurs de saisir une seule fois un contenu, sans se soucier de la présentation, sans avoir à mettre les titres en italiques et sans avoir à saisir des libellés tels que « Auteur », « Année de parution », etc., et ensuite d’en générer de multiples présentation (tableau, texte suivi, etc.) avec éventuellement tri, sélection, index, etc. et ce, sur de multiples médias.

Haut de la page