Outre les problèmes d’interopérabilité , une autre critique adressée par la communauté au format DOC est qu’il est modifié à chaque nouvelle version de Microsoft Word. Dès lors, il est impossible pour les utilisateurs d’une version antérieure d’ouvrir un document créé à partir d’une version plus récente. Cela oblige ceux-ci à acheter les nouvelles versions.
De plus, le format DOC pose des problèmes de confidentialité . En effet, il a été démontré qu’il est possible de trouver dans ce type de fichiers les noms des personnes qui ont travaillé dessus, le modèle de l'imprimante de l'auteur et même du texte qui a été effacé du fichier avant enregistrement. Il peut aussi révéler le nom de la machine sur laquelle il a été créé, une partie de l'arborescence du disque dur de l'auteur, voire des informations sur la topologie du réseau interne à son entreprise.
Il fut créé en 1991 par le W3C (World Wide Web Consortium) afin que les matériels de toutes sortes puissent utiliser l’information disponible sur le Web.
Quelques autres langages, ayant la même vocation existaient au démarrage du World Wide Web, mais le besoin d’en définir un nouveau s'est imposé : il fallait fournir une fonctionnalité supplémentaire : la navigation hypertexte. Dès lors, les documents écrits en HTML devaient comprendre des hypertextes liant les différentes ressources du Web.
La dernière version du format HTML est la 4.01 datant de 1999. Au début des années 2000, le développement de HTML en tant qu’application de SGML est abandonné au profit de XHTML, une application de XML.
Domaine d'application
Le langage html est relativement simple étant donné le nombre limité de balises ainsi que leur signification aisée à comprendre. Chaque élément du texte est encadré de balises qui fournissent des indications quant à la nature de l’information et sa mise en page. Un document HTML doit débuter par la balise "" et finir par "/html". Entre ces deux dernières, on trouve essentiellement deux parties. La première est l'en-tête : head. Celle-ci ne contient normalement aucun élément visuel du document, mais sert plutôt à donner des indications quant au document en cours d'affichage dans le navigateur Web c'est-à-dire la mise en page communément appelée feuille de style ou feuille CSS. La seconde est le corps: body. Il contient le contenu proprement dit de la page.
Particularités
Un problème se posa lors de la création du HTML concernant les caractères spéciaux. En effet, la table de caractères ASCII souvent utilisée par les plates-formes, ne permet de coder que 128 caractères. Les caractères accentués ne font pas partie de cette table de caractères. Cependant, chaque plate-forme a étendu, à sa guise, le jeu de caractères ASCII à 256 caractères ; par exemple, un simple e accentué (é ou è) n'est pas codé de la même manière. Pour palier à ce petit problème, des séquences de caractères ont été définies pour pouvoir spécifier un caractère non ASCII.
XML est le langage destiné à remplacer le HTML sur le World Wide Web. Sa création répond à un besoin de séparer les contenus, la structure et la mise en forme de l’information.
Comme HTML, c’est un langage de balisage, c’est-à-dire un langage qui présente des informations encadrées par des balises. Ce langage se compose d’« éléments », d’« attributs » et d’« entités ». Contrairement à HTML, qui présente un jeu limité de balises orientées présentation (titre, paragraphe, image, lien hypertexte, etc.), XML est un métalangage qui va permettre d’inventer à volonté de nouvelles balises pour isoler toutes les informations élémentaires (titre d’ouvrage, prix d’article, etc.) que peut contenir une page Web. En effet, un document produit par un traitement de texte fournit des informations« à plat » où il est impossible pour un ordinateur de distinguer le titre, le nom de l’auteur, etc.
Logiciels
De nombreux éditeurs existent pour rédiger des documents au format XML. Certains sont issus du monde SGML tels que Framemaker (Adobe), Epic (Arbortext) ou Xmetal (Softquad-Corel). D’autres plus récents peuvent également être utilisés comme XML Mind (Pixware), XML Spy et TurboXML.
Particularités
XML permet d’échanger des données entre systèmes et applications en rendant ces données significatives. Il est indépendant des formats, logiciels et systèmes d’exploitation existants . XML permet au logiciel de comprendre et exploiter au mieux le contenu de ces pages rendu explicite par un balisage indépendant de toute application. De plus, il est compatible avec toutes les langues internationales reconnues car il s’appuie sur le format Unicode.
XML permet dans un premier temps aux utilisateurs de saisir une seule fois un contenu, sans se soucier de la présentation, sans avoir à mettre les titres en italiques et sans avoir à saisir des libellés tels que « Auteur », « Année de parution », etc., et ensuite d’en générer de multiples présentation (tableau, texte suivi, etc.) avec éventuellement tri, sélection, index, etc. et ce, sur de multiples médias.