Jean-François Legrain

Édition du 17-juin-04
Ajouts entre crochets le 8-juin-11

 

A - Brigades des martyrs d'Al-Aqsa : les pages et sites Internet

Construire un corpus documentaire de pages et sites Internet : une méthodologie en histoire

Le croisement, dans un même corpus documentaire, de sources « virtuelles » et de sources « matérielles » (au sens traditionnel du terme) exige aujourd'hui de l'historien non seulement la maîtrise des méthodes traditionnelles de la critique historique mais également l'élaboration de nouvelles méthodes adaptées au traitement de l'Internet et de ses pages. Le premier moment de cette étude sera donc méthodologique et mes propositions en la matière seront exclusivement consacrées aux questions liées à la construction de la partie « virtuelle » d'un corpus documentaire. Une telle construction passe par des étapes successives et indispensables : « Identifier les sites », « Archiver les sites », « Examiner les sites ». Chacune de ces étapes sera l'occasion d'identifier les outils spécifiques de l'Internet et de constater la pérennité de l'efficacité de méthodes, anciennes mais éprouvées, telles que la critique textuelle et la codicologie.

Identifier les sites

Chaque site Internet est doté d'un nom qui lui est conféré par son auteur et qui peut être changé sans préavis ni incidence technique. Il figure au moins sur la page d'accueil et apparaît habituellement dans la barre de titre du navigateur (en haut à gauche de la fenêtre) à l'ouverture de cette même page d'accueil. Un site, cependant, n'est pas techniquement identifiable par ce nom (les doublons peuvent être légions) mais par une adresse propre que l'on nomme URL (Uniform Resource Locator) ou DNS (Domain Name Server) ; ce nom de domaine d'un serveur est en réalité une adresse IP (Internet Protocol) fixe, adresse unique de 4 nombres séparés par des points affectée à chaque ordinateur connecté à un réseau. Le nom de domaine pallie l'anonymat d'une série de chiffres en offrant la possibilité d'utiliser les lettres, éventuellement croisées avec des chiffres, dans des séries signifiantes classées ensuite par domaines qui peuvent être nationaux (.fr, par exemple, pour les URL déclarées en France) ou d'activités pour les URL déclarées aux Etats-unis (.com pour les sites commerciaux, .edu pour les universitaires, etc.). Un même site (au sens du contenu) peut disposer de plusieurs sites (au sens de l'URL). L'URL d'origine se voit alors dotée d'un ou de plusieurs « sites miroir », ses répliques exactes qui peuvent être hébergées par des fournisseurs d'accès Internet (FAI ou en anglais ISP, Internet service provider) différents. Ce procédé permet de sauvegarder le site (au sens du contenu) quand l'une de ses URL est victime d'une attaque informatique ou fait l'objet d'une désactivation de la part de son FAI. Le propriétaire d'un site peut également acheter de multiples URL qui serviront de simples liens de redirection vers l'URL d'origine tout en occupant un champ sémantique donné (dans le cas qui nous concerne, toute une déclinaison d'adresses autour de « kataebalaqsa » ou « kataebaqsa »).

Découvrir l'existence de sites Internet emprunte des chemins très différents selon que le chercheur part de la réalité « matérielle » ou se situe d'emblée dans le « virtuel ».

Dans le premier cas, tel individu dûment identifié sur le terrain, tel parti politique ou telle institution facilite la recherche sur Internet en indiquant tout simplement l'URL de son site garantissant du même coup son authenticité.

Lorsque le chercheur part de l'Internet, sa tâche est plus ardue et les situations sont diverses. Un site Internet peut en effet choisir la discrétion : accessible sur la Toile pour les seuls initiés éventuellement munis d'un code d'accès, il ne vise alors qu'à leur permettre d'échanger de l'information « entre soi ». La majorité des sites, en réalité, cherche l'effet inverse. Pour leurs auteurs, le Web est le moyen de toucher le plus rapidement possible le public le plus large ou, de façon plus restreinte, un public ciblé mais non sectaire. Dans ce cas, l'administrateur du site fait connaître son URL aux auteurs d'annuaires, généraux ou spécialisés, mais aussi et surtout aux autres sites partageant les mêmes intérêts pour qu'ils la fassent figurer dans leurs liens et favoris.

Sur le Proche-Orient, et tout particulièrement la Palestine, de nombreux annuaires collectent et classent les sites spécialisés. Rappelons que le travail d'indexation à la base des annuaires, comparables aux « pages jaunes » de nos annuaires téléphoniques, fait en partie intervenir le choix humain : choix de l'auteur du site qui caractérise son travail avec des mots-clés introduits dans les « propriétés » de ses pages (métalangage) qui seront traités automatiquement par les indexeurs ; choix de l'auteur de l'annuaire qui décide de ses catégories et des éléments qu'il y fait entrer. Webmestre de « Guide de la recherche-sur-Web » hébergés par la Maison de l'Orient et de la Méditerranée, et auteur d'un « Guide de Palestine-sur-Web » et d'un « Guide de l'Intifada-sur-Web » (www.mom.fr/guides), je participe à ce travail à un niveau de spécialité. En tant qu'auteur de tels annuaires, chercheur spécialiste de la question traitée, je me trouve doté d'un véritable rôle de créateur, que j'aurais également tenu en rédigeant « à l'ancienne » une « bibliographie commentée » ou un « état des lieux ».

Ce travail de l'annuaire diffère ainsi du récolement entièrement automatisé des moteurs de recherche. Dans ce domaine, www.google.com (et www.google.com/intl/ar/ pour l'arabe [devenu http://www.google.com/webhp?hl=ar]) s'est imposé ces dernières années par le nombre de pages traitées mais aussi la performance de son mode d'interrogation (la logique du « et » à la différence de la logique du « ou » mise en ouvre par la plupart des autres moteurs).

Toute URL repérée ne sera évidemment pas ipso facto définitivement intégrée dans le corpus des pages Internet que traitera le chercheur. Un tri initial s'impose. Dans le type de sites qui nous préoccupe, le chercheur cherchera à établir un lien entre les pages « virtuelles » du Net qu'il vient de découvrir et la « réalité matérielle » de l'individu ou du groupe sur lequel il souhaite travailler. La caractérisation plus précise de ce lien ne viendra qu'en une deuxième étape même si annuaires et sites « amis » ou « ennemis », en assignant d'entrée aux pages concernées une certaine place sur le Web, permettent de s'en donner une première idée.

La tout première étape du traitement documentaire d'un site depuis l'Internet, une fois l'URL repérée, consiste à consulter auprès des services de gestion des noms de domaine la déclaration faite par le propriétaire lors de son acquisition. Chacun de ces gestionnaires alimente ainsi une base de données, qualifiée de whois (« qui est qui ? »), qui lui est propre. Les fiches de type whois permettent de connaître les données fournies par les propriétaires des URL sur eux-mêmes (nom personnel, nom de l'organisation, adresse postale, téléphone, fax, email), le contact administratif et le contact technique, ainsi que le nom du FAI chargé de la mise en ligne du site. Dans la majorité des cas, le seul renseignement indubitable donné par les whois est l'identité du provider incontournable techniquement ; toutes les autres données sont fournies par le propriétaire de l'URL mais ne sont jamais vérifiées, seul le renouvellement régulier du coût de l'enregistrement conditionnant le maintien en ligne du site. Certains -mais rares- gestionnaires de noms de domaines refusent, cependant, ce laissez aller et exigent des preuves sur l'identité et la raison sociale de leurs abonnés. L'attribution du suffixe .fr est ainsi sujet à ce genre de vérification, à la différence des domaines professionnels internationaux, .org, .com, et de certains suffixes nationaux « de complaisance » comme, en ce qui concerne les Brigades Al-Aqsa, les .cc (Cocos Keeling Islands). Les bases de données de type whois, par ailleurs, ne recèlent que les renseignements concernant les URL vives. Rien, aujourd'hui, n'oblige les gestionnaires de noms de domaines à conserver des archives de l'identité des propriétaires d'URL disparues. Si de telles archives existent auprès de certains gestionnaires, aucune n'est, en tout cas, accessible. L'historien se trouve, dès lors, fort démuni s'il fait porter ses recherches sur de telles URL. [Créé en 2006, DomainTools (http://whois.domaintools.com/) permet, contre abonnement, de consulter l'historique de ses dépouillements périodiques et systématiques de banques de whois.]

Pour accéder aux données whois d'une URL lorsque l'identité de l'enregistreur de noms de domaines auprès duquel celle-ci a été obtenue est encore ignorée, il est nécessaire d'utiliser l'un ou l'autres des métamoteurs qui permettent de consulter automatiquement, à partir de la seule URL, la seule concernée parmi toutes les bases whois du monde. Parmi les métamoteurs les plus efficaces, citons « Register.com » (www.register.com) ou « Allwhois » (www.allwhois.com/).

 

 
« Register » et « Allwhois » - Interrogation sur www.fateh.tv

Certaines bases whois étant fermées aux consultations automatiques à partir de tels métamoteurs, il faudra, en ce cas, se rendre sur le site du whois propre au gestionnaire de noms de domaines concerné, une identité que ces métamoteurs fournissent mais pas toujours (voir ici le cas de www.fateh.tv). Dans de telles circonstances, il faudra avoir recours à d'autres outils, plus performants que ces métamoteurs généralistes.

Le chercheur, supposé détenteur d'une pratique certaine du Web et confronté, comme c'est le cas pour les Brigades des martyrs d'Al-Aqsa, à des sites sortant quelque peu de l'ordinaire, s'épargnera donc l'étape de la consultation de ces métamoteurs généralistes et aura recours à l'outil beaucoup plus puissant qu'est « Samspade » (www.samspade.org/) [L'outil semble avoir connu de sérieux problèmes vers 2007 et n'est plus accessible en 2011 ; http://whois.domaintools.com/ offre en 2011 des services équivalents]. A partir de la seule URL, il obtiendra ainsi non seulement l'information que les métamoteurs lui auraient fournie, mais toujours également, pour les URL dont le gestionnaire refuse la consultation de son whois, l'identité de celui-ci (voir ici le cas du même www.fateh.tv) ; il lui suffira alors de se rendre sur le whois concerné. S'il bénéficie d'un accès automatique au whois, Samspade effectuera en plus une traceroute qui identifie tous les relais utilisés par l'URL, identifiés par leur adresse IP, pour déboucher sur le nom de domaine final et son adresse IP. A partir de chacune des IP fournies, il est ensuite possible de réinterroger la base de données pour identifier les propriétaires ainsi que leurs relais administratifs et techniques. « Samspade » permet également (commande « browse ») d'accéder aux diverses métadonnées fournies par chacun des sites, mots clés pour le caractériser, titre, et divers renseignements sur la langue, la date du dernier changement effectué sur le site, etc.

 

« Samspade » - Interrogation sur www.fateh.tv

Les mêmes recherches peuvent être menées grâce à « Astilbe » (www.dataphone.se/~astilbe/cgi-bin/netcheck/reveal.cgi) et « ORDB » (Open Relay Database) (http://ordb.org/lookup/) [Ces outils n'existent plus en 2011].

La puissance de ces outils est certes considérable mais, pour le chercheur, trouve ses limites dans le fait qu'ils ne livrent que les données recueillies en temps réel à l'instant de la consultation.

L'épaisseur chronologique ne lui sera fournie qu'avec l'interrogation de « Netcraft » (www.netcraft.com/). Dès lors qu'une interrogation concernant une URL a été menée, Netcraft conserve en mémoire les résultats de sa recherche et l'actualise périodiquement [Cette recherche automatique pérennisée a malheureusement disparu vers 2008 et netcraft]. Le chercheur y trouvera ainsi l'identité du système (OS) utilisé par l'URL (Linux, Solaris, etc.) et celle du serveur (Apache, etc.), l'adresse IP et l'identité du « netblock owner » à la date de chacun des changements relevés. Le « netblock owner » est en général le « hosting ISP » (ie le FAI en français). Netcraft permet également de situer statistiquement la fréquentation de l'URL concernée parmi les plus fréquentées de celles hébergées par le même provider, une façon d'évaluer rapidement un éventuel « marquage » idéologique des sites d'un même FAI.

 

« Netcraft » - Interrogation www.fateh.tv

La comparaison entre les données obtenues par chacune de ces interrogations permet de débusquer d'éventuelles contradictions, redirections, etc., et d'identifier, avec un suivi chronologique, les pérégrinations d'un même site entre les providers et les systèmes.

Dans son souci de diversifier ses informations sur les sites qui l'intéressent en utilisant au mieux les ressources du Web, le chercheur consultera également « Alexa » (www.alexa.com) qui, outre les renseignements fournis par les whois ouverts aux consultations automatiques, lui livrera des statistiques sur la fréquentation de l'URL concernée.

 

     
« Alexa » - Interrogation sur www.fateh.tv

 

En collaboration avec « Google », « Alexa » liste également l'ensemble des sites qui contiennent un lien de redirection vers l'URL recherchée (également accessible via la « recherche de pages spécifiques » dans la « recherche avancée » de Google, (www.google.fr/advanced_search?hl=fr). Ce type de renseignements permet d'avoir une première représentation de la nébuleuse au sein de laquelle se développe l'URL.

Les informations ainsi obtenues ne sont évidemment que partielles et demeurent sujettes à caution. Ces premiers niveaux d'identifications, en effet, ne sauraient bénéficier du même statut qu'une caractérisation offerte par l'auteur du site lui-même dûment identifié sur le terrain et garant de son authenticité. Même dans ce cas, nul n'étant à l'abri d'un détournement de pages, le chercheur se devra de vérifier périodiquement la pérennité du site et la cohérence de son contenu.

Dans tous les cas donc, la vigilance et une approche de type critique textuelle de leur contenu restent de mise dans l'appréhension des pages Internet. Elles sont ainsi primordiales pour débusquer homonymies ou propagande. A titre d'exemple, www.fateh.net/ et www.yafa-news.com/ sont tous deux des sites officiels du mouvement Fath ; tous deux s'ornent du même logo mais quand le premier est celui du Fath de Yasser Arafat, le second est celui de ses dissidents du Fath-Intifada. Pendant plusieurs mois en 2002, un www.force17.org/ présentait, par ailleurs, les « ouvres » de la garde présidentielle palestinienne ; loin d'émaner de la Force 17 concernée, ces pages n'étaient en réalité qu'une contrefaçon dont le contenu servait la campagne du gouvernement israélien visant à faire le lien entre l'Autorité palestinienne et le « terrorisme ».

Ainsi, ce n'est qu'en menant parallèlement un examen des sites Internet, dans un suivi à la fois synchronique et diachronique, et des enquêtes de terrain pour collecter le maximum de documents « matériels » permettant de recouper les documents « virtuels », que l'historien est en mesure de mener une étude non seulement du site mais aussi de ses responsables.

Archiver les sites

Une fois qu'un site a été repéré et que le chercheur a décidé, au moins à titre provisoire, de le retenir comme élément de son corpus, se pose la question de l'archivage de son contenu fait de documents qui sans cesse et sans prévenir naissent, disparaissent ou se transforment. Le chercheur ne peut éviter de se constituer ses propres archives virtuelles. De nombreux aspirateurs de sites existent sur le marché. J'ai longtemps utilisé pour ma part un petit programme fort efficace, téléchargeable et peu onéreux, Ecatch (www.ecatch.com) qui avait le gros avantage de donner une copie exacte des sites téléchargés, sans changer les URL, tout en fournissant les dates de modification de chacun des fichiers. Il permettait également de prendre des séries successives de « clichés » des URL. Déjà ancien, il était malheureusement incapable de lire l'arabe (mais le restituait sans problème en envoyant le document vers le navigateur local) et connaissait des problèmes de compatibilité avec Windows XP. Son successeur, Wysigot (www.wysigot.com), résout tous ces problèmes techniques mais son interventionnisme, inconnu de Ecatch, le prive de bon nombre de ses avantages dans le travail de l'historien ; les images sont effet renommées pour être regroupées dans un dossier propre quand l'intégration de toutes les données aspirées empêche de conserver des « clichés » successifs d'une même URL, le cliché le plus ancien étant systématiquement mis à jour. [Dès cette époque et jusqu'à aujourd'hui, en 2011, j'utilise WinHTTrack Website Copier (http://www.httrack.com), logiciel libre très performant qui conserve la structure d'origine des sites].

Faute d'avoir pu commencer son archivage au moment opportun, le chercheur aura deux recours pour tenter de remonter le temps. Accessible depuis octobre 2001 la « Wayback machine » (www.archive.org) mise en ouvre à l'université de Berkeley (Californie), grâce à des « clichés » périodiques des sites, revendique l'archivage de quelque 10 milliards de pages. Pour retrouver des pages fraîchement disparues, le chercheur pourra également avoir recours au cache de www.google.com qui donne accès aux pages qu'il a indexées dans l'état de sa visite la plus récente.

Examiner les sites

L'URL identifiée et retenue c'est alors que commence tout le travail du traitement documentaire du site lui-même, travail jamais achevé tant qu'un contenu de site peut changer. D'emblée, l'examen d'un site implique un suivi diachronique (l'évolution interne à chaque site avec le temps) mais aussi synchronique (les pages concernées par rapport aux autres sites et aux sources non Web à un même moment t).

La prise en compte précise des pages de l'Internet implique de s'intéresser à leur contenu certes mais également, comme l'a toujours enseigné la codicologie, à leur morphologie à l'instar de tout document historique textuel ou figuratif. Une page Web est ainsi constituée d'éléments distincts qu'un langage informatique permet de faire figurer ensemble même si chacun d'entre eux a été produit et fonctionne grâce à des programmes différents. Ce langage est le plus souvent de type HTML (HyperText Markup Language) (.htm ou .html), un métalangage qui, décrivant la structure logique d'un document, permet de le diffuser sur le Web [Cette description renvoie au web1, le plus répandu encore lors de sa rédaction, aucun des sites concernés par mon étude ne possédant à l'époque de pages dynamiques]. En général une page Internet recèle ainsi des éléments de type texte accompagnés d'images, dont le format le plus courant est de type JPEG (Joint Photographic Expert Group) (.jpg) qui permet de compresser leur volume pour un téléchargement plus rapide tout en leur conservant la lisibilité requise. Dans certains cas, des animations (de type Flash ou Schockwave Flash par exemple) sont incluses ainsi que des bandes son (de type .wav ou autre).

Chaque page qui apparaît à l'écran est en réalité la mise en forme par l'explorateur (Internet Explorer ou Netscape le plus souvent) d'une page de code source de type html dont certains fragments, bien présents et exploitables, sont désignés pour ne pas apparaître à l'écran. Il s'agit de « métadonnées » dont certaines caractérisent les pages ou leurs éléments (les images tout particulièrement) : titre, mots clés, etc. [L'étude de l'ensemble du code source, par les habitudes propres à chaque rédacteur dans son maniement du langage htm et les "préférences" propres à chaque programme-éditeur de site web, est tout aussi riche d'information que la page vue.].

L'usage veut que l'on désigne comme « cadre » (frame) chaque partie de la fenêtre du navigateur pouvant afficher un document HTML indépendamment de ce qui apparaît dans le reste de la fenêtre. Certains de ces cadres peuvent être communs à l'ensemble des pages d'un site ou un certain nombre d'entre elles, le cadre dit « principal » recelant le contenu propre à chaque page. Chaque cadre peut contenir du texte, des images, des animations ou du son, chacun de ces éléments pouvant être émulés en liens hypertexte, cette technologie qui permet de mettre en relation des documents de toutes sortes à l'intérieur ou à l'extérieur d'un même site. Un cadre se décline donc à son tour comme un ensemble d'éléments distincts qu'il convient d'identifier.

Le cadre supérieur, bandeau situé en haut d'une page sur toute sa largeur, est habituellement désigné comme une « bannière » (banner) ; il recèle le plus souvent le titre du site et son logo. Dans le sens vertical, le plus souvent à droite pour les sites utilisant l'arabe et à gauche pour ceux qui utilisent les caractères latins, le « cadre latéral » offre couramment une barre de navigation qui permet d'ouvrir telle ou telle page dans le cadre de contenu principal. Une image, un texte ou une simple couleur peut figurer en arrière-plan de chacun des cadres.

La communauté d'un ou de plusieurs éléments à l'ensemble des pages d'un site procède de deux techniques différentes. Dans un premier cas, les pages fonctionnent avec des cadres différents. Le chargement de nouvelles pages ne concerne alors que le cadre principal tandis que les autres cadres (en général la bannière du cadre supérieur et la barre de navigation du cadre latéral) demeurent inchangés ; l'URL de la racine figure alors en permanence dans la barre d'adresses du navigateur quand l'adresse propre à la page chargée n'apparaît qu'au cours de son chargement dans la barre d'état (en bas de la fenêtre) ; l'ouverture de pages d'un site extérieur se fait elle-même à l'intérieur du cadre ou des cadres fixe(s). Dans un deuxième cas, le contenu des cadres communs a été intégré à une feuille de style appliquée à chaque page ; on ne parlera plus alors de « cadres » mais de « cellules », de « panneaux » ou de « régions » d'un document qui peuvent être mis à jour automatiquement à partir d'une « bibliothèque » qui conserve l'exemplaire de référence de chacun des éléments de ces régions ; le chargement d'une nouvelle page entraîne le renouvellement de l'ensemble ; l'URL propre à la page apparaît dans la barre d'adresses du navigateur et l'ouverture d'une page extérieure se fait en dehors de tout cadre fixe.

Dans le cadre d'une recherche historique, chacun de ces éléments [au niveau du code source comme au niveau de la page vue] doit donc être décrit en tant que tel et dans sa relation au tout. Il doit également dans la mesure du possible être daté. Rien en dehors d'une visite quotidienne ne permet de situer avec précision l'insertion en ligne d'une page. La date de la modification la plus récente de chaque fichier est, en revanche, disponible à tout moment [L'apparition de pages dynamiques a bien évidemment bouleversé cet univers]. Chaque élément ainsi caractérisé peut ensuite s'insérer dans une typologie et devenir l'un des critères permettant à la fois de distinguer les étapes d'un même site (analyse diachronique) et de comparer des sites entre eux (analyse synchronique). Mise en page et contenu sont souvent interdépendants et le changement de l'une traduit parfois, mais pas toujours, le renouvellement de l'autre.

La terminologie archéologique, utilisée dans la description des unités stratigraphiques, m'a paru tout à fait convenir pour répondre aux besoins scientifiques suscités par l'apparition des pages et sites Internet. Chaque page sera ainsi ici appréhendée comme l'équivalent d'une unité stratigraphique, dont la somme, le site (Internet et pas le site archéologique...), serait qualifiée en terme de « structure » par l'archéologie. La « séquence », qui, en archéologie, désigne une « association ou un regroupement d'unités stratigraphiques contemporaines résultant d'une même action », renverra ici à un ensemble de pages d'un même site créées au même moment. Ces groupes de pages seront ensuite organisés en « phase », « un ensemble de séquences structurées selon une cohérence chronologique et fonctionnelle ». Selon qu'elle souligne l'importance de la chronologie ou de la structure, l'archéologie désigne, enfin, chaque « regroupement de phases autour de structures » en termes de « période » ou d'« état » ([2]).

Au delà de mises en lignes étalées dans le temps ou même de changements superficiels touchant, par exemple, à la mise en page, à l'introduction de nouvelles rubriques, etc., des continuités de fond m'amèneront ainsi à regrouper des pages Internet en des « phases » successives, différenciées entre elles par certaines ruptures. Des communions de traits entre « phases » permettront, à leur tour, de constituer des ensembles que des ruptures de fond constitueront en autant d'« états » successifs d'un même site.

 


[2]) Selon les définitions données dans son « Glossaire de terminologie archéologique » par Daniel Arroyo-Bishop, Système ArchéoDATA. Enregistrement, analyse et conservation du document archéologique européen, Université Paris I, 1992. Lire également Michel Py, Joan B. Lopez, Ramon Buxo i Capdevila [et al.], « Système d'enregistrement, de gestion et d'exploitation de la documentation issue des fouilles de Lattes », numéro spécial, Lattara : mélanges d'histoire et d'archéologie de Lattes, 4, 1991, et la référence internationale en la matière, E. Harris, Principles of Archeological Stratigraphy, New York & London, 1989 (2e édition). Je tiens à remercier ici, pour ses conseils et son soutien sans cesse renouvelés tout au long de la rédaction de ce travail, Marc Etienne, historien et archéologue, conservateur au département des Antiquités égyptiennes du musée du Louvre.





  • Construire un corpus documentaire de pages et sites Internet: une méthodologie en histoire
  • La construction du corpus des sites Internet des Brigades des martyrs d'Al-Aqsa