Mind Overflow

Si vous ne voulez pas qu’on le sache, mieux vaut encore ne pas le faire

Combat Information CenterCombat Information Center - CC divemasterking2000

Depuis plusieurs années maintenant, les technologies de l’information et de la communication sont devenues pour les armées modernes un facteur crucial dans la stratégie et la tactique d’une force militaire. Plus que le nombre de soldats disponibles pour faire la guerre, c’est certainement la maitrise de l’information et de la communication qui importe dans les États-Majors, pour prévoir, réagir et riposter. C’est pour cela que l’armée française dispose d’un panel d’outils préparant divers aspects de la guerre électronique, avec des composantes variées comme le supposé réseau Frenchelon, qui est un système d’espionnage des télécommunications, mais également EMERAUDE (Ensemble mobile écoute et recherche automatique des émissions) ou encore CRISTINA (Centralisation du renseignement intérieur pour la sécurité du territoire et des intérêts nationaux). Parmi les plus connus évidemment, car il existe certainement d’autres services, fichiers ou systèmes intervenant dans ce domaine qu’est le renseignement.

Désormais, c’est au tour de l’armée française de chercher e à obtenir un système spécialement dédié à la surveillance d’Internet. Surnommé Hérisson (Habile Extraction du Renseignement d’Intérêt Stratégique à partir de Sources Ouvertes Numérisées), il vise à fournir à ces futurs utilisateurs la possibilité de voir en profondeur ce qui se trame sur les réseaux. Le cahier des charges est d’ailleurs visible directement sur Google Docs, dans lequel nous sommes informés des exigences qui sont demandées pour la conception d’un tel système. Et si l’on en croit l’appel d’offres diffusé par l’armée (en fait par le ministère de la défense, la la Direction Générale pour l’Armement, la Direction des Systèmes d’Armes et le Service Centralisé des Achats) sur Klekoon, l’armée envisageait déjà ce système dès 2007.

Attribué à la DGA (Direction Générale pour l’Armement), ce cahier des charges esquisse les lignes d’un système de collecte automatisée et de recherche d’information à grande échelle. Tout y passe, des canaux IRC, aux lettres de distribution (mailing list), sans oublier les forums, les réseaux sociaux, les newsgroups, les flux RSS, les weblogs, les podcasts et les systèmes P2P. Toutefois, l’analyse et le traitement des informations varieront en fonction de la priorité accordée à la source : importante ou primordiale.

Du côté des exigences du système, on découvre qu’Hérisson est calibré pour accéder à n’importe quel contenu multimédia (texte, image, son et vidéo) et n’importe quel langage informatique (HTML, PHP, ASP). Il lui est également possible de repérer des liens “cachés”, d’extraire des URL dans des applications flash ou des codes JavaScript. Le cahier des charges précise aussi qu’il peut collecter et stocker des contenus provenant d’un site FTP ou alors de s’occuper uniquement de l’arborescence. Enfin, Hérisson sait aussi récupérer des fichiers disponibles sur un réseau P2P.

Le long cahier des charges détaille encore de nombreux aspects devant être intégrés au système Hérisson : il doit pouvoir avoir la capacité de collecter des données via les protocoles : MMS (flux vidéo type Windows Media Player) RSTP (flux vidéo type Real Player) POP3 (messagerie)”, et donc des emails. Le système Hérisson a la capacité de gérer un éventail large, non restreint et évolutif de formats de documents de type : vidéo (AVI, MPG, MOV, MP4, Real, FLV, OGM…) ; audio (WAV, MP3, OGG…) ; image (BMP, JPG, TIFF…) ; texte (HTML, MHTML, Open Document, Open XML/Microsoft Office, Adobe PS/PDF, Flash).

L’œuvre d’observation et de collecte « prend [aussi] en compte la problématique du Web invisible en proposant des moyens, méthodes et outils, permettant l’accès à ces sous-ensembles du Web Invisible ». Le tout est archivé et chaque mise à jour “d’un gisement Web, FTP ou NMTP” fait l’objet d’un stockage différencié pour tenir compte des évolutions des contenus amassés.

Le système s’attaque aussi bien au web qu’aux radios et aux TV. Ainsi, les langues des documents audio devant être identifiées dans le système HÉRISSON sont :

[P]rimordial : le français, l’anglais, l’arabe, le russe, le farsi.
[I]mportant : l’espagnol, l’allemand, , le chinois mandarin, l’italien, le serbo-croate, l’hindi, le japonais, le coréen, le turc, l’ukrainien, l’hébreu, l’urdu, l’albanais, le macédonien.
[S]ouhaitable : le néerlandais, le grec, le portugais, le polonais.

Pour la gestion des images, le système Hérisson permet l’accès aux caractéristiques brutes et aux métadonnées d’une image, “comme le type et les caractéristiques d’encodage, la résolution, le taux de compression, les champs EXIF, les statistiques usuelles liées à l’image histogramme, moments centrés…), il note aussi la provenance de l’image (URL pour les images obtenues via Internet) et éventuellement le nom du photographe”. Hérisson “reconnaît les images transformées” et “lorsqu’une photographie a subi des transformations (rotations, changement d’échelle, compression, modification des contrastes,…), [il] sait reconnaître l’image originale parmi les images qui en sont issues”.

La liste des possibilités d’Hérisson est vraiment très longue : ainsi, cela doit également autoriser “la détection et classification d’objets contenus dans une image (personne, véhicule, meuble…). Cette fonctionnalité sera évaluée avec les méthodologies utilisées dans les évaluations Techno-Vision/ImagEval, tâche n°4, PASCAL VOC (Visual Object Classes challenge), et CLEAR (tâche “2D Face détection”)”. Au niveau des fichiers vidéos, Hérisson “permet la détection et l’identification de personne dans une vidéo. Cette fonctionnalité sera évaluée avec la méthodologie utilisée dans l’évaluation CLEAR (tâche “person identification”)”.

Du côté des textes, l’armée souhaite pouvoir reconnaitre les caractères, détecter du texte, des colonnes, des zones de texte, des tableaux, des formats de caractères et de polices, des graphiques… mais également des éléments spécifiques, comme le contexte d’une image : photo en couleur ou noir et blanc, reproduction artistique, visage, scène intérieur/extérieur, ville/campagne/bord de mer/montagne/…, jour ou nuit, présence ou absence d’objets manufacturés ou d’artefacts d’origine humaine, …).

Enfin, une fois la masse immense de données stockées, l’exploration et la recherche doivent se faire grâce à des fonctionnalités avancées et performantes qui doivent permettre à minima de préciser une combinaison booléenne des paramètres suivants :

  • Date (avec intervalle),
  • Taille (avec un intervalle),
  • Type de document (texte, image, graphique, vidéo, audio),
  • Format de fichier,
  • URL d’origine.
  • Les propriétés du contenu :
  • L’exclusion de mot,
  • Une expression exacte,
  • La combinaison booléenne entre les mots-clés,
  • Les mots commençant par une chaîne de caractères donnée,
  • Distance entre les mots dans le texte,
  • Expression régulière,
  • Localisation dans la page (titre / corps de texte),
  • Une écriture phonétique,
  • Une orthographe approchée,
  • Dans une page (URL) précise,
  • Dans les pages contenant un lien précis.

Le cahier des charges prend ainsi un exemple pour le moins concret :

Le système offre la possibilité de reconnaître l’entité elle-même de plusieurs manières différentes :
• Soit par mention explicite. Exemple : « Nicolas Sarkozy »,
• Par mention relative (”le nouveau président français”), par mention partielle (”Monsieur Sarkozy”, “le Président”), par anaphore (”il”, “celui-ci”), par surnom (”Sarko”).

Partagez cet article !
  • Digg
  • del.icio.us
  • Facebook
  • Mixx
  • Google
  • Live
  • Ping.fm
  • Scoopeo
  • Technorati
  • Tumblr
  • TwitThis
  • Wikio
  • MySpace

Un commentaire

    TrackBacks / PingBacks

    1. [...] audio, texte, image…) ou le procotole (HTTP, FTP, POP3…). Révélé par PC Inpact, cet appel offres a logiquement provoqué quelques réactions [...]

    Laisser un commentaire

    Version Audio
    Recharger l'image
    Sponsors