Le projet HERISSON… – L’Aviseur international


En ces temps d’HADOPI, d’EDVIGE ou de CRISTINA, un autre projet gouvernemental se révèle au grand jour : HERISSON. Le cahier des charges, du moins la liasse qui est présentée comme telle, laisse entrevoir un système de surveillance de grande ampleur sur tout ce qui transite sur les réseaux.

Système Hérisson : La France se pique au réseau Echelon
 Aye !

Droit

Mise à jour : un commentaire sous cet article de Rewriting parlait déjà d’Hérisson  en juillet  2008, suivi d’un autre papier d’Aliboron, en août 2008.

—————-

fichier espionEn ces temps d’HADOPI, d’EDVIGE ou de CRISTINA, un autre projet gouvernemental  se révèle au grand jour : HERISSON. Le cahier des charges, du moins la liasse qui est présentée comme telle, laisse entrevoir un système de surveillance de grande ampleur sur tout ce qui transite sur les réseaux. Analyse.

La France serait-elle en voie de mettre en place l’équivalent d’un réseau Échelon dans l’hexagone pour surveiller et cataloguer tous les faits et gestes de tous les médias, radio, TV et internet compris ? Tout porte à le croire, selon une liasse de documents qui décrit le Système Hérisson, éponyme d’« Habile Extraction du Renseignement d’Intérêt Stratégique à partir de Sources Ouvertes Numérisées ». On pourra en découvrir la totalité sur ce lien Google Doc (le système Herisson.)

Selon ces documents qui nous ont été présentés comme étant le cahier des charges de ce système et daté de l’année passée, Hérisson tend vers la mise en place d’un système de collecte automatisée et de recherche d’informations dignes d’un scénario de film d’espionnage ou de Matrix. La paternité du dossier est attribuée à la DGA, Délégation Générale pour l’Armement dont la mission consiste au suivi et à la validation des moyens de défense militaires et territoriales.

Dans les références de ce fameux des charges, classées dans la rubrique « Biblio » il est ainsi fait mention de plusieurs textes officiels dont l’instruction générale interministérielle sur la sécurité des systèmes d’information « qui font l’objet d’une classification de défense pour eux-mêmes ou pour les informations traitées » ( n°900/SGDN/SSD/DR ou 900/DISSI/SCSSI/DR du 20 juillet 1993), texte qui gère le secret défense. On trouve encore mention de diverses directives ou instructions relatives à la protection contre les signaux parasites compromettants.

Un appel d’offres lancé en 2007

Chose certaine : le système est à rattacher à un appel d’offres lancé en 2007 par le ministère de la défense, la délégation générale pour l’armement, la direction des systèmes d’armes et le service centralisé des achats. Le marché public a pour objet « la Conception, réalisation et évaluation d’une plate-forme dédiée au traitement des sources ouvertes pour le renseignement militaire d’intérêt stratégique ». L’appel d’offres a une durée minimale de 36 mois à compter de la notification du marché et est en phase avec ce cahier des charges.

systeme herisson
IRC, Newsgroup, FTP, P2P, HTTP, etc.

Dans ce fameux cahier des clauses techniques particulières (CCTP), on découvre ainsi que le système vise à glaner à peu près tout ce qui passe sur les réseaux aux fins notamment de renseignement militaire d’intérêt stratégique. On peut le voir dans le tableau ci-dessous que par exemple tous les contenus qui transitent sur les chats IRC, les mailings listes, les forums, les réseaux sociaux, les Newsgroups, les flux RSS, les blogs, podcasts, et les systèmes P2P feront l’objet d’une surveillance approfondie, avec une priorité soit « importante » soit « primordiale » selon les flux. La plate-forme est destinée à être installée au centre d’expertise parisien (CEP) d’Arcueil indiquent les pages.

Mais c’est surtout dans la section « Exigences » qu’on apprécie l’ampleur du système Hérisson. Il est calibré ainsi pour accéder à n’importe quel contenu ((texte, image, son et vidéo), quel que soit les langages utilisés « HTML, PHP, ASP… ) ») en prenant en compte « la problématique des liens «cachés» en extrayant les liens a minima dans les  applications flash contenues dans une page, les codes Java Script ». Hérisson sait aussi collecter et stocker le contenu complet d’un site FTP ou collecter simplement son arborescence, sait télécharger les fichiers disponibles sur un réseau P2P.

Tous les types de fichiers

Notre curieux mammifère poursuit sa longue route en ayant « la capacité de collecter des données via les protocoles : MMS (flux vidéo type Windows Media Player) RSTP (flux vidéo type Real Player) POP3 (messagerie) », et donc des emails. Pour faire bonne mesure, « le système HÉRISSON a la capacité de gérer un éventail large, non restreint et évolutif de formats de documents de type : Vidéo (AVI, MPG, MOV, MP4, Real, FLV, OGM …) ; Audio (WAV, MP3, OGG…) ; Image (BMP, JPG, TIFF…) ; Texte (HTML, MHTML, Open Document, Open XML/Microsoft Office, Adobe PS/PDF, Flash).

L’œuvre d’observation et de collecte « prend [aussi] en compte la problématique du Web invisible en proposant des moyens, méthodes et outils, permettant l’accès à ces sous-ensembles du Web Invisible ». Le tout est archivé et chaque mise à jour « d’un gisement Web, FTP ou NMTP » fait l’objet d’un stockage différencié pour tenir compte des évolutions des contenus amassés.

Le système s’attaque aussi bien au web qu’aux radios et aux TV. Ainsi, les langues des documents audio devant être identifiées dans le système HÉRISSON sont :

[P]rimordial : le français, l’anglais, l’arabe, le russe, le farsi.
[I]mportant ; l’espagnol, l’allemand, , le chinois mandarin, l’italien,k le serbo-croate, l’hindi, le japonais, le coréen, le turc, l’ukrainien, l’hébreu, l’urdu, l’albanais, le macédonien.
[S]ouhaitable : le néerlandais, le grec, le portugais, le polonais.
 
Pour les images, Hérisson permet l’accès aux caractéristiques brutes et aux métadonnées d’une image, « comme le type et les caractéristiques d’encodage, la résolution, le taux de compression, les champs EXIF, les statistiques usuelles liées à l’image histogramme, moments centrés…), … il note aussi la provenance de l’image (URL pour les images obtenues via Internet) et éventuellement le nom du photographe ». Hérisson « reconnaît les images transformées » et « lorsqu’une photographie a subi des transformations (rotations, changement d’échelle, compression, modification des contrastes,…), [il] sait reconnaître l’image originale parmi les images qui en sont issues ».

Pour pousser un peu plus loin l’excavation des données glanées, Hérisson permet « la détection et classification d’objets contenus dans une image (personne, véhicule, meuble…). Cette fonctionnalité sera évaluée avec les méthodologies utilisées dans les évaluations Techno-Vision/ImagEval, tâche n°4, PASCAL VOC (Visual Object Classes challenge), et CLEAR (tâche « 2D Face détection ») ». Sur les vidéos, HÉRISSON « permet la détection et l’identification de personne dans une vidéo. Cette fonctionnalité sera évaluée avec la méthodologie utilisée dans l’évaluation CLEAR (tâche « person identification ») »
 
Reconnaissance de caractères, faciale et d’objets
 

S’ajoutent à la [très] longue liste, la reconnaissance des caractères (détection du texte, détection des colonnes, détection de zones de texte, détection de tableaux, détection de formats de caractères et de polices, détection de graphiques, etc.), la détection d’éléments « de contexte d’une image (photo couleur, photo noir&blanc, reproduction artistique, visage, scène intérieur/extérieur, ville/campagne/bord de mer/montagne/…, jour/nuit; présence/absence d’objets manufacturés où d’artefacts d’origine humaine, …) »…

Des données exploitées par un moteur multicritère

Une fois la masse de données stockées, l’exploitation se fait avec une fonction de recherche avancée (ou multicritère) qui permet a minima de préciser une combinaison booléenne des paramètres suivants:

Date (avec intervalle),
Taille (avec un intervalle),
Type de document (texte, image, graphique, vidéo, audio),
Format de fichier,
URL d’origine.
Les propriétés du contenu :
L’exclusion de mot,
Une expression exacte,
La combinaison booléenne entre les mots-clés,
Les mots commençant par une chaîne de caractères donnée,
Distance entre les mots dans le texte,
Expression régulière,
Localisation dans la page (titre / corps de texte),
Une écriture phonétique,
Une orthographe approchée,
Dans une page (URL) précise,
Dans les pages contenant un lien précis.
Exemple piquant, « Le système offre la possibilité de reconnaître l’entité elle-même de plusieurs manières différentes: Soit par mention explicite. Exemple : « Nicolas Sarkozy », Par mention relative (« le nouveau président français »), par mention partielle (« Monsieur Sarkozy », « le Président »), par anaphore (« il », « celui-ci »), par surnom (« Sarko ») ».

Nous devrions avoir plus d’informations prochainement sur ce système…

Rédigée par Marc Rees le jeudi 19 mars 2009 à 15h38

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s