Membres

Offre de stage

Les chercheurs laissent aujourd’hui derrière eux des archives numériques : comment les conserver et les traiter ?

Structuration et établissement de filiations entre des données hétérogènes : le
cas des archives de Jacques Derrida

Contexte
L’Institut des Textes et Manuscrits Modernes (ITEM, UMR 8132 ENS-CNRS) et le
LIP6 (UMR 7606 Sorbonne Université - CNRS) développent un programme
d’exploitation des archives numériques du philosophe Jacques Derrida déposées
à l’IMEC (disques durs et supports de sauvegarde divers, dont plus de 500
disquettes). L’objectif du projet est d’adapter la critique génétique à
l’environnement technologique du XXIe siècle en exploitant les documents
nativement numériques (« born digital ») d’un créateur. La critique génétique
s’est développée à partir des traces manuscrites du processus créateur
conservées dans les brouillons des écrivains. Depuis une trentaine d’années,
on assiste au remplacement progressif de l’écriture manuscrite par l’écriture
numérique, et les archives que les écrivains confient aux bibliothèques sont
de plus en plus constituées d’ordinateurs et de supports numériques.
Préserver, décrire et exploiter ces nouvelles collections numériques constitue
un enjeu majeur, tant pour les institutions de conservation que pour les
chercheurs.
En utilisant les outils d’exploration développés par l’informatique
forensique, que l’on appelle aussi la criminalistique numérique, et, plus
généralement, l’IA, le projet a l’ambition d’élaborer une codicologie du XXIe
siècle adaptée aux traces nativement numériques stockées dans les disques
durs.
Dans cette perspective, le corpus des archives numériques de Jacques Derrida
est particulièrement intéressant. D’une part, Derrida est un témoin exemplaire
de la mutation numérique qui se met en place à partir du milieu des années
1980 (il avait plus de 50 ans lorsqu’il a fait l’acquisition de son premier
ordinateur en 1985), ce qui permet d’observer à l’état natif le bouleversement
des pratiques d’écriture induit par ce qu’il appelle les « machines à
traitement de texte ».
D’autre part, par crainte d’une disparition accidentelle de données (par suite
d’un cambriolage ou d’une coupure de courant), il a multiplié les copies des
textes à la rédaction desquels il travaillait. De ce fait, l’archive numérique
contient une masse de dossiers et de fichiers portant le même nom mais n’ayant
pas forcément le même contenu. Cette redondance est disséminée aussi bien à
l’intérieur d’un support donné (on trouve des sous-arborescences partiellement
identiques en différents points de l’arborescence d’ensemble) qu’entre les
différents supports.
Attendus du stage
C’est ce second volet qui fait l’objet du stage proposé. Son objectif est de
mettre de l’ordre dans ce buisson foisonnant, en établissant un inventaire des
différents fichiers présents dans l’archive, puis en structurant ces données à
l’aide d’un graphe des différents états représentatifs du processus d’écriture
et en le visualisant. Pour un texte final donné, ceux-ci devront prendre
notamment en compte les emplacements physiques des fichiers correspondants,
leurs noms, leurs caractéristiques temporelles (dates de création et de
modification, absolues et relatives), les liens de parenté des fichiers entre
eux (jumeaux, frères, antécédents ou successeurs), leur place dans le
déroulement temporel de l’écriture induite de différentes façons, par exemple
avec les techniques algorithmiques mises en œuvre pour construire des arbres
phylogénétiques.

Compétences requises :
• Intérêt pour les textes
• Bonne connaissance d’un langage de programmation objet (l’idéal serait
un connaissance de Python, mais la maîtrise de Java ou d’un autre langage
objet suffirait)
• Connaissance de base en algorithmique
• Des compétences dans les techniques de traitement du langage naturel
seraient un plus
Encadrement et conditions financières
Il s’agit d’un projet interdisciplinaire conduit conjointement par l’ITEM et
le LIP6. L’encadrement sera assuré pour l’ITEM, en particulier par Aurèle
Crasson et Jean-Louis Lebrave, et pour le LIP6, par Jean-Gabriel Ganascia.
Le candidat percevra une gratification d’environ 480 € / mois. La durée du
stage est de 3 mois minimum pouvant se prolonger jusqu’à 6 mois.

Lieu du stage
Équipe ACASA, Laboratoire Lip 6, 4 Place Jussieu, 75005 Paris

Contact : Jean-Gabriel Ganascia (Professeur, Sorbonne Université) :
jean-gabriel.ganascia@lip6.fr
01 44 27 37 27

Un message, un commentaire ?

Qui êtes-vous ?
Votre message
  • Pour créer des paragraphes, laissez simplement des lignes vides.