Perreaux, Nicolas: De l’accumulation à l’exploitation : propositions et expériences pour l’indexation et l’utilisation des bases diplomatiques numérisées

Posted by GV in Linguistical Statistics, Paper, Proposals, Thursday |

La masse de données accumulées à travers la croissante numérisation des éditions anciennes ne demande qu’à être exploitée. Depuis maintenant plusieurs décennies, les médiévistes disposent en effet de bases de données numérisées remarquables, en particulier en diplomatique, dont le contenu est désormais propre à révolutionner nos connaissances concernant le Moyen Âge. Pour autant, ainsi que le faisait encore récemment remarquer Benoît-Michel Tock1, force est de constater que l’exploitation de ces vastes corpus reste encore largement à faire, les entreprises dans le domaine restant pour le moment embryonnaires. Dans un premier temps, cette communication sera donc l’occasion de s’interroger sur l’origine des blocages structurels qui empêchent encore à l’heure actuelle l’utilisation massive de ces ressources. On se propose ainsi de présenter une thèse en cours2, et tout d’abord la méthode qui a permis de regrouper près de 150 000 chartes au sein d’un ensemble unique. Surtout, on présentera un dispositif d’indexation automatique, basé sur le Data / Text-mining, ainsi qu’une démarche visant à gérer plus efficacement le problème des fourchettes chronologiques dans ces bases. Les méthodes de classification automatique (catégorisation / clustering), fondées sur l’intelligence artificielle, permettent désormais d’affecter certaines catégories – bulles, diplômes, notices, etc. – de manière automatique. De la même façon, on peut imaginer que cette méthode est extensible à la problématique des chartes non datées. Néanmoins, afin de rester le plus concret possible, on présentera surtout une série d’expériences statistiques d’ores-et-déjà réalisées, concernant la dynamique de la production diplomatique à l’échelle européenne, expériences qui visent à mettre en lumière les liens entre les différentes zones productrices de documents. On aura recours à plusieurs outils, empruntant tant à la statistique qu’à la linguistique de corpus, aux analyses factorielles qu’aux analyses en composantes principales. Le but de cette démarche globale étant bien entendu de faire apparaître des structures restées invisibles à l’oeil nu.

Nicolas Perreaux
UMR 5594 ARTeHIS – Université de Bourgogne
eMail: nicolas.perreaux@orange.fr

One Response to Perreaux, Nicolas: De l’accumulation à l’exploitation : propositions et expériences pour l’indexation et l’utilisation des bases diplomatiques numérisées

  1. Pingback: Digital Diplomatics 2011 – Programma – Associazione per l'Informatica Umanistica e la Cultura Digitale