Soutenance - Danrun CAO

Soutenance de thèse - Danrun CAOEn vue de l’obtention du grade de Docteur en Sciences et Technologies de l’Information et de la Communication, spécialité « Informatique et Architectures Numériques » Danrun CAO, présentera ses travaux intitulés : « Extraction d’informations dans des documents hétérogènes multilingues et visualisation interactive pour l’exploitation d’une base de données mondiale d’appels d’offres ", à Vannes le 30 janvier.

Résumé

Extraction d’informations dans des documents hétérogènes multilingues et visualisation interactive pour l’exploitation d’une base de données mondiale d’appels d’offres.

L'extraction d'information est une tâche centrale du domaine de TAL. Il s'agit d'une branche de la fouille de texte qui consiste à traiter des données textuelles brutes et en sortir les informations spécifiques pour des tâches définies. Parmi les sous-tâches les plus courantes figure la reconnaissance d'entités nommées (REN), i.e. la détection automatique des entités nommées dans un texte non structuré ou semi structuré.

Cette thèse s'est déroulée dans le cadre d'un contrat CIFRE financé par l'entreprise OctopusMind. Elle a une vaste base de données des marchés publics mondiaux. L'objectif central de cette thèse est de valoriser et enrichir cette base de données, et d'en extrayant les informations stratégiques pertinentes pour l'entreprise et pour ses clients.

Pour y parvenir nous avons réalisé une recherche des méthodes d'extraction d'information et ensuite développé des outils adaptés aux besoins de l'entreprise. Nous exploitons en particulier deux tâches : la détection de la reconduction des contrats et la détection des produits. Nous mettons l'accent notamment sur les méthodes de la REN, car elles correspondent le mieux aux besoins d'OctopusMind.

Les travaux sont présentés sous quatre chapitres. Le chapitre un présente une enquête des méthodes existantes de la REN. Cette analyse nous aide à orienter nos choix techniques pour les travaux suivants. Le chapitre deux se concentre sur les jeux de données. Après avoir passé en revue les jeux de données existants en REN, nous décrivons la création de jeux de données adaptés à nos besoins. Le chapitre trois traite de l'exploitation de la REN générique, et enfin le chapitre quatre détaille les travaux applicatifs.

Mot clés : Apprentissage automatique, Apprentissage profond, LLM, Fouille de texte, Extraction d'information, Marché public

Abstract

Information extraction from heterogeneous multilingual documents and interactive visualization for the exploitation of a global tender database.

Information extraction is a central task in the field of NLP. It is a branch of text mining that involves processing raw textual data to extract specific information for defined tasks. There are many types of information, appearing in various forms.

One of the most common subtasks is Named Entity Recognition (NER). A named entity is defined as a nominal phrase that refers to a real-world object in a precise and unique manner. The task of NER consists of the automatic detection of the named entities in unstructured or semi-structured text.

This thesis was carried out as part of a CIFRE contract funded by the company OctopusMind. It has a vast database of global public procurement. The primary objective of this thesis is to enhance and enrich this database by extracting strategic information relevant to the company and its clients.

To achieve this, we conducted research on information extraction methods and then developed tools tailored to the company’s needs. We particularly focused on two tasks in the public procurement domain: contract renewal detection and product detection. Our works were centered around NER methods, as they best align with the tasks at OctopusMind.

The work is presented across four chapters. Chapter one presents a survey of existing methods for NER.  This analysis helped guide our technical choices for subsequent work. Chapter two focuses on datasets. After reviewing some existing NER datasets, we describe the creation of datasets tailored to our needs, whether for generic or industrial NER specific to OctopusMind. Chapter three addresses the exploitation of generic NER and finally, chapter four details the work on applied NER.

Keywords: Machine learning, Deep learning, LLM, Text mining, Information extraction, Public procurement

Membres du jury

  • Pr Yannick TOUSSAINT, rapporteur, Professeur des Universités, Université de Lorraine, LORIA CNRS UMR 7503
  • Pr Emmanuel MORIN, rapporteur, Professeur des Universités, Nantes Université, LS2N CNRS UMR 6004
  • Pr Pierre-François MARTEAU, directeur de thèse, Professeur des Universités, Université Bretagne Sud, IRISA CNRS UMR 6074
  • Dr Nicolas BÉCHET, encadrant de thèse, Maître de Conférences, Université Bretagne Sud, IRISA CNRS UMR 6074
  • Pr Pascale SÉBILLOT, membre du jury, Professeure des Universités, Université de Rennes, IRISA CNRS UMR 6074
  • DR François YVON, membre du jury, Directeur de Recherche, Sorbonne Université, ISIR CNRS UMR 7222

Membre du jury invité

  • Dr Oussama AHMIA, Octopusmind

Informations pratiques

Jeudi 30 janvier à 14h

Amphithéâtre

École d'Ingénieurs ENSIBS 

Vannes

 

 

Crédit photographique : ©Université Bretagne Sud. Service Communication