Équipe Images et Contenus (IC) : THOMAS Eliott

Doctorant

Mots clés : Document AI, Table Extraction, Deep Learning, Semi-Supervised Learning, Multimodal Learning

Publié le

Thématiques de recherche : Ma recherche porte sur le développement de techniques avancées d'extraction et de vérification automatique des documents électroniques, particulièrement dans le domaine des documents financiers et administratifs. Dans le cadre d'une thèse CIFRE avec l'entreprise Yooz, je me concentre sur l'extraction intelligente des tableaux, qui représentent à la fois les éléments les plus riches en information et les plus difficiles à analyser correctement. Je contribue au développement de nouvelles architectures et méthodes basées sur le deep learning pour améliorer l'analyse des tableaux dans les documents. Face aux contraintes industrielles de confidentialité et de rareté des données annotées, j'implémente des stratégies d'apprentissage semi-supervisé et d'augmentation de données pour maximiser l'utilisation des données non étiquetées. Mon travail explore également l'optimisation des architectures existantes pour un meilleur équilibre entre performance et rapidité d'exécution dans un contexte industriel. L'objectif est de concevoir des solutions robustes et adaptatives qui puissent être directement intégrées dans les produits de l'entreprise partenaire, tout en contribuant à l'avancement de l'état de l'art dans l'analyse de documents structurés complexes.

Points forts des activités de recherche : Mes travaux de recherche en intelligence artificielle se concentrent sur l'analyse automatique de documents d'entreprise, avec un focus particulier sur l'extraction d'informations tabulaires - un défi majeur dans le domaine de la dématérialisation des processus financiers et administratifs. Dans le cadre de ma thèse CIFRE avec Yooz, j'ai développé RAPTOR, une méthode innovante qui améliore significativement les performances de détection et d'analyse des tableaux dans les documents complexes. Cette approche intègre des modules post-traitement spécifiques qui corrigent efficacement les erreurs typiques des modèles existants, démontrant l'importance d'une adaptation fine aux spécificités des documents d'entreprise. En parallèle, mes expérimentations avec des architectures allégées comme YOLOv9 ont révélé qu'un modèle CNN plus léger peut offrir un excellent équilibre entre précision et vitesse d'exécution, répondant ainsi aux contraintes industrielles de performance. Une part importante de mes recherches est consacrée au développement de stratégies d'apprentissage semi-supervisé basées sur le pseudo-étiquetage, visant à réduire la dépendance aux données annotées - particulièrement précieuses dans un contexte où les documents contiennent souvent des informations confidentielles limitant la constitution de jeux de données publics. J'explore également le potentiel des modèles de langage (LLM) et des modèles de langage multimodaux (VLM) pour l'extraction et la compréhension sémantique des tableaux, ouvrant de nouvelles perspectives pour l'analyse contextuelle de ces structures complexes, comme les cellules fusionnées ou les tableaux multi-pages. La dimension applicative de mes recherches est particulièrement prononcée grâce au cadre CIFRE, permettant une validation continue des résultats en conditions réelles et une intégration rapide des avancées dans des produits commercialisés. Cette synergie entre recherche académique et besoins industriels garantit un impact concret et immédiat de mes travaux, tout en contribuant à l'avancement des connaissances dans le domaine du Document AI.