Image de couverture pour Neurons & Peppers #4 : VLM & PDF
Image de couverture pour Neurons & Peppers #4 : VLM & PDF
Avatar for datacraft
Présenté par
datacraft
Le club des data scientists, chercheurs et ingénieurs en IA
Organisé par

Neurons & Peppers #4 : VLM & PDF

Inscription
Validation requise
Votre inscription nécessite la validation de l'hôte.
Bienvenue ! Pour participer à l'événement, veuillez vous inscrire ci-dessous.
À propos de l'événement

Pour cette 4ème édition nous invitons le Lab Pulsia du groupe La Poste à présenter leur benchmark de modèles de vision pour l’analyse de documents ainsi que leur librairie open-source vlmparse dédiée à la conversion et à l’évaluation de PDF via des VLM.

Benchmarking Vision-Language Models for French PDF-to-Markdown Conversion

Les grands modèles de vision savent désormais lire vos PDF mieux que jamais — mais sait-on encore les évaluer correctement ? Dans cette présentation, nous verrons comment nous avons construit un benchmark de documents français difficile même pour les meilleurs modèles et pourquoi les métriques classiques comme la distance d'édition deviennent trompeuses quand les modèles dépassent un niveau. Nous présenterons une approche par tests unitaires ciblés, une comparaison de 15 modèles propriétaires et déployables localement démontrant les progrès et les limites persistantes des meilleurs modèles actuels.

article disponible sur:

https://arxiv.org/abs/2602.11960

dataset disponible sur:

https://huggingface.co/datasets/pulsia/fr-bench-pdf2md

vlmparse: A unified wrapper for Vision Language Models (VLM) and OCR solutions to parse PDF documents into Markdown.

Convertir des PDF en Markdown avec un VLM, c'est simple — jusqu'à ce qu'on veuille tester dix modèles différents, gérer des serveurs Docker locaux, paralléliser les appels et visualiser les résultats. C'est exactement pour éviter ce travail répétitif que nous avons développé vlmparse : une librairie Python unifiée qui expose la même interface pour des modèles aussi différents que Gemini, GPT, LightOnOCR ou MinerU, avec déploiement automatique des serveurs locaux, traitement concurrent haute performance, format de sortie unifié et un outil de visualisation Streamlit intégré. Dans cette présentation, nous verrons comment l'outil est structuré et comment vous pouvez l'intégrer en quelques lignes dans vos propres pipelines documentaires.

bibliothèque disponible sur:

https://github.com/ld-lab-pulsia/vlmparse

Lieu
55 Rue La Boétie
75008 Paris, France
55 rue La Boétie, 75008 Paris
Avatar for datacraft
Présenté par
datacraft
Le club des data scientists, chercheurs et ingénieurs en IA
Organisé par