Neurons & Peppers #4 : VLM & PDF

Name: Neurons & Peppers #4 : VLM & PDF
Start: 2026-05-26T18:00:00.000+02:00
End: 2026-05-26T20:00:00.000+02:00
Location: 55 Rue La Boétie

datacraft

55 Rue La Boétie

Paris, Île-de-France

Validation requise

Votre inscription nécessite la validation de l'hôte.

Bienvenue ! Pour participer à l'événement, veuillez vous inscrire ci-dessous.

Il vous sera demandé de vérifier la propriété du token avec votre portefeuille.

Vous avez un code d'accès ? Vous pouvez .

À propos de l'événement

Pour cette 4ème édition nous invitons le Lab Pulsia du groupe La Poste à présenter leur benchmark de modèles de vision pour l’analyse de documents ainsi que leur librairie open-source vlmparse dédiée à la conversion et à l’évaluation de PDF via des VLM.

Benchmarking Vision-Language Models for French PDF-to-Markdown Conversion

Les grands modèles de vision savent désormais lire vos PDF mieux que jamais — mais sait-on encore les évaluer correctement ? Dans cette présentation, nous verrons comment nous avons construit un benchmark de documents français difficile même pour les meilleurs modèles et pourquoi les métriques classiques comme la distance d'édition deviennent trompeuses quand les modèles dépassent un niveau. Nous présenterons une approche par tests unitaires ciblés, une comparaison de 15 modèles propriétaires et déployables localement démontrant les progrès et les limites persistantes des meilleurs modèles actuels.

article disponible sur:

https://arxiv.org/abs/2602.11960

dataset disponible sur:

https://huggingface.co/datasets/pulsia/fr-bench-pdf2md

vlmparse: A unified wrapper for Vision Language Models (VLM) and OCR solutions to parse PDF documents into Markdown.

Convertir des PDF en Markdown avec un VLM, c'est simple — jusqu'à ce qu'on veuille tester dix modèles différents, gérer des serveurs Docker locaux, paralléliser les appels et visualiser les résultats. C'est exactement pour éviter ce travail répétitif que nous avons développé vlmparse : une librairie Python unifiée qui expose la même interface pour des modèles aussi différents que Gemini, GPT, LightOnOCR ou MinerU, avec déploiement automatique des serveurs locaux, traitement concurrent haute performance, format de sortie unifié et un outil de visualisation Streamlit intégré. Dans cette présentation, nous verrons comment l'outil est structuré et comment vous pouvez l'intégrer en quelques lignes dans vos propres pipelines documentaires.

bibliothèque disponible sur:

https://github.com/ld-lab-pulsia/vlmparse

Lieu

55 Rue La Boétie

75008 Paris, France

55 rue La Boétie, 75008 Paris

Présenté par

datacraft

Le club des data scientists, chercheurs et ingénieurs en IA

Organisé par