

Projection-débat : Manipulation et falsification d'alignement dans les IA
Quels comportements de manipulation et de tromperie observe-t-on dans certains modèles d'IA, en particulier les modèles de langage ? Ces comportements changent-ils quand ces modèles comprennent qu'ils sont testés ?
🎥 Lors de cet événement, nous verrons la vidéo Manipulation et falsification d'alignement dans les LLM du youtubeur Mr. Phi, puis nous discuterons en petits groupes des sujets abordés lors de la projection.
🤖 Si les mécanismes de persuasion et de tromperie dont font preuves certains modèles d'IA vous intéressent, cet évènement est fait pour vous ! Que vous soyez déjà sensibilisé·e à ces enjeux ou simplement curieux·se — pas besoin d'avoir des connaissances préalables sur le sujet pour venir.
🔑 Au programme :
Projection de la vidéo (vulgarisation accessible, pas besoin d’être expert·e)
Discussion en petits groupes : questions, réactions, désaccords, implications
Mise en commun : quels points vous semblent les plus importants, et pourquoi ?
[optionnel] Si vous souhaitez continuer les conversations après l'évènement, il sera possible d'aller dîner dans un restaurant dans le quartier (à la charge des participant·es)
💡 C’est qui, Altruisme Efficace Paris ?
AE Paris est la branche parisienne d’Altruisme Efficace France, une association qui aide les individus à orienter leurs ressources (temps, carrière, dons) vers les actions les plus bénéfiques pour le monde, en organisant des événements, en partageant du contenu et en proposant du conseil individuel.
L’altruisme efficace est un mouvement et une communauté qui cherchent à identifier les moyens les plus efficaces de relever les grands défis de notre époque, à travers nos dons, nos choix professionnels et l’usage de notre temps.
❓ Des questions ?
Vous pouvez contacter Madeleine, qui organise cet évènement : [email protected]
NB : Mr. Phi ne sera pas présent lors de l'évènement.