

První Evals.cz meetup
Benchmarky modelů jsou všude. Ale když nasazujete AI do produktu, zajímá vás něco jiného: funguje to u vás, s vašimi daty, pro vaše uživatele?
evals.cz je nový pražský meetup pro lidi, kteří AI produkty staví — a potřebují je měřit.
Co čekat
3 krátké přednášky + diskuze
Praktické zkušenosti z praxe
Žádné sales pitche
Převážně anglicky
Témata
RAG kvalita · regrese v produkci · eval pipelines v CI/CD · human-in-the-loop · metriky a metodologie
Pro koho
ML/AI engineers, backend vývojáři integrující LLMs, data scientists, product manažeři, AI researchers — i zvědaví začátečníci.
Speakers
Šimon Podhajský | When (& How) to Start Writing Evals
Most teams approach LLM evaluation like test-driven development: write the tests first, then build. But LLMs have infinite surface area for failure — you can't anticipate what will break. This talk argues for a different approach: ship first, observe failures, then build evals for patterns you've actually discovered.
Jakub Kopecký | Evals in MCP Development
This talk will cover Apify's development of the Model Context Protocol (MCP) server and the issues encountered along the way. It will explain how evals helped keep the server functional with the latest models and addressed the challenges of managing thousands of tools from the Apify Marketplace. It will also highlight the evolution of the evals setup over time and its limitations.
Jakub Žovák | Using Evals for DSPy Optimization
This talk will provide an introduction to prompt optimization and DSPy, including an overview of optimizers (OPRO, GEPA). Attendees will learn about choosing evals and setting up DSPy pipeline. The session will conclude with a DSPy demo with MLFlow integration.
Chcete přednášet? Napište na [email protected].