Cover Image for Можно ли верить SWE бенчмаркам в 2026? Прожарка бенчмарков от профи. DeepSWE, SWE rebench v2, Terminal Bench 2.1...
Cover Image for Можно ли верить SWE бенчмаркам в 2026? Прожарка бенчмарков от профи. DeepSWE, SWE rebench v2, Terminal Bench 2.1...
26 Went

Можно ли верить SWE бенчмаркам в 2026? Прожарка бенчмарков от профи. DeepSWE, SWE rebench v2, Terminal Bench 2.1...

Hosted by Rodion Mostovoi
Register to See Address
Registration
Past Event
Welcome! To join the event, please register below.
About Event

Друзья, вы все еще верите бенчмаркам? Я вот все меньше. Наверняка уже все видели DeepSWE бенчмарк - пожалуй, наиболее противоречивый бенчмарк за последнее время, причем с полярными мнениями: для одних это единственный объективный бенчмарк, для других он абсолютно не имеет отношения к реальности. В общем, я подумал, что будет интересно разобраться глубже в современных бенчмарках - обсудить их достоинства и недостатки, чтобы понимать есть ли вообще смысл обращаться внимание на SWE бенчмарки в 2026-м. Отдельно разберем обновленный SWE-rebench v2.
На митап мы позвали, вероятно, наиболее подкованного человека из русскоязычного пространства - Ибрагима Бадертдинова, он один из ключевых авторов бенчмарка SWE-rebench, который как раз недавно обновили. А еще, Ибрагим автор канала @c0mmit. А неудобные вопросы будет задавать горячо любимый друг нашего канала Максим Этихлид.

Будем обсуждать важность harness, утечки, бенчхакинг, важность флоу проекта (AGENTS.md, верификации и т. д.) и, конечно, методологии.

26 Went