Ещё один бенчмарк, теперь от Cognition (авторов Devin) — FrontierCode ( блог )
Компания Cognition, известная своим ИИ-агентом Devin, представила новый бенчмарк FrontierCode. Его цель — оценить способность искусственного интеллекта генерировать программный код, который может быть легко интегрирован в существующие репозитории.
Ключевой аспект FrontierCode — проверка, насколько код, написанный ИИ-агентом, соответствует стандартам репозитория и готов к слиянию мейнтейнером. Оцениваются такие параметры, как качество тестов (их адекватность и способность выявлять ошибки), уместность комментариев и общая чистота кода. Расширенная версия бенчмарка включает 150 заданий.
💡 В чем бизнес-ценность?
Подобные бенчмарки способствуют развитию ИИ-инструментов для автоматизации разработки ПО, повышая их надежность и эффективность. Для девелопмента это означает потенциальное сокращение времени на создание и ревью кода, улучшение качества цифровых решений и оптимизацию затрат на поддержку, что важно для сложных проектов в строительной отрасли.
Первоисточник
Читать оригинал