Ещё один бенчмарк, теперь от Cognition (авторов Devin) — FrontierCode ( блог )

Сиолошная 09.06.2026 NEWS

IT.02 — Развитие и эксплуатация бизнес-приложений

Компания Cognition, известная своим ИИ-агентом Devin, представила новый бенчмарк FrontierCode. Его цель — оценить способность искусственного интеллекта генерировать программный код, который может быть легко интегрирован в существующие репозитории. Ключевой аспект FrontierCode — проверка, насколько код, написанный ИИ-агентом, соответствует стандартам репозитория и готов к слиянию мейнтейнером. Оцениваются такие параметры, как качество тестов (их адекватность и способность выявлять ошибки), уместность комментариев и общая чистота кода. Расширенная версия бенчмарка включает 150 заданий. 💡 В чем бизнес-ценность? Подобные бенчмарки способствуют развитию ИИ-инструментов для автоматизации разработки ПО, повышая их надежность и эффективность. Для девелопмента это означает потенциальное сокращение времени на создание и ревью кода, улучшение качества цифровых решений и оптимизацию затрат на поддержку, что важно для сложных проектов в строительной отрасли.

Первоисточник

Читать оригинал