Бенчмарки ИИ сломаны. Вот что нам нужно вместо них

Одиночные тесты не измеряют истинное влияние ИИ. Нам лучше перейти на более ориентированные на человека, контекстно-специфичные методы.

Иллюстрация показывает гуманоида с текстурами стандартизированных тестов и МРТ сканирования мозга

Десятилетиями искусственный интеллект оценивался через вопрос, превосходят ли машины людей. От шахмат до продвинутой математики, от кодирования до написания сочинений — производительность моделей ИИ и приложений тестируется в сравнении с производительностью отдельных людей, выполняющих задачи.

Этот подход очень привлекателен: сравнение ИИ и человека на изолированных проблемах с четкими правильными или неправильными ответами легко стандартизировать, сравнивать и оптимизировать. Это генерирует рейтинги и заголовки.

Но есть проблема: ИИ почти никогда не используется так, как его тестируют. Хотя исследователи и промышленность начали улучшать бенчмаркинг, выходя за пределы статических тестов к более динамичным методам оценки, эти инновации решают только часть проблемы. Это потому, что они по-прежнему оценивают производительность ИИ вне человеческих команд и организационных рабочих процессов, где его реальная производительность в конечном итоге разворачивается.

Хотя ИИ оценивается на уровне задач в вакууме, он используется в грязных, сложных окружениях, где обычно взаимодействует с несколькими людьми. Его производительность (или ее отсутствие) проявляется только в течение продолжительного использования. Это несоответствие оставляет нас неправильно понимающими возможности ИИ, упускающими системные риски и неправильно оценивающими его экономические и социальные последствия.

Чтобы смягчить это, пришло время перейти от узких методов к бенчмаркам, оценивающим производительность систем ИИ на более длительных временных горизонтах в рамках человеческих команд, рабочих процессов и организаций. Я изучаю развертывание ИИ в реальных условиях с 2022 года в малых предприятиях и организациях в сфере здравоохранения, гуманитарной помощи, некоммерческой деятельности и высшего образования в Великобритании, США и Азии, а также в ведущих экосистемах проектирования ИИ в Лондоне и Кремниевой долине. Я предлагаю другой подход, который я называю бенчмарками HAIC — оценкой взаимодействия человека и ИИ в конкретном контексте.

Что происходит, когда ИИ дает сбой

Для правительств и предприятий баллы ИИ-бенчмарков выглядят более объективными, чем заявления поставщиков. Они имеют решающее значение для определения того, является ли модель или приложение ИИ «достаточно хорошим» для развертывания в реальном мире. Представьте модель ИИ, которая достигает впечатляющих технических баллов на самых передовых бенчмарках — 98% точности, инновационная скорость, привлекательные результаты. На основе этих результатов организации могут решить внедрить модель, выделив значительные финансовые и технические ресурсы на ее покупку и интеграцию.

Но затем, после внедрения, разрыв между бенчмарк и производительностью в реальном мире быстро становится видимым. Например, рассмотрим множество одобренных FDA моделей ИИ, которые могут считывать медицинские сканы быстрее и точнее, чем опытный радиолог. В радиологических отделениях больниц от центра Калифорнии до окраин Лондона я видел, как персонал использует высокорейтинговые приложения ИИ в радиологии. Неоднократно оказывалось, что интерпретация результатов ИИ наряду со стандартами отчетности, специфичными для больницы, и нормативными требованиями, специфичными для страны, требовала дополнительного времени. То, что выглядело как повышающий производительность инструмент ИИ при тестировании в вакууме, в практике вызывало задержки.

Вскоре стало ясно, что тесты бенчмарков, по которым оцениваются медицинские модели ИИ, не отражают то, как на самом деле принимаются медицинские решения. Больницы опираются на междисциплинарные команды — радиологов, онкологов, физиков, медсестер — которые совместно проверяют пациентов. Планирование лечения редко зависит от статического решения; оно эволюционирует по мере появления новой информации в течение дней или недель. Решения часто возникают в результате конструктивных дебатов и компромиссов между профессиональными стандартами, предпочтениями пациентов и общей целью долгосрочного благополучия пациента. Неудивительно, что даже высокорейтинговые модели ИИ с трудом обеспечивают обещанную производительность, когда сталкиваются со сложными совместными процессами реальной клинической помощи.

Одна и та же картина проявляется в моих исследованиях в других секторах: когда встроенные в реальные рабочие среды, даже модели ИИ, блестяще работающие на стандартизированных тестах, не работают как обещано.

Когда высокие баллы бенчмарков не переходят в производительность в реальном мире, даже самый высокорейтинговый ИИ вскоре забрасывается в то, что я называю «кладбищем ИИ». Затраты значительны: время, усилия и деньги растрачиваются впустую. И со временем повторяющийся опыт подобного рода подрывает организационное доверие к ИИ и — в критически важных сферах, таких как здравоохранение — может подорвать более широкое общественное доверие к технологии.

Когда текущие бенчмарки предоставляют только частичный и потенциально вводящий в заблуждение сигнал о готовности модели ИИ к использованию в реальном мире, это создает нормативные слепые пятна: надзор формируется метриками, которые не отражают реальность. Это также оставляет организации и правительства на их плечах нести риски тестирования ИИ в чувствительных реальных условиях, часто с ограниченными ресурсами и поддержкой.

Как создать лучшие тесты

Чтобы закрыть разрыв между бенчмарком и производительностью в реальном мире, мы должны обратить внимание на фактические условия, в которых будут использоваться модели ИИ. Критические вопросы: может ли ИИ функционировать как производительный участник в человеческих командах? И может ли он генерировать устойчивую коллективную ценность?

Благодаря моему исследованию развертывания ИИ в различных секторах, я видел ряд организаций, которые уже движутся — сознательно и экспериментально — в сторону предпочитаемых мной бенчмарков HAIC.

Бенчмарки HAIC переформулируют текущий бенчмаркинг четырьмя способами:

От индивидуальной и одиночной производительности задач к командной и производительности рабочего процесса (смена единицы анализа)
От одиночного тестирования с правильными/неправильными ответами к долгосрочным воздействиям (расширение временного горизонта)
От корректности и скорости к организационным результатам, качеству координации и обнаружению ошибок (расширение показателей результатов)
От изолированных результатов к восходящим и нисходящим последствиям (системные эффекты)

В организациях, где этот подход возник и начал применяться, первый шаг — смещение единицы анализа.

Например, в одной британской системе больниц в период 2021–2024 годов вопрос расширился от того, улучшает ли медицинское приложение ИИ точность диагностики, до того, как присутствие ИИ в междисциплинарных командах больницы влияет не только на точность, но и на координацию и обсуждение. Больница специально оценивала координацию и обсуждение в человеческих командах, использующих и не использующих ИИ. Несколько заинтересованных сторон (внутри и вне больницы) решали метрики, такие как то, как ИИ влияет на коллективное рассуждение, выявляет ли он упущенные соображения, укрепляет или ослабляет ли координацию, и изменяет ли он установленные практики риска и соответствия.

Это смещение фундаментально. Это имеет большое значение в высокорисковых контекстах, где системные эффекты важнее, чем точность на уровне задач. Это также важно для экономики. Это может помочь пересчитать завышенные ожидания грандиозных выигрышей в производительности, которые до сих пор в основном базируются на обещании улучшения отдельной производительности задач.

Как только этот фундамент установлен, бенчмаркинг HAIC может начать принимать на себя элемент времени.

Современные бенчмарки напоминают школьные экзамены — одиночные, стандартизированные тесты точности. Но реальная профессиональная компетентность оценивается иначе. Молодые врачи и юристы оцениваются постоянно в реальных рабочих процессах, под надзором, с циклами обратной связи и структурами подотчетности. Производительность судится с течением времени и в конкретном контексте, потому что компетентность реляционна. Если системы ИИ должны работать наряду с профессионалами, их влияние должно оцениваться продольно, отражая то, как производительность разворачивается в результате повторяющихся взаимодействий.

Я видел применение этого аспекта HAIC в одном из моих тематических исследований в гуманитарном секторе. В течение 18 месяцев система ИИ оценивалась в реальных рабочих процессах с особым внимание к тому, насколько обнаруживаемы были ее ошибки — то есть как легко человеческие команды могли их выявить и исправить. Этот долгосрочный «отчет об обнаруживаемости ошибок» означал, что вовлеченные организации могли разрабатывать и тестировать контекстно-специфичные предосторожности для повышения доверия к системе, несмотря на неизбежность случайных ошибок ИИ.

Более длительный временной горизонт также делает видимыми системные последствия, которые упускают краткосрочные бенчмарки. Приложение ИИ может превосходить одного врача на узкой диагностической задаче, но не улучшить многопрофильное принятие решений. Хуже того, оно может вносить системные искажения: слишком рано закреплять команды в правдоподобных, но неполных ответах, добавлять к когнитивной нагрузке людей или генерировать нисходящие неэффективности, которые нивелируют любые выигрыши в скорости или эффективности в точке использования ИИ. Эти побочные эффекты — часто невидимые для текущих бенчмарков — центральны для понимания реального влияния.

Подход HAIC, надо признать, обещает сделать бенчмаркинг более сложным, требующим больше ресурсов и более трудным для стандартизации. Но продолжение оценки ИИ в стерилизованных условиях, оторванных от мира работы, оставит нас неправильно понимающими то, что он действительно может и не может делать для нас. Чтобы развернуть ИИ ответственно в реальных условиях, мы должны измерять то, что действительно имеет значение: не просто то, что модель может делать одна, но что она позволяет — или подрывает — когда люди и команды в реальном мире работают с ней.

Бенчмарки ИИ сломаны. Вот что нам нужно вместо них

Что происходит, когда ИИ дает сбой

Как создать лучшие тесты

Похожие материалы

Фрилансеры, которые обучают гуманоидных роботов у себя дома

Переход на кастомизацию AI-моделей — архитектурный императив

The Download: инструменты ИИ в здравоохранении и культурная война Пентагона против Anthropic

ИИ-инструментов для здоровья стало больше чем когда-либо — но насколько хорошо они работают?