Специализированные чат-боты могут помочь людям с ограниченным доступом к здравоохранению. Без дополнительных испытаний мы не знаем, будут ли они полезны или вредны.
В начале этого месяца Microsoft запустила Copilot Health — новый раздел в приложении Copilot, где пользователи смогут подключить свои медицинские записи и задавать конкретные вопросы о своём здоровье. Несколькими днями ранее Amazon объявила, что Health AI — инструмент на основе LLM, ранее доступный только членам сервиса One Medical, теперь будет широко доступен. Эти продукты присоединяются к ChatGPT Health, который OpenAI выпустила в январе, и Claude от Anthropic, который может получать доступ к медицинским записям пользователей с их разрешения. ИИ-здравоохранение для массовых пользователей официально стало тренд.
Очевидна высокая потребность в чат-ботах, дающих медицинские советы, учитывая, насколько сложно многим людям получить его через существующие системы здравоохранения. Некоторые исследования свидетельствуют о том, что текущие LLM способны давать безопасные и полезные рекомендации. Однако исследователи говорят, что эти инструменты должны быть тщательнее оценены независимыми экспертами, в идеале до их широкого выпуска на рынок.
В высокорисковой области, такой как здравоохранение, полагаться на компании в оценке их собственных продуктов может быть неудачно, особенно если эти оценки недоступны для внешней экспертной проверки. И даже если компании проводят качественные и строгие исследования — что, похоже, делают некоторые, включая OpenAI — они всё равно могут иметь слепые пятна, которые более широкое исследовательское сообщество могло бы помочь заполнить.
«Поскольку здравоохранение всегда будет необходимо, мы определённо должны искать все маршруты, которые работают», — говорит Эндрю Бин, аспирант Оксфордского интернет-института. «Вполне вероятно, что эти модели достигли точки, где они действительно стоят развёртывания».
«Но», — добавляет он, — «необходимо иметь доказательственную базу».
Переломные моменты
По словам разработчиков, эти медицинские продукты выпускаются сейчас, потому что большие языковые модели действительно достигли точки, где они могут эффективно предоставлять медицинские советы. Доминик Кинг, вице-президент по здравоохранению в Microsoft AI и бывший хирург, называет развитие ИИ основной причиной формирования команды здравоохранения компании и создания Copilot Health. «Мы увидели огромный прогресс в способностях генеративного ИИ отвечать на вопросы о здоровье и давать хорошие ответы», — говорит он.
Но это только половина истории, по словам Кинга. Другой ключевой фактор — спрос. Вскоре после запуска Copilot Health компания Microsoft опубликовала отчёт и сопроводительный пост в блоге, подробно описывающие, как люди использовали Copilot для медицинских советов. Компания говорит, что получает 50 миллионов вопросов о здоровье каждый день, и здравоохранение — самая популярная тема обсуждения в мобильном приложении Copilot.
Другие компании ИИ заметили этот тренд и ответили на него. «Ещё до наших медицинских продуктов мы наблюдали быстрый, очень быстрый рост количества людей, использующих ChatGPT для вопросов, связанных со здоровьем», — говорит Каран Сингхал, возглавляющий команду Health AI в OpenAI. (OpenAI и Microsoft имеют давнее партнёрство, и Copilot работает на моделях OpenAI.)
Возможно, люди просто предпочитают обращаться со своими проблемами со здоровьем к беспристрастному боту, доступному им 24/7. Но многие эксперты интерпретируют эту схему в свете нынешнего состояния системы здравоохранения. «Есть причина, по которой эти инструменты существуют и занимают своё место в общей картине», — говорит Гириш Надкарни, главный офицер по ИИ в системе здравоохранения Mount Sinai. «Это потому, что доступ к здравоохранению затруднён, и особенно затруднён для определённых групп населения».
Позитивное видение медицинских чат-ботов LLM для потребителей зависит от возможности того, что они могли бы улучшить здоровье пользователей, снижая нагрузку на систему здравоохранения. Это может предусматривать помощь пользователям в решении вопроса о том, нужна ли им медицинская помощь — задача, известная как сортировка (тriage). Если сортировка через чат-бот работает, то пациенты, нуждающиеся в срочной помощи, могут обратиться за ней раньше, чем они это сделали бы, а пациенты с более лёгкими проблемами могли бы чувствовать себя комфортно, управляя своими симптомами дома с советом чат-бота, вместо того чтобы ненужно занимать время в отделениях скорой помощи и кабинетах врачей.
Однако недавнее, широко обсуждаемое исследование Надкарни и других исследователей из Mount Sinai выявило, что ChatGPT Health иногда рекомендует слишком много медицинской помощи при лёгких состояниях и не может выявить чрезвычайные ситуации. Хотя Сингхал и некоторые другие эксперты предположили, что его методология может не давать полной картины возможностей ChatGPT Health, исследование вызвало озабоченность тем, насколько мало внешней оценки эти инструменты получают перед выпуском для публики.
Большинство опрошенных для этой статьи академических экспертов согласились, что чат-боты LLM для здравоохранения могут дать реальные преимущества, учитывая, насколько ограничен доступ к здравоохранению для некоторых людей. Но все шесть из них выразили озабоченность тем, что эти инструменты запускаются без тестирования независимыми исследователями для оценки их безопасности. Хотя некоторые рекламируемые использования этих инструментов, такие как рекомендация планов упражнений или предложение вопросов, которые пользователь может задать врачу, относительно безопасны, другие несут явные риски. Тriage — один из них; другой — попросить чат-бот предоставить диагноз или план лечения.
Интерфейс ChatGPT Health включает заметное заявление об отказе от ответственности, указывающее, что он не предназначен для диагностики или лечения, а объявления о Copilot Health и Health AI от Amazon содержат аналогичные предупреждения. Но эти предупреждения легко игнорировать. «Мы все знаем, что люди собираются использовать его для диагностики и лечения», — говорит Адам Родман, врач терапевт и исследователь в Beth Israel Deaconess Medical Center и приглашённый исследователь в Google.
Медицинское тестирование
Компании говорят, что они тестируют чат-ботов, чтобы убедиться, что они дают безопасные ответы в подавляющем большинстве случаев. OpenAI разработала и выпустила HealthBench — эталон, который оценивает LLM по тому, как они реагируют в реалистичных медицинских разговорах — хотя сами разговоры генерируются LLM. Когда GPT-5, который питает как ChatGPT Health, так и Copilot Health, был выпущен в прошлом году, OpenAI сообщила оценки модели по HealthBench: она показала значительно лучшие результаты, чем предыдущие модели OpenAI, хотя общая производительность была далека от совершенства.
Но оценки, подобные HealthBench, имеют ограничения. В исследовании, опубликованном в прошлом месяце, Бин — аспирант Оксфорда — и его коллеги обнаружили, что даже если LLM может точно определить медицинское состояние из вымышленного письменного сценария самостоятельно, неспециалист, которому дан сценарий и предложено определить состояние с помощью LLM, может это сделать только в одной трети случаев. Если пользователи не имеют медицинской подготовки, они могут не знать, какие части сценария — или их реальный опыт — важны для включения в их запрос, или они могут неправильно интерпретировать информацию, которую им даёт LLM.
Бин говорит, что этот разрыв в производительности может быть значительным для моделей OpenAI. В исходном исследовании HealthBench компания сообщила, что её модели показали относительно плохие результаты в разговорах, требующих от них запроса дополнительной информации у пользователя. Если это так, то пользователи, которые не имеют достаточных медицинских знаний для предоставления медицинскому чат-боту необходимой информации с самого начала, могут получить бесполезные или неточные советы.
Сингхал, лидер OpenAI в сфере здравоохранения, отмечает, что текущая серия моделей GPT-5 компании, которая ещё не была выпущена при проведении исходного исследования HealthBench, намного лучше запрашивает дополнительную информацию, чем их предшественники. Однако OpenAI сообщила, что GPT-5.4, текущий флагман, на самом деле хуже в поиске контекста, чем GPT-5.2, более ранняя версия.
В идеале, говорит Бин, медицинские чат-боты должны быть подвергнуты контролируемым испытаниям с участием реальных пользователей, как это было в его исследовании, до выпуска для публики. Это может быть непосильно тяжело, особенно учитывая, насколько быстро движется мир ИИ и как долго могут длиться исследования с участием человека. В его собственном исследовании использовался GPT-4o, вышедший почти год назад и теперь уже устаревший.
В начале этого месяца Google выпустил исследование, отвечающее стандартам Бина. В исследовании пациенты обсуждали медицинские проблемы с AMIE (Articulate Medical Intelligence Explorer) компании — медицинским чат-ботом LLM, который ещё не доступен для публики — перед встречей с врачом. В целом, диагнозы AMIE были столь же точны, как и диагнозы врачей, и ни один из разговоров не вызвал серьёзных проблем безопасности для исследователей.
Несмотря на обнадёживающие результаты, Google не планирует выпускать AMIE в ближайшее время. «Хотя исследования продвинулись вперёд, существуют значительные ограничения, которые должны быть устранены перед реальным применением систем для диагностики и лечения, включая дальнейшие исследования вопросов справедливости, честности и безопасности», — написал Алан Картикесалингам, научный сотрудник Google DeepMind, в электронном письме. Google недавно раскрыла, что Health100 — платформа здравоохранения, которую она создаёт в партнёрстве с CVS, будет включать помощника ИИ на базе своих флагманских моделей Gemini, хотя этот инструмент, вероятно, не будет предназначен для диагностики или лечения.
Родман, который возглавлял исследование AMIE вместе с Картикесалингамом, не думает, что такие масштабные, многолетние исследования обязательно являются правильным подходом для чат-ботов, таких как ChatGPT Health и Copilot Health. «Есть множество причин, по которым парадигма клинических испытаний не всегда работает в генеративном ИИ», — говорит он. «И именно здесь появляется разговор о бенчмарках. Есть ли бенчмарки от надёжной третьей стороны, которые мы можем согласиться считать значимыми и которые лаборатории могут придерживаться?»
Ключевое слово здесь — «третьей стороны». Независимо от того, насколько тщательно компании оценивают свои собственные продукты, сложно полностью доверять их выводам. Оценка третьей стороны не только привносит беспристрастность, но если участвует много третьих сторон, это также помогает защитить от слепых пятен.
Сингхал из OpenAI говорит, что он решительно поддерживает внешнюю оценку. «Мы стараемся максимально поддерживать сообщество», — говорит он. «Одна из причин, по которой мы выпустили HealthBench, состояла в том, чтобы дать сообществу и другим разработчикам моделей пример того, как выглядит очень хорошая оценка».
Учитывая, насколько дорого производство высококачественной оценки, говорит он, он скептически относится к тому, что какая-либо отдельная академическая лаборатория может произвести то, что он называет «той единственной оценкой, чтобы господствовать над всеми». Но он высоко оценивает усилия, которые академические группы предприняли, чтобы объединить существующие и новые оценки в комплексные наборы оценок — такие как платформа MedHELM Стэнфорда, которая тестирует модели по широкому спектру медицинских задач. В настоящее время GPT-5 от OpenAI занимает наивысший балл MedHELM.
Нигам Шах, профессор медицины в Стэнфордском университете, который руководил проектом MedHELM, говорит, что у него есть ограничения. В частности, она оценивает только отдельные ответы чат-бота, но кто-то, ищущий медицинский совет у инструмента чат-бота, может взаимодействовать с ним в многоуровневом диалоговом разговоре туда-обратно. Он говорит, что он и некоторые его сотрудники готовят создание оценки, которая может оценивать эти сложные разговоры, но это потребует времени и денег. «У вас и у меня нет никакой способности помешать этим компаниям выпускать продукты, ориентированные на здравоохранение, поэтому они будут делать всё, что им угодно», — говорит он. «Единственное, что люди вроде меня могут сделать, — это найти способ финансировать эталон».
Никто из опрошенных для этой статьи не утверждал, что медицинские LLM должны идеально выполняться при оценке третьей стороной, чтобы быть выпущены. Врачи сами совершают ошибки — и для того, кто имеет только редкий доступ к врачу, последовательно доступный LLM, который иногда ошибается, всё равно может быть огромным улучшением по сравнению со статус-кво, если его ошибки не будут слишком серьёзными.
При нынешнем состоянии доказательств, однако, невозможно с уверенностью сказать, действительно ли доступные в настоящее время инструменты представляют собой улучшение или их риски перевешивают выгоды.
%%END%%