Почему ИИ обучается на собственном мусоре (и как это исправить)

Глубокие веб-данные — это золото, которого мы не можем коснуться

Sabrine Bendimerad

8 апр. 2026 | 7 минут чтения

Если вы интересуетесь ИИ уже какое-то время, то, вероятно, являетесь пользователем LLM/Agent/Chat, но задавали ли вы себе вопрос о том, как эти инструменты будут обучаться в ближайшем будущем? Что, если мы уже исчерпали данные, необходимые для обучения моделей? Многие теории говорят, что мы исчерпываем высококачественные, созданные человеком данные для обучения наших моделей.

Новый контент появляется каждый день — это реальность, но всё большая доля добавляемого ежедневно контента сама является ИИ-генерируемой. Поэтому если вы продолжаете обучаться на публичных веб-данных, вы в итоге обучаетесь на выходах своих предшественников. Змея, кусающая собственный хвост. Исследователи называют это явление Model Collapse, когда модели ИИ начинают учиться на ошибках своих предшественников, пока вся система не деградирует в бессмыслицу.

Но что если я скажу вам, что мы на самом деле не исчерпываем данные? Мы просто искали не там.

В этой статье я разберу ключевые идеи из этой блестящей статьи.

Веб, который мы уже используем, и веб, который имеет значение

Большинство из нас рассматривают веб как уникальный источник информации. На самом деле, существует как минимум два.

Существует Поверхностная Сеть: индексируемый, общественный мир, такой как Reddit, Wikipedia и новостные сайты. Это то, что мы уже соскребали и чрезмерно использовали годами для обучения основных моделей ИИ сегодня. Затем есть то, что мы называем Глубокой Сетью, и здесь я не говорю о «Тёмном Вебе» или чём-то незаконном.

Глубокая Сеть — это просто всё, что находится за логином или брандмауэром. Это относится ко всему в Интернете, что не индексируется публично. Это может быть портал пациентов вашей больницы, внутренняя панель управления вашего банка, архивы корпоративных документов, приватные базы данных и годы переписки, скрытые за экраном входа. Нормальные, скучные, но невероятно ценные данные.

Многие исследования предполагают, что Глубокая Сеть на несколько порядков больше, чем поверхностная сеть. Более того, это критически важно более качественные данные. По сравнению с контентом поверхностной сети, который может быть шумным, полным дезинформации и сильно оптимизирован для SEO, плюс всё чаще содержит контент, специально разработанный для введения в заблуждение или отравления моделей ИИ. Данные Глубокой Сети, такие как медицинские записи или проверенные финансовые документы или другие внутренние базы данных, имеют тенденцию быть чистыми, аутентифицированными и организованными людьми, которые беспокоятся о их качестве.

В чём проблема? Думаю, вы можете угадать — они приватные. Вы не можете просто извлечь миллион медицинских записей, не учитывая все юридические и этические катастрофы, которые вы вызовете.

Фреймворк PROPS

Именно здесь на помощь приходит новый фреймворк, называемый PROPS (Protected Pipelines). Представленный Ari Juels (Cornell Tech), Farinaz Koushanfar (UCSD) и Laurence Moroney (бывший лидер Google AI), PROPS действует как мост между этими чувствительными данными и моделями ИИ, которым они нужны.

Гениальность PROPS в том, что она не просит вас «сдать» ваши данные. Вместо этого она использует Privacy-Preserving Oracles. Думайте об oracle как о «надёжном посреднике», который может посмотреть на ваши данные, проверить, что они настоящие, а затем сказать модели ИИ то, что ей нужно знать, никогда не показывая модели исходную информацию.

Эти концепции PROPS могут звучать волшебно, так как могут решить множество проблем, связанных с доступностью данных, с которыми сталкиваются модели ИИ сегодня. Но как это работает точно? Давайте возьмём пример медицинской компании, которая хочет обучить инструмент диагностики на реальных медицинских записях. В соответствии с фреймворком PROPS:

Разрешение: Как пользователь, вы входите в ваш собственный портал здоровья и авторизуете конкретное использование ваших данных.
Oracle: Думайте об Oracle как о цифровом нотариусе. Он идёт в ваш приватный портал (как ваша база данных больницы), чтобы проверить, что ваши данные настоящие. Вместо копирования ваших файлов, он просто говорит системе ИИ: «Я видел исходные документы, и я свидетельствую, что они аутентичны». Он предоставляет доказательство истины, не передавая приватные данные. Инструменты для этого уже существуют, такие как DECO — это протокол, который позволяет пользователям доказать, что они получили конкретный фрагмент данных с веб-сервера через безопасный TLS-канал.
Защищённый Анклав: Это «чёрный ящик» внутри аппаратного обеспечения компьютера, где происходит фактическое обучение. Мы помещаем модель ИИ и ваши приватные данные внутрь и «закрываем дверь». Ни один человек или разработчик не может видеть, что происходит внутри. ИИ «изучает» данные и уходит только с обновлёнными весами модели. Исходные данные остаются заперты внутри до окончания сеанса.
Результат: Модель обучается на данных внутри этого ящика. Только обновлённые «веса» (обучение) выходят наружу. Исходные данные никогда не видят человеческие глаза.

Участник точно знает, на что он согласился, и может быть вознаграждён за участие способом, который калибруется с учётом того, насколько ценны их конкретные данные. Это принципиально другие отношения между владельцами данных и системами ИИ.

Но почему заниматься этим вместо синтетических данных?

Некоторые могут спросить: «Почему заниматься этой сложной установкой, когда мы можем просто генерировать синтетические данные?»

Ответ состоит в том, что синтетические данные — это убийца разнообразия. По определению, генерация синтетических данных усиливает середину колокола. Если у вас есть редкое медицинское состояние, которое влияет только на 0,01% населения, генератор синтетических данных, вероятно, сгладит вас как «шум».

Модели, обученные на синтетических данных, становятся прогрессивно хуже в обслуживании выбросов. PROPS решает это, создавая безопасный способ для реальных людей с редкими условиями или уникальным происхождением «присоединиться». Это превращает обмен данными из риска для конфиденциальности в «рынок данных», где ценные данные получают компенсацию, которую они заслуживают.

Это касается не только обучения, важна и работа модели

Большинство обсуждений сосредоточены на обучении, но PROPS имеет равно интересное применение на стороне вывода.

Например, получение кредита сегодня включает много документов: выписки со счетов, квитанции о заработной плате и налоговые декларации. В системе на основе PROPS они предлагают использование модели принятия решений по кредитам (LDM):

Вы авторизуете LDM разговаривать напрямую с вашим банком.
Банк подтверждает ваш баланс через privacy-preserving oracle.
LDM принимает решение.
Результат? Кредитор получает проверенный «Да» или «Нет», не трогая ваши приватные документы. Это исключает риск утечки данных и делает почти невозможным для людей использовать поддельные, отретушированные документы.

Что на самом деле препятствует этому в 2026 году?

Всё просто сводится к масштабу и инфраструктуре.

Самая надёжная версия PROPS требует обучения внутри поддерживаемого аппаратным обеспечением защищённого анклава (как Intel SGX или NVIDIA's H100 TEEs). Они хорошо работают в небольшом масштабе, но заставить их работать для массивных GPU-кластеров, необходимых для передовых LLM, остаётся открытой инженерной проблемой. Требуется массивные кластеры для работы в идеальной, зашифрованной синхронизации.

Исследователи ясны: PROPS ещё не является готовым продуктом. Это убедительное доказательство концепции. Однако более лёгкая версия развёртывается уже сегодня. Даже без полных гарантий аппаратного обеспечения, вы можете построить системы, которые дают пользователям значимую уверенность, что уже является улучшением по сравнению с просьбой отправить вам PDF по электронной почте.

Мои собственные заключительные мысли

PROPS на самом деле не является «новой» технологией; это новое применение существующих инструментов. Privacy-preserving oracles используются в блокчейн- и Web3-пространстве (как Chainlink) уже много лет. Идея здесь в том, чтобы признать, что те же инструменты могут решить кризис данных ИИ.

«Кризис данных» — это не нехватка информации; это нехватка доверия. У нас более чем достаточно данных для построения следующего поколения ИИ, но они заперты за дверями Глубокой Сети. Змее не нужно есть собственный хвост; ей просто нужно найти лучший сад.

👉 LinkedIn: Sabrine Bendimerad

👉 Medium: https://medium.com/@sabrine.bendimerad1

👉 Instagram: https://tinyurl.com/datailearn

Почему ИИ обучается на собственном мусоре (и как это исправить)

Веб, который мы уже используем, и веб, который имеет значение

Фреймворк PROPS

Но почему заниматься этим вместо синтетических данных?

Это касается не только обучения, важна и работа модели

Что на самом деле препятствует этому в 2026 году?

Мои собственные заключительные мысли

Похожие материалы

Обнаружение галлюцинаций при переводе с помощью несоответствия внимания

Как использовать Claude Code для создания минимально жизнеспособного продукта

Заземление вашей LLM: практическое руководство по RAG для корпоративных хранилищ знаний

Демократизация маркетинговых моделей микса (MMM) с помощью открытого исходного кода и генеративного ИИ