Экс-сотрудник Facebook создает модерацию контента для эпохи AI

Когда Бретт Левенсон ушел из Apple в 2019 году, чтобы возглавить отдел бизнес-интегрити в Facebook, социальная сеть находилась в разгаре скандала с Cambridge Analytica. Тогда он думал, что сможет просто решить проблему модерации контента Facebook с помощью лучшей технологии.

Проблема, как он быстро понял, была глубже технологии. Сотрудники, занимающиеся проверкой контента, должны были запомнить 40-страничный документ с политикой, машинно переведенный на их язык. Затем им отводилось около 30 секунд на каждый проверяемый контент, чтобы решить не только, нарушает ли он правила, но и что с этим делать: заблокировать это, забанить пользователя или ограничить распространение. Эти быстрые решения были точны лишь «немногим лучше, чем на 50%», по словам Левенсона.

«Это было похоже на подбрасывание монеты — то ли модераторы смогут правильно применить политику, то ли нет. И это происходило много дней спустя после того, как вред уже был нанесен», — сказал Левенсон TechCrunch.

Такой отложенный, реактивный подход несостоятелен в мире ловких и хорошо финансируемых враждебных акторов. Рост популярности AI-чатботов еще больше усугубил проблему, так как провалы в модерации привели к серии громких инцидентов: чатботы давали подросткам рекомендации по самоповреждению или создавали AI-сгенерированные изображения, обходящие фильтры безопасности.

Разочарование Левенсона привело к идее «политика как код» — способу преобразовать статические документы политики в исполняемую, обновляемую логику, тесно связанную с её применением. Эта идея привела к созданию Moonbounce, которая в пятницу объявила, что привлекла $12 млн финансирования, как исключительно узнал TechCrunch. Раунд софинансировали Amplify Partners и StepStone Group.

Moonbounce работает с компаниями, чтобы обеспечить дополнительный слой безопасности везде, где создается контент — будь то пользователем или AI. Компания обучила собственную большую языковую модель анализировать документы политики клиента, оценивать контент во время выполнения, давать ответ за 300 миллисекунд или менее и принимать меры. В зависимости от предпочтений клиента это действие может выглядеть как замедление распространения контента Moonbounce, пока его не проверит человек, или блокирование высокорисковогоконтента в реальном времени.

Сегодня Moonbounce обслуживает три основные направления: платформы с пользовательским контентом, такие как приложения для знакомств; компании AI, создающие персонажей или компаньонов; и генераторы AI-изображений.

Moonbounce обрабатывает более 40 млн проверок в день и обслуживает более 100 млн ежедневно активных пользователей на платформе, сказал Левенсон. Клиентами являются стартап AI-компаньонов Channel AI, компания по генерации изображений и видео Civitai, а также платформы для ролевых персонажей Dippy AI и Moescape.

«Безопасность может быть преимуществом продукта, — сказал Левенсон TechCrunch. — Это просто никогда не было, потому что это всегда было чем-то, что происходит позже, а не чем-то, что вы можете встроить в свой продукт. И мы видим, что наши клиенты находят действительно интересные и инновационные способы использования нашей технологии, чтобы сделать безопасность отличительной чертой и частью истории своего продукта.»

Глава отдела доверия и безопасности Tinder недавно объяснил, как платформа для знакомств использует такие LLM-powered сервисы для достижения 10-кратного улучшения точности обнаружения.

«Модерация контента всегда была проблемой, мучившей крупные онлайн-платформы, но теперь, когда LLM находятся в центре каждого приложения, эта задача еще более грозная, — сказал Ленни Пресс, партнер Amplify Partners. — Мы инвестировали в Moonbounce, потому что видим мир, где объективные, сделанные в реальном времени ограничения безопасности становятся основой для каждого AI-посредованного приложения.»

Компании AI сталкиваются с растущим правовым и репутационным давлением после того, как чатботы были обвинены в склонении подростков и уязвимых пользователей к самоубийству, а генераторы изображений, такие как Grok от xAI, использовались для создания некосесуальных обнаженных изображений. Ясно, что внутренние средства безопасности дают сбой, и это становится вопросом ответственности. Левенсон сказал, что компании AI все чаще ищут помощь вне своих стен для укрепления инфраструктуры безопасности.

«Мы третья сторона, находящаяся между пользователем и чатботом, поэтому наша система не перегружена контекстом так, как сам чат, — сказал Левенсон. — Чатбот должен помнить потенциально десятки тысяч токенов, которые пришли раньше... Мы просто озабочены применением правил во время выполнения.»

Левенсон руководит 12-человечной компанией вместе со своим бывшим коллегой из Apple Эшем Бхардвадж, который ранее строил крупномасштабную облачную и AI-инфраструктуру для ключевых предложений производителя iPhone. Их следующий фокус — возможность под названием «итеративное управление», разработанная в ответ на случаи, как самоубийство в 2024 году 14-летнего мальчика из Флориды, который стал одержим чатботом Character AI. Вместо прямого отказа при возникновении вредоносных тем система перехватит разговор и перенаправит его, модифицируя подсказки в реальном времени, чтобы подтолкнуть чатбот к более активно поддерживающему ответу.

«Мы надеемся добавить в наш набор действий возможность направить чатбот в лучшую сторону, по сути, взяв подсказку пользователя и модифицировав её, чтобы заставить чатбот быть не просто сочувствующим слушателем, но и полезным слушателем в таких ситуациях», — сказал Левенсон.

Когда его спросили, включает ли его стратегия выхода приобретение компанией, подобной Meta, что замкнул бы цикл его работы над модерацией контента, Левенсон сказал, что признает, насколько хорошо Moonbounce вписалась бы в стек его старого работодателя, а также свои фидуциарные обязанности как CEO.

«Мои инвесторы убили бы меня за это, но я бы ненавидел видеть, как кто-то купит нас и потом ограничит технологию, — сказал он. — Типа, 'Хорошо, это теперь наше, и никто другой не может получить пользу'.»

Экс-сотрудник Facebook создает модерацию контента для эпохи AI

Похожие материалы

Copilot — это развлечение, заявляет Microsoft в условиях использования

Могут ли орбитальные центры обработки данных оправдать огромную оценку SpaceX?

В Японии робот не отнимает вашу работу — он заполняет ту, которую никто не хочет

Anthropic заявила, что подписчики Claude Code должны будут платить дополнительно за использование OpenClaw