Опубликовано 27 марта 2026 г.

Anthropic ограничивает доступ к моделям Claude в открытых агентских платформах для подписчиков Pro/Max. Но не волнуйтесь, на Hugging Face есть отличные открытые модели, которые помогут вашим агентам работать! В большинстве случаев по гораздо более низкой цене.

Если вас отключили и ваши агенты OpenClaw, Pi или Open Code нуждаются в восстановлении, вы можете перенести их на открытые модели двумя способами:

  1. Используйте открытую модель, размещённую через Hugging Face Inference Providers.
  2. Запустите полностью локальную открытую модель на своём собственном оборудовании.

Размещённый вариант — это самый быстрый способ вернуться к полноценному агенту. Локальный вариант подходит, если вы хотите приватность, нулевые затраты на API и полный контроль.

Для этого просто скажите своему claude code, your cursor или вашему любимому агенту: help me move my OpenClaw agents to Hugging Face models и ссылку на эту страницу.

Hugging Face Inference Providers

Hugging Face inference providers — это открытая платформа, которая маршрутизирует к провайдерам моделей открытого исходного кода. Это правильный выбор, если вы хотите лучшие модели или у вас нет необходимого оборудования.

Сначала вам нужно создать токен здесь. Затем вы можете добавить этот токен в openclaw следующим образом:

openclaw onboard --auth-choice huggingface-api-key

Вставьте свой токен Hugging Face при запросе, и вас попросят выбрать модель.

Мы рекомендуем GLM-5 благодаря его отличным оценкам Terminal Bench, но есть тысячи на выбор здесь.

Вы можете обновить вашу модель Hugging Face в любое время, введя её repo_id в конфигурацию OpenClaw:

{
  agents: {
    defaults: {
      model: {
        primary: "huggingface/zai-org/GLM-5:fastest"
      }
    }
  }
}

Примечание: подписчики HF PRO получают 2 доллара бесплатных кредитов каждый месяц, которые применяются к использованию Inference Providers, узнайте больше здесь.

Локальная установка

Запуск моделей локально даёт вам полную приватность, нулевые затраты на API и возможность экспериментировать без ограничений по скорости запросов.

Установите Llama.cpp, полностью открытую библиотеку для вывода моделей с низким потреблением ресурсов.

# на mac или linux
brew install llama.cpp

# на windows
winget install llama.cpp

Запустите локальный сервер со встроенным веб-интерфейсом:

llama-server -hf unsloth/Qwen3.5-35B-A3B-GGUF:UD-Q4_K_XL

Здесь мы используем Qwen3.5-35B-A3B, который отлично работает с 32 ГБ оперативной памяти. Если у вас другие требования, пожалуйста, проверьте совместимость с оборудованием для интересующей вас модели. Есть тысячи на выбор.

Если вы загружаете GGUF в llama.cpp, используйте конфигурацию OpenClaw вроде этой:

openclaw onboard --non-interactive \
   --auth-choice custom-api-key \
   --custom-base-url "http://127.0.0.1:8080/v1" \
   --custom-model-id "unsloth-qwen3.5-35b-a3b-gguf" \
   --custom-api-key "llama.cpp" \
   --secret-input-mode plaintext \
   --custom-compatibility openai

Проверьте, что сервер запущен и модель загружена:

curl http://127.0.0.1:8080/v1/models

Какой путь вам выбрать?

Используйте Hugging Face Inference Providers, если вы хотите самый быстрый способ вернуть полноценный агент OpenClaw. Используйте llama.cpp, если вы хотите приватность, полный локальный контроль и отсутствие счётов за API.

В любом случае, вам не нужна закрытая размещённая модель, чтобы вернуть OpenClaw в рабочее состояние!