Я создал систему голосового подбора товаров, чтобы доказать: то, что раньше требовало гарнитуру стоимостью $5000, теперь работает на смартфоне с помощью ElevenLabs.

Оператор склада использует голосовой подбор для подготовки заказов

Операция сбора товаров на складе — это процесс сбора товаров из мест хранения для выполнения заказов покупателей.

Это один из наиболее трудоёмких видов деятельности в логистике, на который приходится до 55% от общих операционных расходов склада.

Пример макета склада

Для каждого заказа оператор получает список товаров для сбора из их мест хранения.

Он идёт в каждое место, определяет товар, берёт нужное количество и подтверждает операцию перед переходом к следующей строке.

На большинстве складов операторы полагаются на сканеры RF или портативные планшеты для получения инструкций и подтверждения каждого сбора.

  • Что происходит, когда операторам нужны обе руки для работы?
  • Как обучить операторов, которые не читают местный язык?

Голосовой сбор решает эту проблему, заменяя экран звуковыми инструкциями: система говорит оператору, куда идти и что брать, а оператор подтверждает голосом.

Иллюстрация оператора, использующего голосовой сбор

Когда я проектировал решения для управления цепями поставок в логистических компаниях, вокализация была выбором по умолчанию, особенно для проектов с чувствительной ценой.

На основе моего опыта, с использованием голосовой системы, производительность операторов может достигать 250 коробок/час для розничной торговли и операций FMCG.

Концепция не нова. Поставщики оборудования и редакторы ПО предлагают решения голосового сбора с начала 2000-х годов.

Но эти системы имеют значительные ограничения:

  • Проприетарное оборудование стоимостью от $2000 до $5000 за гарнитуру
  • Привязанное к поставщику ПО с ограниченной возможностью настройки
  • Длительные циклы развёртывания от 3 до 6 месяцев на один объект
  • Жёсткая поддержка языков, требующая переподготовки для каждого нового языка

Для склада на 50 сотрудников общие инвестиции достигают $150K до $300K, не считая затрат на обучение.

Это слишком дорого для моих клиентов.

Что если вы сможете достичь аналогичных результатов, используя смартфон, специально разработанное веб-приложение и современную технологию голосового ИИ?

В этой статье я покажу, как я создал минималистичный модуль голосового сбора, который интегрируется с системами управления складом, используя ElevenLabs для преобразования текста в речь и распознавания речи.

Примеры экранов приложения, разработанные для использования на смартфоне с голосовым интерфейсом

Это веб-приложение было развёрнуто в распределительном центре небольшой сети супермаркетов с отличными результатами (клиент доволен!).

Цель не в разработке решений, конкурирующих с лидерами рынка, а скорее в предложении альтернативы логистическим и производственным операциям, которые не имеют возможности инвестировать в дорогостоящее оборудование и хотят получить индивидуальные решения.

Постановка задачи

Прежде чем перейти к голосовому сбору, работающему на базе ElevenLabs, позвольте мне представить логистические операции, которые это веб-приложение на базе ИИ будет поддерживать.

Макет распределительного центра

Это центральный распределительный центр небольшой сети супермаркетов, которая доставляет товары в 50 магазинов в Центральной Европе.

Макет склада с 10 проходами и 12 позициями поддонов, отображаемыми в приложении

Объект организован в виде сетки с проходами (от A до L) и позициями вдоль каждого прохода:

  • Каждое место хранения содержит определённый товар (называемый SKU) с известным количеством коробок.
  • Операторы должны знать, куда идти и что ожидать при прибытии.

Какова цель? Повысить производительность операторов!

Они были недовольны распределением заказов и маршрутами ходьбы, предоставляемыми их старой системой.

Решения, используемые для оптимизации операций сбора на этом складе

Сначала они попросили снизить расстояние ходьбы операторов и повысить количество коробок, собираемых в час, используя решения, представленные в этой статье.

Решением было веб-приложение, подключённое к базе данных системы управления складом (WMS), которое направляет оператора через склад.

Операторы могут проверить список подбора, а также детальную информацию по каждому месту

Этот визуальный макет обеспечивает реальный обзор того, что у нас есть в системе, с лучшим решением маршрутизации.

Наша цель — перейти от производительности 75 коробок/час к 200 коробкам/час за счёт:

  • Лучшего распределения заказов с пространственной кластеризацией и поиском пути для минимизации расстояния ходьбы на одну собранную коробку
  • Голосового сбора для безупречного направления операторов

Как работает процесс сбора

Прежде чем перейти к вокализации инструмента, позвольте мне представить процесс сбора заказов.

Три магазина отправили заказы на склад:

  • Магазин 1 заказал 3 коробки Органического зелёного чая 500г, которые находятся в месте A1
  • Магазин 2 заказал 2 коробки Чая граф серый 250г, которые находятся в месте A3
  • Магазин 3 заказал 5 коробок Зёрен кофе Арабика 1кг, которые находятся в месте B2

Партия сбора — это группа заказов магазинов, объединённых в единое рабочее задание.

Оператор будет готовить три заказа в одной партии

Система генерирует партию с несколькими строками заказа с инструкциями:

  • Куда идти (место хранения)
  • Что собирать (ссылка на SKU)
  • Сколько коробок собрать
Список сбора (слева), макет (в центре), детали места (справа)

Оператору просто нужно последовательно обрабатывать каждую строку.

После подтверждения сбора система переходит к следующей инструкции.

Этот последовательный поток критичен, поскольку он определяет маршрут ходьбы через склад, используя алгоритмы оптимизации.

Пример исходного решения поиска пути (внизу) и оптимизированного (вверху)

Поскольку это пользовательское приложение, мы могли реализовать эту оптимизацию без опоры на внешнего редактора.

Почему создавать пользовательское решение? Потому что это дешевле и проще в реализации.

Первоначально клиент планировал приобрести коммерческое решение и попросил меня интегрировать решение для поиска пути.

После исследования мы обнаружили, что было бы дороже интегрировать приложение в решение поставщика, чем создать что-то с нуля.

Как выглядит процесс без функции голосового ИИ?

Ручной режим: базовый вариант на основе экрана

В ручном режиме оператор читает каждую инструкцию на экране и подтверждает нажатием кнопки.

На каждом этапе доступны два действия:

  • Подтвердить сбор: оператор собрал нужное количество
  • Сообщить о проблеме: место пусто, количество не совпадает или товар повреждён
Наш оператор должен нажать кнопку, чтобы подтвердить сбор или сообщить о проблеме

Я создал ручной режим как надёжную резервную копию на случай проблем с ElevenLabs.

Но он держит глаза оператора и одну руку привязанными к устройству на каждом этапе.

Нам нужно добавить голосовые команды!

Голосовой режим: свободные руки с ElevenLabs

Теперь, когда вы знаете, почему мы хотим заменить голосовым режимом экранное взаимодействие, позвольте мне объяснить, как я добавил два компонента на базе ИИ.

Техническая архитектура этого приложения

Преобразование текста в речь: ElevenLabs читает инструкции

Когда оператор начинает новую партию сбора, система использует ElevenLabs для преобразования инструкций в естественную речь.