Я создал систему голосового подбора товаров, чтобы доказать: то, что раньше требовало гарнитуру стоимостью $5000, теперь работает на смартфоне с помощью ElevenLabs.
Операция сбора товаров на складе — это процесс сбора товаров из мест хранения для выполнения заказов покупателей.
Это один из наиболее трудоёмких видов деятельности в логистике, на который приходится до 55% от общих операционных расходов склада.
Для каждого заказа оператор получает список товаров для сбора из их мест хранения.
Он идёт в каждое место, определяет товар, берёт нужное количество и подтверждает операцию перед переходом к следующей строке.
На большинстве складов операторы полагаются на сканеры RF или портативные планшеты для получения инструкций и подтверждения каждого сбора.
- Что происходит, когда операторам нужны обе руки для работы?
- Как обучить операторов, которые не читают местный язык?
Голосовой сбор решает эту проблему, заменяя экран звуковыми инструкциями: система говорит оператору, куда идти и что брать, а оператор подтверждает голосом.
Когда я проектировал решения для управления цепями поставок в логистических компаниях, вокализация была выбором по умолчанию, особенно для проектов с чувствительной ценой.
На основе моего опыта, с использованием голосовой системы, производительность операторов может достигать 250 коробок/час для розничной торговли и операций FMCG.
Концепция не нова. Поставщики оборудования и редакторы ПО предлагают решения голосового сбора с начала 2000-х годов.
Но эти системы имеют значительные ограничения:
- Проприетарное оборудование стоимостью от $2000 до $5000 за гарнитуру
- Привязанное к поставщику ПО с ограниченной возможностью настройки
- Длительные циклы развёртывания от 3 до 6 месяцев на один объект
- Жёсткая поддержка языков, требующая переподготовки для каждого нового языка
Для склада на 50 сотрудников общие инвестиции достигают $150K до $300K, не считая затрат на обучение.
Это слишком дорого для моих клиентов.
Что если вы сможете достичь аналогичных результатов, используя смартфон, специально разработанное веб-приложение и современную технологию голосового ИИ?
В этой статье я покажу, как я создал минималистичный модуль голосового сбора, который интегрируется с системами управления складом, используя ElevenLabs для преобразования текста в речь и распознавания речи.
Это веб-приложение было развёрнуто в распределительном центре небольшой сети супермаркетов с отличными результатами (клиент доволен!).
Цель не в разработке решений, конкурирующих с лидерами рынка, а скорее в предложении альтернативы логистическим и производственным операциям, которые не имеют возможности инвестировать в дорогостоящее оборудование и хотят получить индивидуальные решения.
Постановка задачи
Прежде чем перейти к голосовому сбору, работающему на базе ElevenLabs, позвольте мне представить логистические операции, которые это веб-приложение на базе ИИ будет поддерживать.
Это центральный распределительный центр небольшой сети супермаркетов, которая доставляет товары в 50 магазинов в Центральной Европе.
Объект организован в виде сетки с проходами (от A до L) и позициями вдоль каждого прохода:
- Каждое место хранения содержит определённый товар (называемый SKU) с известным количеством коробок.
- Операторы должны знать, куда идти и что ожидать при прибытии.
Какова цель? Повысить производительность операторов!
Они были недовольны распределением заказов и маршрутами ходьбы, предоставляемыми их старой системой.
Сначала они попросили снизить расстояние ходьбы операторов и повысить количество коробок, собираемых в час, используя решения, представленные в этой статье.
Решением было веб-приложение, подключённое к базе данных системы управления складом (WMS), которое направляет оператора через склад.
Этот визуальный макет обеспечивает реальный обзор того, что у нас есть в системе, с лучшим решением маршрутизации.
Наша цель — перейти от производительности 75 коробок/час к 200 коробкам/час за счёт:
- Лучшего распределения заказов с пространственной кластеризацией и поиском пути для минимизации расстояния ходьбы на одну собранную коробку
- Голосового сбора для безупречного направления операторов
Как работает процесс сбора
Прежде чем перейти к вокализации инструмента, позвольте мне представить процесс сбора заказов.
Три магазина отправили заказы на склад:
- Магазин 1 заказал 3 коробки
Органического зелёного чая 500г, которые находятся в месте A1 - Магазин 2 заказал 2 коробки
Чая граф серый 250г, которые находятся в месте A3 - Магазин 3 заказал 5 коробок
Зёрен кофе Арабика 1кг, которые находятся в месте B2
Партия сбора — это группа заказов магазинов, объединённых в единое рабочее задание.
Система генерирует партию с несколькими строками заказа с инструкциями:
- Куда идти (место хранения)
- Что собирать (ссылка на SKU)
- Сколько коробок собрать
Оператору просто нужно последовательно обрабатывать каждую строку.
После подтверждения сбора система переходит к следующей инструкции.
Этот последовательный поток критичен, поскольку он определяет маршрут ходьбы через склад, используя алгоритмы оптимизации.
Поскольку это пользовательское приложение, мы могли реализовать эту оптимизацию без опоры на внешнего редактора.
Почему создавать пользовательское решение? Потому что это дешевле и проще в реализации.
Первоначально клиент планировал приобрести коммерческое решение и попросил меня интегрировать решение для поиска пути.
После исследования мы обнаружили, что было бы дороже интегрировать приложение в решение поставщика, чем создать что-то с нуля.
Как выглядит процесс без функции голосового ИИ?
Ручной режим: базовый вариант на основе экрана
В ручном режиме оператор читает каждую инструкцию на экране и подтверждает нажатием кнопки.
На каждом этапе доступны два действия:
- Подтвердить сбор: оператор собрал нужное количество
- Сообщить о проблеме: место пусто, количество не совпадает или товар повреждён
Я создал ручной режим как надёжную резервную копию на случай проблем с ElevenLabs.
Но он держит глаза оператора и одну руку привязанными к устройству на каждом этапе.
Нам нужно добавить голосовые команды!
Голосовой режим: свободные руки с ElevenLabs
Теперь, когда вы знаете, почему мы хотим заменить голосовым режимом экранное взаимодействие, позвольте мне объяснить, как я добавил два компонента на базе ИИ.
Преобразование текста в речь: ElevenLabs читает инструкции
Когда оператор начинает новую партию сбора, система использует ElevenLabs для преобразования инструкций в естественную речь.