1. instagram
  2. facebook
  3. whatsapp
  4. telegram
  5. bot

Подсчёт товаров в корзине по фото и видео

Цели проекта
  • Точно считать количество товаров на фото/видео в реальном времени.
  • Поддержать обучение под конкретные SKU (бутылки, пачки, коробки).
  • Работать в сложных условиях: разные ракурсы, освещение, частичное перекрытие.
  • Обеспечить лёгкую интеграцию с кассой/WMS через API.
  Почему это важно
  • Сокращает время обслуживания
  • Минимизирует ошибки персонала
  • Помогает в учёте и аналитике продаж
  • Удобно интегрировать в существующую инфраструктуру магазина или склада
  Реализация проекта  Схема потока: Камера/Фото → Предобработка (resize, нормализация) → YOLOv8 → ByteTrack → Логика подсчёта (анти‑дубликат, таймаут трека) → Визуализация/Overlay → API‑ответ → Логи/метрики.  
  1. Анализ задачи Мы выяснили, что список товаров у клиента ограничен определёнными категориями (бутылки, пачки, коробки и т.д.). Это позволило сфокусироваться на распознавании конкретных классов объектов и увеличить точность.
  2. Выбор архитектуры Мы использовали YOLOv8, как современную и быструю CNN-модель для детекции объектов. Альтернативы (Faster R-CNN, EfficientDet) рассматривались, но YOLOv8 показала лучшее сочетание скорости и качества для работы в реальном времени.
  3. Обработка изображений и видео
  • Фото: детекция и подсчёт объектов на одном кадре.
  • Видео: подключили трекинг с помощью ByteTrack для избежания двойного учёта одного и того же предмета при движении камеры или тележки.
  1. Обучение под конкретные товары
  • Использовали Label Studio для разметки.
  • Применили data augmentation — изменяли яркость, контраст, повороты и масштабирование, чтобы модель была устойчива к разным условиям освещённости и углам съёмки.
  1. Тестирование и оптимизация
  • Проверяли точность на контрольных наборах данных.
  • Добились высокой скорости инференса на GPU с использованием CUDA — подсчёт за доли секунды.
  Ограничения и как мы их решаем
  • Жёсткие окклюзии: повышаем угол камеры, доп‑кадры сверху, хард‑кейсы в датасет.
  • Глянцевые поверхности/блики: корректируем экспозицию, добавляем аугментации glare.
  • Схожие формы разных SKU: обучение на конкретных упаковках + контроль по цветам/текстурам.
  • Движение камеры: стабилизация/кадрирование ROI, трекинг с инерцией треков.
  Стек технологий
  • Python + OpenCV — предобработка изображений и интеграция с камерой
  • Ultralytics YOLOv8 — детекция объектов
  • ByteTrack / DeepSORT — трекинг объектов в видео
  • Label Studio / Roboflow — разметка данных
  • FastAPI — API для интеграции с кассовым ПО и системами учёта
  • CUDA — ускорение на GPU
  Результат:
  • Точность подсчёта по фото: 96%
  • Точность по видео с трекингом: 93%
  • Скорость: до 25 кадров в секунду в режиме реального времени
  • Возможность масштабировать на новые типы товаров без полной переразметки — достаточно дообучения.