Архитектура зависит от выбранной задачи, но 5 базовых компонентов есть в любой системе.
RGB-камеры закрывают большинство задач (порции, ХАССП, отходы) — от профессиональных IP-камер до Raspberry Pi с Pi Camera. 3D ToF-камеры (Intel RealSense) нужны для биометрии и защиты от обмана фотографией — этот стек мы использовали в кейсе KFC face-recognition. Опционально — термокамеры для контроля температуры и камеры с подсветкой для тёмных станций.
Главный архитектурный выбор. Edge AI (NVIDIA Jetson, Intel NUC) — модель работает локально на кухне: реальное время, независимость от интернета, видео не уходит в облако. Облако — одна модель на всю сеть, проще обучение и обновления, но есть задержка и зависимость от связи. В реальных проектах часто гибрид: контроль порций в реальном времени — на edge, аналитика и обучение — в облаке. Подробнее про embedded — на странице разработки ПО для встраиваемых систем.
Готовые модели (YOLO, ResNet, EfficientNet, SAM) — старт. Дальше дообучаем на данных конкретной сети: фотографии её блюд, эталоны порций, специфика сырья. Это требует разметки 5–15 тыс. снимков на класс блюда, цикла «обучить → протестировать → собрать ошибки → дообучить» и MLOps-инструментов для версионирования. Базовые фреймворки — PyTorch и TensorFlow.
CV без интеграции — мёртвый сервис. Реальный продукт пишет события в приложение управляющего для оперативной реакции, в бэк-офис iiko / R-Keeper для аналитики смены, в LMS при систематических ошибках сотрудника и в HR-систему при нарушениях.
Веб-кабинет и мобильный экран, где видны текущие алерты, статистика по сменам и точкам, тренды и согласование исключений (например, «маска снимается на минуту по медпоказаниям»).