Разработка computer vision-системы для кухни и контроля порций

Кастомные CV-системы для коммерческих кухонь и ресторанных сетей: контроль порций по фото-эталону, проверка качества блюд, аудит ХАССП и СИЗ, контроль пищевых отходов, распознавание блюд на кассе самообслуживания. Прямой опыт foodtech-CV — кейс KFC face-recognition: биометрический учёт смен на Intel RealSense, 100% точность за месяц тестирования.

Что такое computer vision для кухни и кому подходит

Computer vision (CV) на коммерческой кухне — это система камер и обученных нейросетевых моделей, которая в реальном времени «видит» происходящее на станциях и превращает это в данные для управляющего. Не замена шеф-повара и не «всевидящий глаз» — это рабочий инструмент для тех операций, где раньше работали ручная проверка и бумажный журнал.

CV на кухне отвечает на конкретные вопросы:

  • Соответствует ли порция фото-эталону из технологической карты?
  • Носит ли сотрудник на смене перчатки, маску и сетку для волос?
  • Что выбрасывается в отходы и сколько это стоит бизнесу?
  • Соблюдается ли разделение потоков сырого и готового продукта?
  • Правильно ли собран заказ перед выдачей курьеру?

Это узкий рабочий инструмент, и он оправдан, когда:

  • Сеть стандартизирует процессы по всем точкам и страдает от расхождений в качестве.
  • Стоимость списаний и пересортицы превышает 5–10% выручки кухни.
  • Нарушения по ХАССП происходят регулярно и приводят к штрафам.
  • В сети уже работает приложение для управляющего или полноценная автоматизация сети — и нужен следующий слой данных.

Если сеть только проектирует базовую цифровизацию — лучше начать с приложения для управляющего или ERP, а CV добавить отдельным модулем через 6–12 месяцев. Если базовая цифровизация уже есть — CV даёт следующий шаг, который раньше был доступен только глобальным сетям.

[ ЗАДАЧИ ]

Что умеет computer vision на ресторанной кухне

Универсальной «CV-системы для кухни» не существует — каждая задача решается своей моделью, своими камерами и своим интерфейсом. Под бизнес обычно выбирают 1–2 приоритетные задачи для MVP, остальные добавляют поэтапно.

[ 01 ]

Контроль порций и качества блюд

Камера над станцией сборки сравнивает порцию с фото-эталоном из техкарты и проверяет визуальное качество — цвет прожарки, выкладку, наличие топпингов. Недовес и перевес портят себестоимость блюда на 2–4%; на федеральной сети это десятки миллионов рублей в год. Технически — RGB-камера и сегментация (Mask R-CNN или SAM), дообученные на снимках вашей кухни.

[ 02 ]

Контроль ХАССП и СИЗ

Камеры в зоне приёмки, на термообработке и упаковке проверяют перчатки, маски и шапочки, разделение потоков сырого и готового, температурный режим (через термодатчики). Вместе с инцидент-репортингом в приложении управляющего и обучением через LMS — полноценный контур контроля санитарных норм.

[ 03 ]

Контроль пищевых отходов

Камера над корзинами и подключённые весы определяют, что выбрасывается, в каком объёме и сколько это стоит. Типичная доля отходов в общепите — 5–10% выручки кухни, контроль возвращает значительную часть. Технически — RGB-камера, весы и классификатор на 100–500 видов пищи, обученный на вашей сети.

[ 04 ]

Распознавание блюд на кассе самообслуживания

Клиент ставит поднос на платформу, камера за 1–2 секунды распознаёт все блюда и считает чек. Ускоряет обслуживание в часы пик в корпоративных столовых и фастфуде. Технически — камера над платформой, multi-class detection (YOLO или SSD) и интеграция с POS. Частый сценарий для корпоративного питания.

Обычно сеть стартует с 1–2 задач — чаще контроль ХАССП и отходов как самые безболезненные для команды кухни — и добавляет остальные через 6–12 месяцев. Контроль нарушений хорошо ложится в связку с приложением управляющего и LMS для линейного персонала, если выявлены систематические ошибки конкретного сотрудника. Распознавание блюд на кассе самообслуживания особенно востребовано в приложениях для корпоративных столовых.

Чем CV для кухни отличается от CV для клиента

На рынке часто путают эти классы продуктов. CV для кухни работает в управляемой среде; CV для клиента — на пользовательском смартфоне с произвольным фоном. Архитектурно и продуктово это разные вещи.

ПараметрCV для кухни (внутренние процессы)CV для клиента (на смартфоне)
Где работаетфиксированная камера на станциисмартфон клиента
Условия съёмкиконтролируемые (свет, фон, ракурс)произвольные
Аудиториясотрудник кухни и управляющийконечный пользователь
Размер моделибольшая (на сервере / edge-устройстве)компактная (на телефоне, SqueezeNet / MobileNet)
Точностькритична — это рабочий процессважна, но допустимы коррекции пользователем
Обучениена данных конкретной кухни сетина больших открытых датасетах
Регуляторикабиометрия персонала, 152-ФЗданные клиента, согласие в политике
Стоимость MVPот 5–8 млн ₽от 2–4 млн ₽
Главный рискложные срабатывания → раздражение командыпропуски → плохой UX

Клиентский CV — например, распознавание блюда для подсчёта калорий или поиска ресторана — отдельный класс продуктов, мы разбираем его на странице приложения для нутрициолога и персонального питания. Здесь речь про CV для коммерческой кухни.

Архитектура CV-системы для кухни

Архитектура зависит от выбранной задачи, но 5 базовых компонентов есть в любой системе.

1. Камеры

RGB-камеры закрывают большинство задач (порции, ХАССП, отходы) — от профессиональных IP-камер до Raspberry Pi с Pi Camera. 3D ToF-камеры (Intel RealSense) нужны для биометрии и защиты от обмана фотографией — этот стек мы использовали в кейсе KFC face-recognition. Опционально — термокамеры для контроля температуры и камеры с подсветкой для тёмных станций.

2. Edge-устройство или облако

Главный архитектурный выбор. Edge AI (NVIDIA Jetson, Intel NUC) — модель работает локально на кухне: реальное время, независимость от интернета, видео не уходит в облако. Облако — одна модель на всю сеть, проще обучение и обновления, но есть задержка и зависимость от связи. В реальных проектах часто гибрид: контроль порций в реальном времени — на edge, аналитика и обучение — в облаке. Подробнее про embedded — на странице разработки ПО для встраиваемых систем.

3. Обученная модель

Готовые модели (YOLO, ResNet, EfficientNet, SAM) — старт. Дальше дообучаем на данных конкретной сети: фотографии её блюд, эталоны порций, специфика сырья. Это требует разметки 5–15 тыс. снимков на класс блюда, цикла «обучить → протестировать → собрать ошибки → дообучить» и MLOps-инструментов для версионирования. Базовые фреймворки — PyTorch и TensorFlow.

4. Интеграция с операционным контуром

CV без интеграции — мёртвый сервис. Реальный продукт пишет события в приложение управляющего для оперативной реакции, в бэк-офис iiko / R-Keeper для аналитики смены, в LMS при систематических ошибках сотрудника и в HR-систему при нарушениях.

5. Дашборд управляющего

Веб-кабинет и мобильный экран, где видны текущие алерты, статистика по сменам и точкам, тренды и согласование исключений (например, «маска снимается на минуту по медпоказаниям»).

Регуляторика РФ для CV и биометрии

CV на кухне — это работа с видео сотрудников и потенциально клиентов. В РФ это регулируется жёстко.

  • 152-ФЗ для биометрии. Если система идентифицирует конкретного сотрудника (как в KFC face-recognition для учёта смен) — это биометрические данные: нужны отдельное согласие, отдельный контур безопасности, ограничения на трансграничную передачу. Облака — только российские (Yandex Cloud, VK Cloud, Selectel).
  • CV без идентификации — мягче. Если система анализирует процессы без распознавания конкретных людей (есть перчатки / нет перчаток, без привязки к человеку) — требования снижаются: это работа с обезличенными данными.
  • Согласие на видео сотрудников. Даже для обезличенного CV нужны уведомление и согласие в трудовом договоре или отдельной форме; камеры — в обозначенных зонах, с информационными табличками.
  • Видео клиентов — отдельная история. Распознавание лиц гостей требует отдельного согласия и более сложного контура; многие сети сознательно не используют такие функции — экономия не оправдывает риски.
  • ХАССП и проверки. CV-логи могут стать аргументом в спорах с Роспотребнадзором — как в пользу сети, так и против неё. Подход к хранению логов лучше согласовать с юристами заранее.
[ ПОЧЕМУ SURF ]

За 14 лет создали 300+ мобильных и веб-продуктов

300+ реализованных проектов, 100 международных наград, №1 в мобильной разработке, 250 специалистов в команде. Прямой foodtech-CV — KFC face-recognition: 100% точность распознавания за месяц тестирования, защита от обмана фотографией на Intel RealSense.

100%

Точность распознавания за месяц тестирования

Кейс KFC face-recognition, Intel RealSense

3

CV-кейса в продакшене

KFC, Лабиринт, AI Fashion

№ 1

В разработке приложений для крупного бизнеса

Рейтинг Рунета 2024

250

Штатных специалистов

ML, CV, backend, дизайн, QA, DevOps

[ КЕЙСЫ ]

Кейсы Surf

Мы создаём foodtech-продукты для лидеров рынка — от стартапов до федеральных сетей. Несколько релевантных проектов из портфеля (полный — на странице foodtech-практики):

Юнит-экономика CV для кухни

CV — недешёвый проект (от 5 млн ₽ за узкий MVP, от 18 млн ₽ за полную систему на федеральную сеть). Окупаемость считаем по четырём направлениям.

  • Снижение списаний и отходов. По публичным данным сервисов контроля отходов, в коммерческой кухне отходы составляют 5–10% выручки; CV-контроль возвращает существенную часть (в публичных кейсах указывают до −50%). На сети с месячной выручкой кухонь 100 млн ₽ это миллионы рублей экономии в месяц.
  • Контроль порций. Недовес бьёт по впечатлению и удержанию клиента, перевес — по себестоимости. Эффективный CV-контроль экономит 2–4% себестоимости блюда: на сети с месячной себестоимостью 50 млн ₽ это 1–2 млн ₽ в месяц.
  • Снижение штрафов. Один серьёзный штраф Роспотребнадзора по ТР ТС 021/2011 — от десятков до сотен тысяч рублей плюс возможная приостановка работы. CV-контроль ХАССП и СИЗ снижает риск и даёт доказательную базу при спорах.
  • Меньше жалоб и возвратов. Контроль качества блюд (выкладка, цвет, состав сета) снижает жалобы и возвраты. Каждый возврат — это потеря себестоимости, время сотрудника и удар по репутации.

На сети из 50+ ресторанов CV-инвестиция окупается за 6–18 месяцев. Точную финансовую модель готовим перед стартом на основе исторических данных сети.

Кастомная CV-система или готовая коробка

Главный международный пример коробки — Winnow Vision (3 500+ кухонь в 94 странах, специализация — контроль отходов). У коробки одна задача; у кастома — мультизадачная система под вашу сеть.

ПараметрКастомная CVКоробка (Winnow и аналоги)
Срок запускаот 4–6 месяцевзапуск ~100 дней
Задачилюбые из перечисленныхкак правило, только контроль отходов
Адаптация под кухнюдообучение на данных сетиуниверсальная база, без локализации
Интеграции (POS, приложение управляющего, LMS, HR)под заказэкспорт через API
Владение даннымиу бизнесау платформы (доступ через API)
Стоимостьот 8–18 млн ₽ кастомподписка (цены не публикуются)
Совокупная стоимость владения за 3–5 летразовая инвестиция + поддержкаподписка × число месяцев × число кухонь

Если задача исключительно контроль отходов на 1–3 кухнях — готовый продукт справится. Если нужна система на 2–3 задачи с интеграцией в приложение управляющего и дообучением на данных вашей сети — кастом сразу: миграция с коробки позже обходится в стоимость нового проекта.

[ ПРОЦЕСС ]

Процесс разработки CV-системы

[ 01 ]

Discovery и аудит

2–3 недели. Аудит кухонь, выбор приоритетной задачи, определение целевых показателей, карта юридических рисков. План CV-системы и финансовая модель окупаемости.

[ 02 ]

Сбор данных и разметка

3–5 недель. Установка камер на пилотной кухне, сбор первой выборки, разметка датасета 5–15 тыс. снимков.

[ 03 ]

Обучение модели

3–5 недель. Базовая модель и дообучение на данных кухни, бенчмарки качества, протокол тестирования.

[ 04 ]

Интеграция и пилот

4–6 недель. Edge-устройства на пилотной кухне, интеграция с приложением управляющего и POS, прогон в продакшене на 1–2 точках.

[ 05 ]

Дообучение и масштабирование

4–12 недель по размеру сети. Сбор ошибок пилота, дообучение, выкатка на остальные точки, передача знаний.

Стек технологий

СлойТехнологии
КамерыПрофессиональные IP / Intel RealSense / Raspberry Pi + Pi Camera
Edge-устройстваNVIDIA Jetson AGX / Xavier / Nano, Intel NUC
CV-фреймворкиPyTorch, TensorFlow
Детекция объектовYOLO (Ultralytics), DETR, SSD
СегментацияMask R-CNN, SAM (Segment Anything Model)
Распознавание лицFace SDK, FaceNet, ArcFace
MLOpsMLflow, DVC, Weights & Biases, собственные пайплайны
Модели на устройствеCore ML (iOS), TFLite (Android), ONNX Runtime
Backend и оркестрацияPython (FastAPI / Django), Kotlin + Spring Boot
ХранилищаPostgreSQL, ClickHouse, S3-совместимое объектное хранилище
ИнфраструктураDocker, Kubernetes, российские облака — хранение данных по 152-ФЗ

Команда: продакт, ML-инженер, CV-эксперт, data-инженер (разметка и пайплайны), backend-разработчик (интеграции), edge-инженер / DevOps (развёртывание на Jetson / NUC), QA, закреплённый тимлид-архитектор.

Стоимость и сроки

Тип CV-проектаСрок MVPСтоимость «от»
Узкий MVP (1 задача на 1 кухне)4–5 месяцевот 5 млн ₽
Полнофункциональная CV-система (2–3 задачи на сеть 5–20 точек)6–8 месяцевот 12 млн ₽
CV для федеральной сети (5 задач, дообучение на каждой точке)9–12 месяцевот 18 млн ₽
Дополнение: модуль распознавания лиц+2–3 месяца+от 3 млн ₽

Что влияет на бюджет: количество задач (1 против 5), глубина дообучения (готовая база или кастом под кухню), edge против облака, объём датасета (5 тыс. против 50 тыс. снимков на класс), количество кухонь, набор интеграций (только приложение управляющего или весь стек с POS, LMS и HR). Базовая ML-услуга со всеми классами задач — на странице машинного обучения под ключ. Если нужно проверить узкую гипотезу за 2–3 месяца — рассмотрите MVP foodtech.

[ ОТЗЫВЫ ]

Клиенты о работе с нами

Бургер Кинг

Благодаря усилиям команды Surf продажи через цифровые каналы выросли на 85% в течение года. Мобильное приложение заняло первое место в категории «Еда и напитки» в App Store и Google Play.

Татьяна Павлова

Директор по продукту

Додо Пицца

Я протестировал все приложения коллег по рынку и могу сказать, что это, пожалуй, лучшее мобильное приложение для заказа в России — очень быстрое, красивое и удобное.

Федор Овчинников

Основатель Додо Пиццы

KFC

С новой системой у нас улучшились процессы отчётности, планирования и составления графиков. Surf создала впечатляющий дизайн и удобный интерфейс, а также хорошо организованный процесс коммуникации.

Геннадий Дорофеев

Менеджер по инновациям

[ FAQ ]

Клиенты часто спрашивают

Да. Базовая модель (YOLO / SAM / готовые предобученные сети) даёт стартовое качество. Параллельно с пилотом мы собираем первый датасет на 5–15 тыс. размеченных снимков и дообучаем модель за 3–5 недель. Полный цикл «без данных → продакшен» — 4–6 месяцев.
Зависит от задачи. Для биометрии в контролируемой среде (как в KFC face-recognition) — 100% за месяц тестирования. Для контроля порций — 85–95% после дообучения на данных конкретной кухни. Для контроля отходов — 80–95% в зависимости от разнообразия отходов и качества разметки.
Современное edge-устройство (NVIDIA Jetson AGX или Intel NUC) — это коробка размером с роутер, подключается к существующей электросети и Wi-Fi. Стоимость одного устройства — от 50 до 200 тыс. ₽; на большинство задач его мощности хватает с запасом.
Часто да — если разрешение от 1080p, частота 25–30 fps и угол съёмки подходит для задачи. Иногда нужно добавить камеры на станции, где видеонаблюдения не было. Существующий парк камер мы аудируем на этапе Discovery.
Для CV с идентификацией сотрудников (как учёт смен по лицу) — отдельное согласие в трудовом договоре, хранение биометрии на российских облаках (Yandex Cloud, VK Cloud, Selectel), регулярный аудит. Для CV без идентификации (детекция СИЗ без привязки к человеку) требования мягче.
Да. Накопленные данные по отходам экспортируются через API. Мы переносим их в собственную систему, добавляем 2–3 новые задачи (контроль порций, ХАССП, качество) и интегрируем с приложением управляющего и POS. Миграция занимает 4–6 месяцев.
Главный продуктовый риск — раздражение команды кухни из-за ложных алертов. На MVP-стадии оптимизируем модели так, чтобы доля ложных срабатываний была не выше 1–2%. Если выше — сначала включаем «тихий режим» (события в дашборд без уведомлений) на 2–3 месяца для калибровки.

[ обратная связь ]

Расскажите о проекте и мы предложим подходящие решения

напишите нам в Telegram
добавить файл

Отправляя запрос, вы соглашаетесь с политикой конфиденциальности