ML
← Программа

F3. ML-метрика ≠ бизнес-метрика

13 минintroБесплатно

Почему высокий ROC-AUC сам по себе не равен revenue, и как связать offline / online / business / guardrail метрики.

Чему научишься
  • Понимать разницу между offline, online, business и guardrail метриками
  • Видеть, почему ROC-AUC сам по себе не равен выручке
  • Строить связь «метрика модели → бизнес-эффект»

Четыре уровня метрик

В ML-продукте всегда живут четыре слоя метрик, и их нельзя смешивать:

  1. Offline — качество модели на исторических данных до релиза: ROC-AUC, PR-AUC, precision, recall, MAE, NDCG.
  2. Online — поведение в проде на живом трафике: CTR, конверсия, time-to-resolution, доля принятых рекомендаций.
  3. Business — деньги и цели бизнеса: выручка, маржа, retention, fraud loss, LTV, отток.
  4. Guardrail — «не сломать»: латентность, стоимость на запрос, жалобы, доля ошибочных блокировок, fairness.

Почему ROC-AUC ≠ revenue

ROC-AUC показывает, насколько хорошо модель ранжирует положительные примеры выше отрицательных. Но он ничего не говорит о том:

  • какой порог вы выберете и сколько ложных срабатываний это даст;
  • сколько денег стоит ложное срабатывание против пропуска;
  • примут ли пользователи решения модели в интерфейсе.

Можно поднять offline-метрику и не сдвинуть бизнес: если порог плохой, UX не доносит ценность, или метрика не та.

Связь метрик: metrics tree

Стройте дерево сверху вниз:

Business: снизить fraud loss на 15%
  └─ Online: доля пойманного фрода в потоке ↑, доля ложных блокировок ↓
       └─ Offline: recall по fraud, PR-AUC
            └─ Guardrail: латентность скоринга < 200мс, жалобы клиентов не растут

Каждая offline-метрика должна «вести» к online, а online — к business. Если связь не прослеживается, метрика выбрана зря.

Пример: антифрод

  • Accuracy здесь обманывает: при 1% фрода модель «всё легально» даёт 99% accuracy и ловит ноль мошенников.
  • Правильно: recall fraud, precision, PR-AUC + бизнес-метрика fraud loss и guardrail доля ложных блокировок (чтобы не злить честных клиентов).

Частые ошибки

  • Оптимизировать accuracy на несбалансированных данных.
  • Докладывать руководству offline-метрику как будто это бизнес-результат.
  • Забыть guardrail → улучшили основную метрику ценой латентности/стоимости/жалоб.
  • Нет связи offline → online → business.

Что спросить у команды

  • У DS: «Какая offline-метрика и почему именно она отражает нашу бизнес-цель?»
  • У аналитика: «Как мы измерим online-эффект и за какой срок?»
  • У бизнеса: «Какая guardrail-метрика не должна просесть ни при каких условиях?»

🧠 Запомни: Offline → Online → Business → Guardrail. Метрика без связи со следующим уровнем — метрика-сирота, она не доказывает пользу модели.

Итог

Метрика модели — не цель, а звено цепи. Сильный продакт всегда показывает путь от offline-метрики к деньгам и держит guardrails, чтобы «улучшение» не вышло боком.

Проверь себя
1/2. Фрод — 0.5% транзакций. Какая метрика обманет?
2/2. Зачем нужна guardrail-метрика?
Вопросы на собеседовании

Так эту тему спрашивают на интервью на AI/ML Product Manager. Нажми на вопрос, чтобы увидеть эталонный ответ.

🎯 Закрепить практикой: Антифрод: какая метрика главнаяВ тренажёр →
Ключевые понятия
offline metriconline metricbusiness metricguardrailmetrics tree