F3. ML-метрика ≠ бизнес-метрика

13 минintroБесплатно

Почему высокий ROC-AUC сам по себе не равен revenue, и как связать offline / online / business / guardrail метрики.

Чему научишься

✓Понимать разницу между offline, online, business и guardrail метриками
✓Видеть, почему ROC-AUC сам по себе не равен выручке
✓Строить связь «метрика модели → бизнес-эффект»

Четыре уровня метрик

В ML-продукте всегда живут четыре слоя метрик, и их нельзя смешивать:

Offline — качество модели на исторических данных до релиза: ROC-AUC, PR-AUC, precision, recall, MAE, NDCG.
Online — поведение в проде на живом трафике: CTR, конверсия, time-to-resolution, доля принятых рекомендаций.
Business — деньги и цели бизнеса: выручка, маржа, retention, fraud loss, LTV, отток.
Guardrail — «не сломать»: латентность, стоимость на запрос, жалобы, доля ошибочных блокировок, fairness.

Почему ROC-AUC ≠ revenue

ROC-AUC показывает, насколько хорошо модель ранжирует положительные примеры выше отрицательных. Но он ничего не говорит о том:

какой порог вы выберете и сколько ложных срабатываний это даст;
сколько денег стоит ложное срабатывание против пропуска;
примут ли пользователи решения модели в интерфейсе.

Можно поднять offline-метрику и не сдвинуть бизнес: если порог плохой, UX не доносит ценность, или метрика не та.

Связь метрик: metrics tree

Стройте дерево сверху вниз:

Business: снизить fraud loss на 15%
  └─ Online: доля пойманного фрода в потоке ↑, доля ложных блокировок ↓
       └─ Offline: recall по fraud, PR-AUC
            └─ Guardrail: латентность скоринга < 200мс, жалобы клиентов не растут

Каждая offline-метрика должна «вести» к online, а online — к business. Если связь не прослеживается, метрика выбрана зря.

Пример: антифрод

Accuracy здесь обманывает: при 1% фрода модель «всё легально» даёт 99% accuracy и ловит ноль мошенников.
Правильно: recall fraud, precision, PR-AUC + бизнес-метрика fraud loss и guardrail доля ложных блокировок (чтобы не злить честных клиентов).

Частые ошибки

Оптимизировать accuracy на несбалансированных данных.
Докладывать руководству offline-метрику как будто это бизнес-результат.
Забыть guardrail → улучшили основную метрику ценой латентности/стоимости/жалоб.
Нет связи offline → online → business.

Что спросить у команды

У DS: «Какая offline-метрика и почему именно она отражает нашу бизнес-цель?»
У аналитика: «Как мы измерим online-эффект и за какой срок?»
У бизнеса: «Какая guardrail-метрика не должна просесть ни при каких условиях?»

🧠 Запомни: Offline → Online → Business → Guardrail. Метрика без связи со следующим уровнем — метрика-сирота, она не доказывает пользу модели.

Итог

Метрика модели — не цель, а звено цепи. Сильный продакт всегда показывает путь от offline-метрики к деньгам и держит guardrails, чтобы «улучшение» не вышло боком.

Проверь себя

1/2. Фрод — 0.5% транзакций. Какая метрика обманет?

2/2. Зачем нужна guardrail-метрика?

Вопросы на собеседовании

Так эту тему спрашивают на интервью на AI/ML Product Manager. Нажми на вопрос, чтобы увидеть эталонный ответ.

🎯 Закрепить практикой: Антифрод: какая метрика главнаяВ тренажёр →

← К программе

Ключевые понятия

offline metriconline metricbusiness metricguardrailmetrics tree

Источники