F3. ML-метрика ≠ бизнес-метрика
Почему высокий ROC-AUC сам по себе не равен revenue, и как связать offline / online / business / guardrail метрики.
- ✓Понимать разницу между offline, online, business и guardrail метриками
- ✓Видеть, почему ROC-AUC сам по себе не равен выручке
- ✓Строить связь «метрика модели → бизнес-эффект»
Четыре уровня метрик
В ML-продукте всегда живут четыре слоя метрик, и их нельзя смешивать:
- Offline — качество модели на исторических данных до релиза: ROC-AUC, PR-AUC, precision, recall, MAE, NDCG.
- Online — поведение в проде на живом трафике: CTR, конверсия, time-to-resolution, доля принятых рекомендаций.
- Business — деньги и цели бизнеса: выручка, маржа, retention, fraud loss, LTV, отток.
- Guardrail — «не сломать»: латентность, стоимость на запрос, жалобы, доля ошибочных блокировок, fairness.
Почему ROC-AUC ≠ revenue
ROC-AUC показывает, насколько хорошо модель ранжирует положительные примеры выше отрицательных. Но он ничего не говорит о том:
- какой порог вы выберете и сколько ложных срабатываний это даст;
- сколько денег стоит ложное срабатывание против пропуска;
- примут ли пользователи решения модели в интерфейсе.
Можно поднять offline-метрику и не сдвинуть бизнес: если порог плохой, UX не доносит ценность, или метрика не та.
Связь метрик: metrics tree
Стройте дерево сверху вниз:
Business: снизить fraud loss на 15%
└─ Online: доля пойманного фрода в потоке ↑, доля ложных блокировок ↓
└─ Offline: recall по fraud, PR-AUC
└─ Guardrail: латентность скоринга < 200мс, жалобы клиентов не растут
Каждая offline-метрика должна «вести» к online, а online — к business. Если связь не прослеживается, метрика выбрана зря.
Пример: антифрод
- Accuracy здесь обманывает: при 1% фрода модель «всё легально» даёт 99% accuracy и ловит ноль мошенников.
- Правильно: recall fraud, precision, PR-AUC + бизнес-метрика fraud loss и guardrail доля ложных блокировок (чтобы не злить честных клиентов).
Частые ошибки
- Оптимизировать accuracy на несбалансированных данных.
- Докладывать руководству offline-метрику как будто это бизнес-результат.
- Забыть guardrail → улучшили основную метрику ценой латентности/стоимости/жалоб.
- Нет связи offline → online → business.
Что спросить у команды
- У DS: «Какая offline-метрика и почему именно она отражает нашу бизнес-цель?»
- У аналитика: «Как мы измерим online-эффект и за какой срок?»
- У бизнеса: «Какая guardrail-метрика не должна просесть ни при каких условиях?»
🧠 Запомни: Offline → Online → Business → Guardrail. Метрика без связи со следующим уровнем — метрика-сирота, она не доказывает пользу модели.
Итог
Метрика модели — не цель, а звено цепи. Сильный продакт всегда показывает путь от offline-метрики к деньгам и держит guardrails, чтобы «улучшение» не вышло боком.
Так эту тему спрашивают на интервью на AI/ML Product Manager. Нажми на вопрос, чтобы увидеть эталонный ответ.