Как работает отбор на выездную проверку на уровне статистики
Публикация статистики налогового контроля — хороший повод разобраться без хайпа и псевдомаркетинговой шелухи в том, как именно статистически работает отбор кандидатов на выездную налоговую проверку.
Кто-то всерьез думает, что в недрах ФНС есть секретный инструмент, который не хуже Суда Божьего определяет, кому куда.
Для начала немного теории.
Задача классификации
Мы имеем дело с бинарным классификатором — это значит, что он принимает всего два значения в отношении налогоплательщика: 1 — назначим выездную проверку, 0 — не назначим.
На основании каких именно признаков делается классификация на данный момент, не так уж важно. Просто исходим из того, что классификатор — это некая модель, которая по определенным признакам прогнозирует, к какому классу относится объект. Нам важно понять, по каким критериям можно оценить качество такой модели. И тут мы переходим к такому понятию, как Матрица ошибок.
Наша модель даёт 4 варианта ответа (исхода):
- Налогоплательщик, который не уплачивает налоги, распознан как кандидат на ВНП. У нас истинно-положительный результат (True Positive).
- Исправно уплачивающий налоги налогоплательщик распознан как неинтересный для ВНП. Это истинно-отрицательный результат (True Negative).
- Исправно уплачивающий налоги налогоплательщик распознан как кандидат для ВНП. Это ложно-положительный результат (False Positive), это же ошибка I рода.
- Налогоплательщик, который не уплачивает налоги, распознан как добропорядочный, и ВНП не назначена. У нас ложно-отрицательный результат (False Negative) и ошибка II рода.
Как оценить качество классификации
Для чего нужна оценка качества и что именно такая оценка показывает? Метрики качества позволяют оценить, насколько модель лучше, чем подбрасывание монетки.
Собственно, с помощью Матрицы Ошибок можно рассчитать наиболее популярные метрики качества нашей модели. Коротко разберем их, чтобы понимать, что они означают.
Accuracy — часто ошибочно определяют как Точность, что не совсем отражает суть показателя. Показывает долю правильных ответов модели. Однако этот показатель может вводить в заблуждение, когда мы имеем дело с дисбалансной выборкой (дисбалансом классов). Например, если мы строим модель определения спама, то в реальности 97% сообщений — это спам. Поэтому модель может «научиться», что выгоднее всего все сообщения признавать спамом, и точность будет 97%. Только польза от такой модели нулевая. В налоговом контроле аналогичная проблема — большинство налогоплательщиков законопослушные, как бы кому ни хотелось думать иначе. Просто запомните на будущее: когда кто-то вам говорит, что точность модели близка к 100%, разумно будет скептически отнестись к таким заявлениям.
Precision — Точность. Это доля истинно-положительных ответов модели к числу всех положительных ответов. Если посчитать этот показатель на основе данных статистики ФНС за 2025 год по юридическим лицам, то получим: 97,6% (5 409 ÷ (5 409 + 131)). 5 409 — это результативные ВНП, 131 — ВНП без доначислений.
Recall — Полнота. Это доля предсказанных положительных ответов модели к сумме всех объектов, которые принадлежат положительному классу. Т.е. этот показатель показывает, насколько модель может находить данный класс. Мы, к сожалению, не сможем рассчитать этот показатель на данных ФНС. Почему? Нам не хватает данных о False Negative, т.е. количества налогоплательщиков, которым ВНП не назначена, но они являются нарушителями.
Есть еще достаточно много показателей, таких как F1 score, ROC-AUC и др.
Для оценки работы модели с дисбалансной выборкой используют Точность и Полноту. Но сложность настройки модели в том, что получить максимальные показатели этих метрик невозможно. Рост одной метрики неизбежно будет понижать другую. Т.е. увеличивая Полноту, мы начинаем «охватывать» больше объектов, определяя их как кандидатов на проверку, но тогда неизбежно у нас появятся ложно-положительные ответы, что снизит Точность.
Что это нам дает?
Попробуем приземлить теоретические выкладки на результаты контрольной работы. Можно обратить внимание на несколько интересных моментов. Начинает проглядывать логика в нежелании ФНС как-либо наращивать количество выездных проверок (увеличивать Полноту): это должно приводить к снижению результативных проверок (снижению Точности). Однако сравнение итогов 2024 и 2025 года дает иную картину. В 2025 году прирост количества ВНП составил 12%, а результативность даже чуть подросла. Неожиданно?
При таких вводных кажется разумным увеличивать количество выездных проверок, ибо будет еще больше результативных доначислений. Как говорят стартаперы: «Пора масштабироваться». Почему же мы не видим взрывного роста ВНП? Пишите свою версию в комментариях. Как-то в версию ограниченности ресурсов не очень верится, на такое доброе дело должны быть выделены любые ресурсы ;)
Комментарии