Очень большие и очень грязные данные

Изначально хотели поделиться с вами интересной статистикой по анализу выложенных данных о среднесписочной численности, но планам не суждено было сбыться. Поясним, в чем же дело. Итак, налоговики в "человеконечитаемом" формате раскрыли информацию о 2.494.543 юридических лицах (не забывайте про наш telegram-бот "Призрачный бизнес" - он поможет узнать численность быстро и легко, насколько позволяет качество данных).

Проверили данные на предмет "выбросов", т.е. значений, которые очень сильно отклоняются. Сильно удивились. У 381.178 организаций численность - ноль человек. Это 15% выложенных данных. Зададимся вопросом: как могло оказаться столько организаций с нулем, если хотя бы 1 человек должен быть? Возможно, лишь два варианта ответа. Первый - данные некорректны. Второй - данные корректны, и отчеты сдавались с нулями, никто не соотносит данные таких отчетов с иными показателями. Т.е. можно писать любую липу? В любом случае, оба варианта означают полную бесполезность представленных данных.

На этом чудеса не закончились. Попытавшись проанализировать данные в разрезе регионов, выяснилось, что на текущий момент полностью отсутствуют данные по девяти регионам!!! По странному стечению обстоятельств, это регионы с кодами от 01 до 09 (Республика Адыгея, Республика Башкортостан и др.). В итоге, по 11% субъектов информации вообще нет. Собственно, это подтверждает сопоставление с ЕГРЮЛ, в котором на конец 2017 года числилось 4,3 миллиона юридических лиц. В открытых грязных данных - 2,5 млн.

В сухом остатке мы имеем непонятный набор данных, к достоверности которых слишком много вопросов. Будет ли что-то меняться? Скорее нет, ибо мотивация на прозрачность процедур отсутствует.

P.S. Кстати 1 октября нас должны обрадовать данными из бухгалтерской отчетности и суммой уплаченных налогов. Можно только представить, что за винегрет будет там. И последний вопрос в пустоту. Почему данные только за 2017 год? Поправки в ст.102 НК охватывают и 2016 год, или по нему всем "амнистия"?

Фото: Hans Veth

Подписаться на блог: