ИТ-манёвр: как понять естественный интеллект?

Технологии при правильном применении могут помочь обнаружить интересные факты. Сейчас модно говорить "инсайты". Мы написали пару простых скриптов на python и прогнали через них текст ИТ-маневра.

Результаты грустные, но предсказуемые. На 52 предложения приходится 15 предложений, длинной в более 50 слов. В ТОП-3 предложения от 148 и более слов в каждом! В половине предложений более 4-х запятых.

Абсолютный рекордсмен - предложение из 209 слов с 25 запятыми. Поглядим на этого титана юридической мысли:

доля доходов от реализации экземпляров разработанных организацией программ для ЭВМ, баз данных, передачи исключительных прав на разработанные ею программы для ЭВМ, базы данных, предоставления прав использования указанных программ для ЭВМ, баз данных по лицензионным договорам, в том числе путем предоставления удаленного доступа к программам для ЭВМ и базам данных, указанным в настоящем абзаце, включая обновления к ним и дополнительные функциональные возможности, через информационно-телекоммуникационную сеть "Интернет", от оказания услуг (выполнения работ) по разработке, адаптации и модификации программ для ЭВМ, баз данных (программных средств и информационных продуктов вычислительной техники), а также услуг (работ) по установке, тестированию и сопровождению указанных программ для ЭВМ, баз данных (за исключением доходов от предоставления прав использования программ для ЭВМ, баз данных (в том числе путем предоставления удаленного доступа к ним через информационно-телекоммуникационную сеть "Интернет"), если такие права состоят в получении возможности распространять рекламную информацию в информационно-телекоммуникационной сети "Интернет" и (или) получать доступ к такой информации, размещать предложения о приобретении (реализации) товаров (работ, услуг), имущественных прав в информационно-телекоммуникационной сети "Интернет", осуществлять поиск информации о потенциальных покупателях (продавцах) и (или) заключать сделки) по итогам девяти месяцев года, предшествующего году перехода организации на уплату страховых взносов по пониженным тарифам, предусмотренным подпунктом 1.1 пункта 2 настоящей статьи, составляет не менее 90 процентов в сумме всех доходов организации за указанный период;

Риторический вопрос: "Как это вообще можно читать?". Хорошо, мы в подкасте "Сомнолог" можем прочитать вам на ночь и не такое. Но как можно нормально уяснить смысл сего текста?

Не обошлось без излюбленного оборота "чего-то там, указанное в абзаце четвертом настоящего пункта." Возможно, вождение пальцем по страничке является упражнением на развитие мелкой моторики и профилактикой дегенеративных заболеваний мозга. Кто знает. После разминки пальцев может попасться задачка на логику и счет. Ибо при исключении абзаца в НК нумерация (внезапно!) не меняется.

Кажется, пора серьезно менять подходы к юридической технике и выжигать устаревшие практики. Попробуем через недельку показать, как мог бы выглядеть текст. Подписывайтесь на обновления!

Ниже для интересующихся приведем несколько диаграмм по частотному анализу.

Распределение предложений по количеству слов

Частота использования слов

Частота использования глаголов

Частота использования существительных

P.S. Желающие взглянуть "под капот" могут скачать код в репозитории и поупражняться с другими "подопытными".

Фото Oleksii Hlembotskyi