Анализ юридических текстов
Канцелярит против современных корпоративных штампов. Как мы отличаем реальный договор от машинной подделки.
Официальные документы — договоры, соглашения о конфиденциальности, публичные оферты и нормативные акты — это одна из самых сложных задач для алгоритмов проверки. Они написаны на специфическом языке, который максимально далек от повседневной человеческой речи. Он сух, изобилует повторами, строгими формулировками и страдательными залогами.
Но есть существенная разница между настоящим юридическим текстом, выверенным поколениями юристов, и имитацией, сгенерированной алгоритмом за несколько секунд.
Пример успешного разбора Orhuman
Вердикт, выданный алгоритмом при анализе фальшивого соглашения:
Как работает алгоритм на сложных документах
Русский юридический язык формировался десятилетиями. В нём есть тяжелые, но строгие и устоявшиеся конструкции. Популярные нейросети обучаются на более современных, универсальных западных стандартах. Поэтому, когда алгоритму ставят задачу написать "договор", он часто допускает стилистические ошибки.
-
1. Синдром корпоративных клише.
Настоящий договор об оказании услуг будет использовать конструкции вида «Исполнитель обязуется выполнить работы надлежащего качества». Алгоритм, пытаясь выдержать официальный стиль, часто срывается в маркетинговый пафос: «Стороны обязуются обеспечить бесшовную интеграцию инновационных решений для максимизации эффективности». Для профессионального юриста такие формулировки — обычная смысловая вода, не имеющая силы. -
2. Структурная симметрия.
Реальный закон или оферта выстраиваются неравномерно в зависимости от важности пунктов. Раздел об ответственности может занимать три страницы мелким текстом, а раздел о сроках — одну строку. Машина стремится к симметрии: она сгенерирует пять пунктов по три строчки в каждом, пытаясь визуально уравновесить документ. -
3. Избыточное объяснение очевидного.
В настоящих договорах все термины фиксируются один раз в самом начале (в разделе «Термины и определения»). Нейросеть же может прямо в середине абзаца начать дополнительно пояснять значение слова «Форс-мажор» в скобках, чтобы читателю было проще понять смысл. В деловой переписке так не делают.
Подтверждение через поиск первоисточника
Как и в случае со справочниками, главным инструментом подтверждения подлинности документа является проверка по открытым базам данных. Анализатор Orhuman перед вынесением финального вердикта всегда прогоняет текст через поисковые системы.
Если сложный и сухой текст является частью реального нормативного акта, опубликованного на официальных правовых порталах или государственных сайтах, система не маркирует его как искусственно сгенерированный. Тексту присваивается статус «Редакционный текст».
Таким образом, мы отличаем настоящий выверенный закон от пластиковой имитации, созданной нейросетью за пару секунд.