Logo
Human? Beta
Вся методология
Особый жанр

Парадокс Энциклопедии

Почему законы и ГОСТы звучат как ИИ, и как наш алгоритм отличает настоящий документ от сгенерированной фальшивки.

Если вы загрузите в классический ИИ-детектор статью из Википедии, текст федерального закона или инструкцию к серверу, алгоритм с высокой вероятностью выдаст 99% ИИ. И он будет математически прав, но фактически — нет.

В чем заключается проблема?

Существует класс текстов, которые по своей природе обязаны быть сухими, структурными и безэмоциональными. К ним относятся:

  • Энциклопедические и словарные статьи;
  • Юридические документы (законы, договоры, НПА);
  • Технические спецификации и пресс-релизы.

Нейросети обучались именно на этих текстах. База знаний всего человечества — это энциклопедии и официальные документы. Модели усвоили этот сухой академический стиль как идеальный. Поэтому, когда живой юрист пишет договор, он использует те же самые паттерны, что и алгоритм.

Как мы решили этот парадокс (Фактчекинг)

В старых версиях системы мы пытались просто "отключать проценты", но это породило уязвимость: ленивые менеджеры генерировали ИИ-статьи, а детектор принимал их за "документы" из-за сухости.

Теперь мы перешли на новую Ось Авторства с жестким этапом поиска в интернете (Фактчекингом):

  • Сухой текст + Найден источник = Редакционный текст (Документ). Мы подтверждаем, что канцелярский язык здесь — это требование формата и жанра.
  • Сухой текст + Нет источника = Сгенерировано ИИ. Если текст имеет энциклопедический стиль, но не найден в сети, решение принимается на основе совокупности структурных признаков и плотности машинных шаблонов.

Специфика отдельных форматов

Парадокс формальных жанров проявляется по-разному в зависимости от сферы применения. Мы подготовили отдельные разборы для самых сложных категорий:

Итог: Мы больше не пытаемся списать формальные жанры на погрешность. Благодаря разделению текста на 4 типа авторства и проверке фактов, официальные документы получают свой заслуженный и подтвержденный синий статус «Редакционный текст».

Мы используем cookie для аналитики. Подробнее