Парадокс Энциклопедии
Почему законы и ГОСТы звучат как ИИ, и как наш алгоритм отличает настоящий документ от сгенерированной фальшивки.
Если вы загрузите в классический ИИ-детектор статью из Википедии, текст федерального закона или инструкцию к серверу, алгоритм с высокой вероятностью выдаст 99% ИИ. И он будет математически прав, но фактически — нет.
В чем заключается проблема?
Существует класс текстов, которые по своей природе обязаны быть сухими, структурными и безэмоциональными. К ним относятся:
- Энциклопедические и словарные статьи;
- Юридические документы (законы, договоры, НПА);
- Технические спецификации и пресс-релизы.
Нейросети обучались именно на этих текстах. База знаний всего человечества — это энциклопедии и официальные документы. Модели усвоили этот сухой академический стиль как идеальный. Поэтому, когда живой юрист пишет договор, он использует те же самые паттерны, что и алгоритм.
Как мы решили этот парадокс (Фактчекинг)
В старых версиях системы мы пытались просто "отключать проценты", но это породило уязвимость: ленивые менеджеры генерировали ИИ-статьи, а детектор принимал их за "документы" из-за сухости.
Теперь мы перешли на новую Ось Авторства с жестким этапом поиска в интернете (Фактчекингом):
- Сухой текст + Найден источник = Редакционный текст (Документ). Мы подтверждаем, что канцелярский язык здесь — это требование формата и жанра.
- Сухой текст + Нет источника = Сгенерировано ИИ. Если текст имеет энциклопедический стиль, но не найден в сети, решение принимается на основе совокупности структурных признаков и плотности машинных шаблонов.
Специфика отдельных форматов
Парадокс формальных жанров проявляется по-разному в зависимости от сферы применения. Мы подготовили отдельные разборы для самых сложных категорий:
Энциклопедии и Википедия
Как коллективная редактура тысяч людей и скриптов стирает человеческий голос, превращая текст в стерильный алгоритм.
Юридические документы
Канцелярит против "цифровых клише". Как мы отличаем реальный договор или закон от пластиковой ИИ-имитации.
Итог: Мы больше не пытаемся списать формальные жанры на погрешность. Благодаря разделению текста на 4 типа авторства и проверке фактов, официальные документы получают свой заслуженный и подтвержденный синий статус «Редакционный текст».