Как определить, кто написал текст

Методология детектора Orhuman. Алгоритм не просто ищет «вероятность ИИ», он определяет природу авторства.

Спецификация на GitHub

Авторский

Один выраженный голос, неровный ритм, личные маркеры и детали.

Редакционный

Сухой, профессиональный текст. Требует подтверждения в источниках.

Сгенерированный

Машинные штампы, "вода", структурная симметрия и стерильность.

Гибридный

Машинный каркас со следами ручной правки или вклейками (швами).

Шаг 1

Почему ищется первоисточник (Фактчекинг)

Классические ИИ-детекторы часто ошибаются: если вы загрузите в них статью из Википедии или текст закона, они покажут 99% ИИ. Почему? Потому что энциклопедии и нейросети пишут одинаково сухо, безлико и структурно.

Чтобы не путать формальный документ со сгенерированной справкой, алгоритм сначала проверяет наличие совпадений в открытых источниках. Статус «Редакционный текст» присваивается только при подтверждённом источнике. Если текст имеет энциклопедический стиль, но не найден в сети, решение принимается на основе совокупности структурных признаков и плотности машинных шаблонов.

Подробнее про парадокс энциклопедии

Амнистия запятых

Почему вычитанный текст иногда определяется как ИИ?

Нейросети обучались на идеально вылизанных, отредактированных статьях. Поэтому, когда крутой коммерческий автор прогоняет текст через типограф, чистит синтаксис Главредом и выдерживает ровную структуру — старые алгоритмы смотрели на эту "идеальность" и кричали: "Это машина!". Доводя текст до корпоративного идеала, человек стирает свои биологические следы.

На что алгоритм НЕ смотрит:

Идеальная пунктуация, кавычки-ёлочки и гладкий синтаксис не являются определяющими факторами. В новой версии ядра это лишь вторичные признаки хорошей вычитки, а не приговор. Они влияют на оценку только в совокупности с алгоритмическими паттернами и смысловыми галлюцинациями.

Что выдаёт нейросеть:

Алгоритм ищет смысловые галлюцинации: страх занять жесткую позицию, желание угодить всем, избыточное объяснение очевидного и шаблонные "красные флаги" в структуре аргументации.

Библиотека паттернов

Алгоритм ищет аномалии генерации так, как это делает профессиональный редактор. Маркеры разделены на логические группы от самых критичных (Красные флаги) до вспомогательных. Выберите категорию для быстрого перехода:

D Редактура и Жанр T Стоп-фильтр: Перевод H Живой автор R Красные флаги M Мышление и фактура E Эмоции и тон I Гибрид: Инъекция F Фальсификация Q Главные вопросы L Язык S Структура P Типографика

Редактура и Жанр

Признаки профессиональной редактуры и жанра. Сухость, плотность и деперсонализация — норма для нормативных и справочных текстов. Сами по себе не являются признаком машинной генерации.

D1 Информационная плотность

Отсутствие как человеческого «мусора», так и генеративной «воды». Максимум сухих фактов на предложение.

D2 Деперсонализация

Намеренное избегание местоимений «я/мы», использование страдательного залога и отстраненной подачи.

D3 Терминологическая жесткость

Использование строгих формулировок без попыток разжевать их для случайного читателя (в отличие от ИИ).

Стоп-фильтр: Перевод

Признаки перевода или кальки с иностранного языка. Учитываются отдельно от машинной генерации.

T1 Оригинал в скобках

Транслитерация или дублирование иностранных имен, брендов и терминов латиницей для подстраховки.

T2 Прямой порядок слов

Использование английских синтаксических конструкций и тяжелое нагромождение существительных в родительном падеже.

T3 Формализация должностей

Использование полных, громоздких названий иностранных профессий вместо привычных русских сокращений.

T4 Отсутствие локализации метрик

Использование иностранных систем измерения (мили, фунты, фаренгейты) без конвертации в привычные форматы.

T5 Протокольная прямая речь

Цитаты лишены естественных разговорных элементов и звучат как выверенный письменный пресс-релиз.

T6 Новостной паттерн

Классическая сухая структура западных агентств: «факт → исторический контекст → экспертное мнение».

Живой автор

Маркеры индивидуального авторства. Следы реального процесса мышления, ассоциации и временные якоря.

H1 Развитие мысли в реальном времени

В тексте видны следы того, как автор приходит к выводу или корректирует мнение прямо в процессе написания.

H2 Ассоциативное отступление

Временный уход от главной темы из-за внезапной мысли или воспоминания, характерный для живого мышления.

H3 Смысловая недосказанность

Мысль оборвана на середине логической цепочки, так как для автора и его целевой аудитории вывод уже очевиден.

H4 Пропуск очевидного контекста

Отсутствие пояснений к специфическим именам или терминам, которые воспринимаются автором как базовые.

H5 Индивидуальный паттерн опечаток

Повторяющаяся нетипичная системная ошибка или слово-паразит, свойственное конкретному человеку.

H6 Нефункциональная деталь

Упоминание случайного объекта или факта, не несущего практической или эмоциональной пользы для статьи.

H7 Привязка к моменту

Использование контекста "здесь и сейчас" (привязка к текущему моменту написания текста, а не к архивной дате).

H8 Следы ручного редактирования

Сломанные согласования падежей или дублирующиеся слова, оставшиеся после изменения предложения на лету.

H9 Наличие специфичной аудитории

Интонация и скрытые допущения показывают, что автор обращается к узкому, понимающему кругу лиц.

Красные флаги

Критичные паттерны автоматической генерации. Устойчивые шаблоны и структурные маркеры.

R1 Англоязычные артефакты

Случайное вкрапление английского слова в русский текст без явной стилистической или терминологической необходимости.

R2 Шаблон отрицания-утверждения

Многократное использование базовой конструкции алгоритма: «Это не просто [А], это [Б]».

R3 Вербализация задачи

Начало текста с прямого оглашения плана действий («В этой статье мы подробно рассмотрим...»).

R4 Призыв к действию

Завершение технического или личного текста шаблонным вопросом к аудитории, свойственным SMM-скриптам.

Мышление и фактура

Поведенческие особенности генеративных моделей: симметрия аргументации и нейтрализация позиций.

M1 Отсутствие развития мысли

Главный вывод дается в первом абзаце, а остальной текст лишь формально его обосновывает, без процесса размышления.

M2 Нейтральная предвзятость

Текст пытается учесть все точки зрения, избегая принятия конкретной, радикальной или спорной профессиональной позиции.

M3 Синтетическая точность деталей

Использование точных дат, полных названий и цифр в неформальном контексте, где человеку свойственно писать приблизительно.

M4 Утилитарность (Стерильность)

Каждое слово работает строго на раскрытие темы. Отсутствуют случайные побочные детали, свойственные человеческой памяти.

M5 Избыточное объяснение базовых понятий

Детальная расшифровка простых терминов и аббревиатур, даже если текст явно рассчитан на узких профессионалов.

M6 Симметрия аргументов

Искусственное уравновешивание плюсов и минусов пропорциональными блоками текста.

Эмоции и тон

Анализ эмоциональной динамики текста и изменения интонации.

E1 Номинальное описание эмоций

Чувства называются словами («это вызвало панику»), но не отражаются на структуре и длине предложений самого текста.

E2 Статичная эмоциональная тональность

Стиль не меняется от начала к финалу. Отсутствуют признаки разгона или усталости автора к концу лонгрида.

E3 Отсутствие целевого адресата

Стиль повествования ориентирован на абстрактного усредненного читателя, без учета профессионального сленга или общей боли.

E4 Объяснение иронии

Сразу после шутки или сложной метафоры идет ее логическая расшифровка, нивелирующая комический эффект.

Гибрид: Инъекция

Признаки гибридного текста: локальные стилевые и структурные разрывы.

I1 Локальная смена стиля (Вклейка)

Один абзац или блок резко отличается от остального текста наличием живого опыта, сленга или синтаксиса.

I2 Эмоциональный разрыв

Внезапный переход от холодного повествования к яркой эмоции (боли, ярости) и немедленный возврат обратно.

I3 Синтаксический разрыв

Резкое изменение средней длины и структуры предложений на коротком изолированном участке текста.

I4 Фактурный диссонанс

Слова человеческой неуверенности («вроде», «около») вставленные в массив абсолютно точных энциклопедических данных.

I5 Нарушение связности (Когезии)

При удалении подозрительного абзаца окружающий текст идеально смыкается без потери логики повествования.

Фальсификация

Попытки имитации человеческого стиля с помощью намеренных стилистических и орфографических вставок.

F1 Переизбыток стилизации

Слишком частое и неестественное использование разговорного сленга в каждом предложении (гиперстилизация).

F2 Конфликт стиля и синтаксиса

Грубая разговорная лексика, встроенная в сложный, строго академический каркас предложения.

F3 Искусственная опечатка

Одиночная, математически выверенная орфографическая ошибка, внедренная в хирургически безупречный текст.

F4 Искусственные сомнения

Вводные слова неуверенности («кажется», «наверное»), диссонирующие с жесткой и безапелляционной логикой вывода.

F5 Идеализированный пример

История "из жизни", которая слишком прямолинейно и по-учебному доказывает теоретический тезис статьи.

Главные вопросы

Контрольные вопросы для оценки наличия субъекта авторства.

Q1 Текст без автора

Материал лишен профессиональной или личной биографии. Его с равным успехом мог опубликовать кто угодно.

Q2 Где человеческая память?

Отсутствие специфичных, трудно поддающихся логике воспоминаний, которые обычно сопровождают личный опыт.

Q3 Где недосказанность?

Текст не содержит логических пропусков: автор не упускает ни одной детали, которую мог бы счесть очевидной для себя.

Язык

Лексические и синтаксические особенности. Вспомогательный уровень анализа.

L1 Абсолютная гладкость набора

Отсутствие мелких опечаток, сломанных падежей или случайных повторов, свойственных быстрому ручному набору.

L2 Идеальный синтаксис

Сложные, грамматически выверенные конструкции без стилистических шероховатостей, характерных для разговорной речи.

L3 Монотонный ритм предложений

Предложения имеют примерно одинаковую длину и структуру, что создает эффект машинного ритма при чтении.

L4 Смысловая избыточность

Использование общих, объемных фраз («ключевой аспект», «открывает горизонты»), не несущих конкретной информационной ценности.

L5 Шаблонные метафоры

Использование наиболее очевидных и заезженных сравнений, основанных на частотном статистическом анализе словаря.

Структура

Структурная организация текста и визуальная симметрия абзацев. Вторичный признак.

S1 Симметричная длина абзацев

Текст разбит на визуально равные блоки. Математическая ровность часто является признаком автоматической генерации.

S2 Замкнутая композиция

Последний абзац перефразирует первый. Алгоритмы часто используют этот шаблон для формального подведения итогов.

S3 Модульная структура

Абзацы не связаны плавными логическими переходами и могут быть переставлены местами без потери общего смысла.

S4 Смягченная аргументация

Использование обтекаемых формулировок («иногда», «в ряде случаев») для избегания резких, однозначных суждений.

S5 Шаблонный позитивный вывод

Текст завершается обязательной вдохновляющей моралью или надеждой на лучшее, независимо от изначального контекста.

Типографика

Типографические и технические артефакты. Используются как вспомогательные сигналы.

P1 Типографское тире (—)

Использование правильного длинного тире (U+2014) вместо обычного дефиса с клавиатуры.

P2 Символ многоточия (…)

Использование единого символа U+2026 вместо трех последовательных точек, напечатанных вручную.

P3 Парные кавычки-ёлочки («»)

Автоматическое открытие и закрытие правильных типографских кавычек вместо машинописных прямых кавычек.

P4 Неразрывные пробелы

Использование скрытых символов привязки перед знаками процента, валют или инициалами.

P5 Машинная чистота пробелов

Идеальное форматирование знаков препинания на больших объемах текста, без случайных двойных пробелов.

Пределы детектора (Слепые зоны алгоритма)

«Любой, кто обещает 100% точность детекции ИИ, лукавит. Языковые модели развиваются каждый день, а люди всё чаще перенимают их стиль. Разработанная детекция несовершенна и направлена на поиск структурных и семантических аномалий. Невозможно гарантировать безусловную точность, но качеством определения можно гордиться, алгоритм постоянно улучшается.»

Дмитрий Подстригаев

Создатель алгоритма Orhuman

В каких случаях алгоритм может ошибаться?

Выделяются 3 основных сценария, при которых система может выдать погрешность или ложное срабатывание:

1 Глубокая редактура (Органичный гибрид)

Если автор взял «рыбу» от ИИ и вручную переписал 40% предложений: сломал машинный ритм, добавил свой «онтологический мусор», убрал слащавые выводы — детектор покажет статус «Авторский». И это правильно. Алгоритм ловит отсутствие мысли, а не сам факт использования нейросети как инструмента.

2 Микро-генерация (Поабзацная сборка)

Если генерировать текст не целиком, а кропотливо, по 1-2 предложениям, жестко направляя ИИ и склеивая результат вручную — алгоритмический «метроном» сбивается. Нейросеть не успевает разогнаться, чтобы выдать свои структурные паттерны.

3 Модели без Alignment (Uncensored LLMs)

Подавляющее большинство паттернов ИИ (Капитан Очевидность, обтекаемость мнений, слащавые финалы) — это результат настройки безопасности (Alignment), вшитой в GPT, Claude, Gemini. Локальные модели без цензуры поймать значительно сложнее.