Как определить, кто написал текст
Методология детектора Orhuman. Мы не просто ищем «вероятность ИИ», мы определяем природу авторства.
Авторский
Один выраженный голос, неровный ритм, личные маркеры и детали.
Редакционный
Сухой, профессиональный текст. Требует подтверждения в источниках.
Сгенерированный
Машинные штампы, "вода", структурная симметрия и стерильность.
Гибридный
Машинный каркас со следами ручной правки или вклейками (швами).
Почему мы ищем первоисточник (Фактчекинг)
Классические ИИ-детекторы часто ошибаются: если вы загрузите в них статью из Википедии или текст закона, они покажут 99% ИИ. Почему? Потому что энциклопедии и нейросети пишут одинаково сухо, безлико и структурно.
Чтобы не путать формальный документ со сгенерированной справкой, алгоритм сначала проверяет наличие совпадений в открытых источниках. Статус «Редакционный текст» присваивается только при подтверждённом источнике. Если текст имеет энциклопедический стиль, но не найден в сети, решение принимается на основе совокупности структурных признаков и плотности машинных шаблонов.
Почему вычитанный текст иногда определяется как ИИ?
Нейросети обучались на идеально вылизанных, отредактированных статьях. Поэтому, когда крутой коммерческий автор прогоняет текст через типограф, чистит синтаксис Главредом и выдерживает ровную структуру — старые алгоритмы смотрели на эту "идеальность" и кричали: "Это машина!". Доводя текст до корпоративного идеала, человек стирает свои биологические следы.
На что мы НЕ смотрим:
Идеальная пунктуация, кавычки-ёлочки и гладкий синтаксис не являются определяющими факторами. В новой версии ядра это лишь вторичные признаки хорошей вычитки, а не приговор. Они влияют на оценку только в совокупности с алгоритмическими паттернами и смысловыми галлюцинациями.
Что выдаёт нейросеть:
Мы ищем смысловые галлюцинации: страх занять жесткую позицию, желание угодить всем, избыточное объяснение очевидного и шаблонные "красные флаги" в структуре аргументации.
Библиотека паттернов
Алгоритм ищет аномалии генерации так, как это делает профессиональный редактор. Маркеры разделены на логические группы от самых критичных (Красные флаги) до вспомогательных. Выберите категорию для быстрого перехода:
Редактура и Жанр
Признаки профессиональной редактуры и жанра. Сухость, плотность и деперсонализация — норма для нормативных и справочных текстов. Сами по себе не являются признаком машинной генерации.
Отсутствие как человеческого «мусора», так и генеративной «воды». Максимум сухих фактов на предложение.
Намеренное избегание местоимений «я/мы», использование страдательного залога и отстраненной подачи.
Использование строгих формулировок без попыток разжевать их для случайного читателя (в отличие от ИИ).
Стоп-фильтр: Перевод
Признаки перевода или кальки с иностранного языка. Учитываются отдельно от машинной генерации.
Транслитерация или дублирование иностранных имен, брендов и терминов латиницей для подстраховки.
Использование английских синтаксических конструкций и тяжелое нагромождение существительных в родительном падеже.
Использование полных, громоздких названий иностранных профессий вместо привычных русских сокращений.
Использование иностранных систем измерения (мили, фунты, фаренгейты) без конвертации в привычные форматы.
Цитаты лишены естественных разговорных элементов и звучат как выверенный письменный пресс-релиз.
Классическая сухая структура западных агентств: «факт → исторический контекст → экспертное мнение».
Живой автор
Маркеры индивидуального авторства. Следы реального процесса мышления, ассоциации и временные якоря.
В тексте видны следы того, как автор приходит к выводу или корректирует мнение прямо в процессе написания.
Временный уход от главной темы из-за внезапной мысли или воспоминания, характерный для живого мышления.
Мысль оборвана на середине логической цепочки, так как для автора и его целевой аудитории вывод уже очевиден.
Отсутствие пояснений к специфическим именам или терминам, которые воспринимаются автором как базовые.
Повторяющаяся нетипичная системная ошибка или слово-паразит, свойственное конкретному человеку.
Упоминание случайного объекта или факта, не несущего практической или эмоциональной пользы для статьи.
Использование контекста "здесь и сейчас" (привязка к текущему моменту написания текста, а не к архивной дате).
Сломанные согласования падежей или дублирующиеся слова, оставшиеся после изменения предложения на лету.
Интонация и скрытые допущения показывают, что автор обращается к узкому, понимающему кругу лиц.
Красные флаги
Критичные паттерны автоматической генерации. Устойчивые шаблоны и структурные маркеры.
Случайное вкрапление английского слова в русский текст без явной стилистической или терминологической необходимости.
Многократное использование базовой конструкции алгоритма: «Это не просто [А], это [Б]».
Начало текста с прямого оглашения плана действий («В этой статье мы подробно рассмотрим...»).
Завершение технического или личного текста шаблонным вопросом к аудитории, свойственным SMM-скриптам.
Мышление и фактура
Поведенческие особенности генеративных моделей: симметрия аргументации и нейтрализация позиций.
Главный вывод дается в первом абзаце, а остальной текст лишь формально его обосновывает, без процесса размышления.
Текст пытается учесть все точки зрения, избегая принятия конкретной, радикальной или спорной профессиональной позиции.
Использование точных дат, полных названий и цифр в неформальном контексте, где человеку свойственно писать приблизительно.
Каждое слово работает строго на раскрытие темы. Отсутствуют случайные побочные детали, свойственные человеческой памяти.
Детальная расшифровка простых терминов и аббревиатур, даже если текст явно рассчитан на узких профессионалов.
Искусственное уравновешивание плюсов и минусов пропорциональными блоками текста.
Эмоции и тон
Анализ эмоциональной динамики текста и изменения интонации.
Чувства называются словами («это вызвало панику»), но не отражаются на структуре и длине предложений самого текста.
Стиль не меняется от начала к финалу. Отсутствуют признаки разгона или усталости автора к концу лонгрида.
Стиль повествования ориентирован на абстрактного усредненного читателя, без учета профессионального сленга или общей боли.
Сразу после шутки или сложной метафоры идет ее логическая расшифровка, нивелирующая комический эффект.
Гибрид: Инъекция
Признаки гибридного текста: локальные стилевые и структурные разрывы.
Один абзац или блок резко отличается от остального текста наличием живого опыта, сленга или синтаксиса.
Внезапный переход от холодного повествования к яркой эмоции (боли, ярости) и немедленный возврат обратно.
Резкое изменение средней длины и структуры предложений на коротком изолированном участке текста.
Слова человеческой неуверенности («вроде», «около») вставленные в массив абсолютно точных энциклопедических данных.
При удалении подозрительного абзаца окружающий текст идеально смыкается без потери логики повествования.
Фальсификация
Попытки имитации человеческого стиля с помощью намеренных стилистических и орфографических вставок.
Слишком частое и неестественное использование разговорного сленга в каждом предложении (гиперстилизация).
Грубая разговорная лексика, встроенная в сложный, строго академический каркас предложения.
Одиночная, математически выверенная орфографическая ошибка, внедренная в хирургически безупречный текст.
Вводные слова неуверенности («кажется», «наверное»), диссонирующие с жесткой и безапелляционной логикой вывода.
История "из жизни", которая слишком прямолинейно и по-учебному доказывает теоретический тезис статьи.
Главные вопросы
Контрольные вопросы для оценки наличия субъекта авторства.
Материал лишен профессиональной или личной биографии. Его с равным успехом мог опубликовать кто угодно.
Отсутствие специфичных, трудно поддающихся логике воспоминаний, которые обычно сопровождают личный опыт.
Текст не содержит логических пропусков: автор не упускает ни одной детали, которую мог бы счесть очевидной для себя.
Язык
Лексические и синтаксические особенности. Вспомогательный уровень анализа.
Отсутствие мелких опечаток, сломанных падежей или случайных повторов, свойственных быстрому ручному набору.
Сложные, грамматически выверенные конструкции без стилистических шероховатостей, характерных для разговорной речи.
Предложения имеют примерно одинаковую длину и структуру, что создает эффект машинного ритма при чтении.
Использование общих, объемных фраз («ключевой аспект», «открывает горизонты»), не несущих конкретной информационной ценности.
Использование наиболее очевидных и заезженных сравнений, основанных на частотном статистическом анализе словаря.
Структура
Структурная организация текста и визуальная симметрия абзацев. Вторичный признак.
Текст разбит на визуально равные блоки. Математическая ровность часто является признаком автоматической генерации.
Последний абзац перефразирует первый. Алгоритмы часто используют этот шаблон для формального подведения итогов.
Абзацы не связаны плавными логическими переходами и могут быть переставлены местами без потери общего смысла.
Использование обтекаемых формулировок («иногда», «в ряде случаев») для избегания резких, однозначных суждений.
Текст завершается обязательной вдохновляющей моралью или надеждой на лучшее, независимо от изначального контекста.
Типографика
Типографические и технические артефакты. Используются как вспомогательные сигналы.
Использование правильного длинного тире (U+2014) вместо обычного дефиса с клавиатуры.
Использование единого символа U+2026 вместо трех последовательных точек, напечатанных вручную.
Автоматическое открытие и закрытие правильных типографских кавычек вместо машинописных прямых кавычек.
Использование скрытых символов привязки перед знаками процента, валют или инициалами.
Идеальное форматирование знаков препинания на больших объемах текста, без случайных двойных пробелов.
Пределы детектора (Наши слепые зоны)
«Любой, кто обещает 100% точность детекции ИИ, лукавит. Языковые модели развиваются каждый день, а люди всё чаще перенимают их стиль. Наша разработанная детекция несовершенна и направлена на поиск структурных и семантических аномалий. Мы не можем гарантировать безусловную точность, но качеством определения мы гордимся и продолжаем улучшать алгоритм.»
В каких случаях алгоритм может ошибаться?
Мы честно выделяем 3 основных сценария, при которых система может выдать погрешность или ложное срабатывание:
1 Глубокая редактура (Органичный гибрид)
Если автор взял «рыбу» от ИИ и вручную переписал 40% предложений: сломал машинный ритм, добавил свой «онтологический мусор», убрал слащавые выводы — детектор покажет статус «Авторский». И это правильно. Мы ловим отсутствие мысли, а не сам факт использования нейросети как инструмента.
2 Микро-генерация (Поабзацная сборка)
Если генерировать текст не целиком, а кропотливо, по 1-2 предложениям, жестко направляя ИИ и склеивая результат вручную — алгоритмический «метроном» сбивается. Нейросеть не успевает разогнаться, чтобы выдать свои структурные паттерны.
3 Модели без Alignment (Uncensored LLMs)
Подавляющее большинство паттернов ИИ (Капитан Очевидность, обтекаемость мнений, слащавые финалы) — это результат настройки безопасности (Alignment), вшитой в GPT, Claude, Gemini. Локальные модели без цензуры поймать значительно сложнее.