Аннотация: Предложен новый метод статистического анализа в текстологии. Исследовано распределение частот различных первых значащих цифр числительных, встречающихся в связных авторских текстах на русском, английском, латинском и литовском языках.
Эти частоты оказались неодинаковы: резко преобладает единица; встречаемость последующих цифр обычно монотонно убывает. Предложены некоторые объяснения причин доминирования единицы. Частоты встречаемости единицы, а также, в меньшей степени, цифр 2 и 3, обычно являются характерной особенностью авторского стиля, стабильно проявляющейся во всех (достаточно длинных) художественных текстах автора. Это подтверждается статистическими критериями согласия: параметрическим критерием Пирсона, а также непараметрическими U-критерием Манна-Уитни и критерием Крускала-Уоллиса. Распределение первых значащих цифр конца ряда {1, 2,…,8, 9} подвержено сильным флуктуациям и непоказательно.
Существенные различия в частотах цифр 1, 2, 3 для некоторых текстов являются указанием на то, что тексты, возможно, имеют разное авторство. Это позволяет исследовать вопрос об авторстве, в частности, различать тексты разных авторов. При переводе текста на другой язык соотношения частот первых значащих цифр 1, 2, 3 в целом сохраняются, что позволяет применить предлагаемый стилометрический метод к текстам, в оригинальном языке которых неопределённый артикль формально неотличим от числительного «один». Для этого предлагается исследовать переводы на язык-посредник, в котором нет такой проблемы.
В данной работе предложенный подход проиллюстрирован и выводы подкреплены примерами компьютерного анализа произведений М. Агеева, В. Набокова, М. Шолохова, Н. Некрасова, Н. Островского, М. Митчелл, Р. Гари и др.
Эти частоты оказались неодинаковы: резко преобладает единица; встречаемость последующих цифр обычно монотонно убывает. Предложены некоторые объяснения причин доминирования единицы. Частоты встречаемости единицы, а также, в меньшей степени, цифр 2 и 3, обычно являются характерной особенностью авторского стиля, стабильно проявляющейся во всех (достаточно длинных) художественных текстах автора. Это подтверждается статистическими критериями согласия: параметрическим критерием Пирсона, а также непараметрическими U-критерием Манна-Уитни и критерием Крускала-Уоллиса. Распределение первых значащих цифр конца ряда {1, 2,…,8, 9} подвержено сильным флуктуациям и непоказательно.
Существенные различия в частотах цифр 1, 2, 3 для некоторых текстов являются указанием на то, что тексты, возможно, имеют разное авторство. Это позволяет исследовать вопрос об авторстве, в частности, различать тексты разных авторов. При переводе текста на другой язык соотношения частот первых значащих цифр 1, 2, 3 в целом сохраняются, что позволяет применить предлагаемый стилометрический метод к текстам, в оригинальном языке которых неопределённый артикль формально неотличим от числительного «один». Для этого предлагается исследовать переводы на язык-посредник, в котором нет такой проблемы.
В данной работе предложенный подход проиллюстрирован и выводы подкреплены примерами компьютерного анализа произведений М. Агеева, В. Набокова, М. Шолохова, Н. Некрасова, Н. Островского, М. Митчелл, Р. Гари и др.
Ключевые слова: стилометрия, стилеметрия, атрибуция текстов, обработка текстов, первая значащая цифра, закон Бенфорда, критерий согласия Пирсона, критерий Манна-Уитни, критерий Крускала-Уоллиса.
Статья в сборнике научных трудов по материалам конференции (форума) «Гуманитарное и социально-научное знание: теоретические исследования и практические разработки»