Проверили алгеброй гармонию

Математики проанализировали тексты мировых бестселлеров

Учёные Санкт-Петербургского государственного университета и Института интеллектуальной обработки информации при Колледже ОРТ имени Брауде (Израиль) предложили новый способ компьютерного изучения авторства и стиля текстов, основанное на моделировании динамического процесса их написания.

Для исследования математики выбрали цикл из семи научно-фантастических романов Айзека Азимова «Основание», серию произведений Джона Голсуорси «Сага о Форсайтах», роман в трёх томах Джона Толкина «Властелин колец» и другие всем известные книги. Интерес для исследователей представляли именно большие массивы текстов, которые авторы создавали на протяжении долгого времени: математические методы позволяют увидеть, как менялись особенности стиля у любого писателя.

«Работать с большими данными можно традиционно: классифицировать их, искать схожие элементы, подобия или группы, — рассказал профессор СПбГУ, доктор физико-математических наук Олег Граничин. — Мы же представили новый взгляд на большие данные и предложили изучить то, как они создавались. Ведь любой текст кто-то написал, наговорил или зафиксировал тем или иным способом. Этот процесс также имеет свои характеристики, которые проявляются, например, в авторском стиле писателя. Сегодня мы не просто изучаем то, как выглядят данные, а выявляем характеристики процесса их создания. До нас подобным образом тексты ещё никто не анализировал».

Учёные сравнили три книги из цикла «Властелин колец» Джона Толкина с двумя другими его произведениями — «Хоббитом» и «Сильмариллионом». Их новый метод достаточно точно определил, что первая повесть была написана тем же автором, что создал трилогию, а вот «Сильмариллион» заметно отличается по стилю. И действительно: эта книга была издана уже после смерти автора: сборник мифов и легенд Средиземья «Сильмариллион» дорабатывал сын Джона Толкина — Кристофер Толкин, который для этого несколько лет изучал черновики отца.

«Иногда заметны отличия стиля и в произведениях одного автора, — рассказал аспирант кафедры Системного программирования СПбГУ Наталья Кижаева. — Например, четвёртую часть своего цикла «Основание» Айзек Азимов написал спустя почти 30 лет после третьей, — ведь на этом настаивали его поклонники. Наш метод позволил разделить семь книг серии на два кластера: созданные до 1953 года и после 1982-го. За 30 лет изменились и автор, и его окружение, и его видение жизни и, как следствие — авторский стиль».

Исходными данными для нового метода являются не только последовательности символов текста и слова, а ещё и последовательности N-грамм (связанных цепочек символов). Например, при N=3 вместо шести символов «_мама_» компьютерная программа выделит в тексте триграммы «_ма», «мам», «ама», «ма_». Далее исследуемый документ делится на поддокументы, из которых формируется упорядоченная последовательность появления N-грамм, где в свою очередь ищется зависимость между каждым из полученных таким образом поддокументов и его «соседями».

Этот приём, выделяющий частотные характеристики в последовательностях данных, раньше применяли в теории обработки сигналов. Иначе говоря, новый метод определяет своеобразные «частотные характеристики» авторского стиля по аналогии с частотами физических волн, регистрируемых приборами.

Создатели алгоритма планируют опробовать эту методику на произведениях русской литературы, ведь его можно применять для анализа текстов, написанных на других языках и использующих латинский алфавит, кириллицу и даже арабскую графику.

Разработка, как отмечают исследователи, может помочь в анализе не только литературных произведений, но и неструктурированных текстов. Например, метод пригодится при обработке массивов данных, поступающих на диспетчерские пульты и в колл-центры. Израильские коллеги применяют эту разработку для определения искусственно сгенерированных текстов, написанных не человеком, а машиной. Например, существуют программы, фабрикующие тексты, похожие на настоящие научные статьи, которые нередко принимаются для публикации известными журналами. Метод позволяет с большей точностью отличать такие поделки от текстов, написанных человеком.

Авторами исследования выступили постдок СПбГУ, кандидат физико-математических наук Константин Амелин; профессор СПбГУ, доктор физико-математических наук Олег Граничин; аспирант кафедры Системного программирования СПбГУ Наталья Кижаева и руководитель Института интеллектуальной обработки информации при Колледже ОРТ имени Брауде (Израиль), декан компьютерного факультета Колледжа ОРТ имени Брауде, профессор Зеев Волькович.

Результаты одной из последних работ этого научного коллектива опубликованы в журнале Pattern Recognition издательского дома Elsevier.

УМНАЯ СТРАНА
территория умных людей и проектов

Проверили алгеброй гармонию

Математики проанализировали тексты мировых бестселлеров

Читайте также: