Ученые Бристольcкого и Кардифского университетов применили методы больших данных к оцифрованным текстам английской периодики за 150 лет и отследили культурные и социальные тенденции, включая женскую дискриминацию, распространение технологий и политические предпочтения на основе текстового анализа.

begemot, begemotmedia, новости, анализ, политики, исследование, пресса

В частности, результаты показали рост популярности артистов и певцов и спад интереса к политикам и общественным деятелям. Описание результатов опубликовано в журнале Proceedings of the National Academy of Sciences.

Работа развивает область т.н. культуромики — метода гуманитарного исследования культурных тенденций с помощью количественного анализа оцифрованного текста. По сути, метод выступает альтернативой классическому подходу изучения исторических документов, обеспечивая ученых новыми средствами для выявления культурных тенденций в больших объемах текстовых данных. Культуромика как термин впервые была использована в статье «Количественный анализ культуры. Использование оцифрованных книг», соавторами которой являются исследователи Гарвардского университета Жан-Батист-Мишель и Эрез Либерман Эйден. Для своего новаторского исследования они использовали корпус Google Books: на его основе создан проект Google Ngram Viewer, который позволяет отслеживать динамику частоты употребления отдельных слов и словосочетаний c течением времени в литературе.

В новой работе ученые решили обратиться к периодическим изданиям: в основу исследования легли тексты английской периодики, вышедшей с 1800 по 1950 годы. Сбор, анализ и оцифровка газет и других периодических изданий осуществляется в рамках масштабного проекта британской библиотеки. Работа по оцифровке уже заняла около десяти лет, и сейчас в доступе по подписке лежат около двенадцати миллионов страниц 535 наименований газет, вышедших с 1800 до 1959 годы; всего британская библиотека хранит порядка 40 миллионов газетных страниц. Для своего исследования ученые отобрали 120 наименований газет (около 14 процентов оцифрованных текстов), представляющих всю географию Великобритании.

Тексты перевели в формат JSON и провели анализ частоты употребления слов и словосочетаний (n-грамм) длиной до трех слов. Исследование не ограничилось подсчетом частоты использования слов: ученые провели семантический анализ географических наименований, организаций и персоналий, которые в текстах могут быть представлены разными словосочетаниями.

Одной из первоначальных целей исследования стало сравнение результатов анализа книг корпуса Google Books и периодики. Как и ожидалось, периодика оказалась гораздо более точной в отражении исторических событий, таких как коронации, конклавы, эпидемии и войны — пики частоты использования соответствующих слов и словосочетаний точно указывают на даты и географию событий, в то время как литература дает более смазанную во времени картину.

Затем ученые рассмотрели измерения более общих и менее устоявшихся тенденций в следующих сферах: ценности и убеждения, политика, технологии, экономика, социальные изменения и популярная культура в Великобритании.

В отношении ценностей и убеждений авторы проверили гипотезу Фредерика Гиббса и Дэниела Коэна о постепенном снижении влияния викторианских ценностей. Оказалось, что такие понятия, как «мужество», «долг», «выносливость» действительно употребляются все реже с течением времени, за исключением всплесков во время военных действий. Зато такие понятия как «бережливость» и «терпение» не проявили тенденцию к снижению.

ИСТОЧНИК N+1

Подписывайтесь на наши каналы telegram в Тelegram и telegram в Youtube