Виртуальные сообщества, а в частности, комментарии - это большая смесь. В ней таится ценная информация среди абсолютно неинтересных для нас вещей.
Парсинг — это процесс автоматического сбора данных и их структурирования. Комментарии сложно собирать руками. Для сбора комментариев существуют различные парсеры:
Плюсы: Быстро, не надо навыков программирования. Минусы: Дорого, не всегда справляются на 100%.
Есть бесплатные парсеры, как например этот, созданный Никитой Маткиным. Для его использования понадобятся самые минимальные знания программирования. Гайд по его парсеру в видео.
С помощью парсера создаётся текстовый корпус, который следует проанализировать. Для этого используются специальные программы корпусного анализа. Примером является веб-приложение Voyant Tools. Оно, кстати бесплатно, уже поможет сделать выводы. К примеру, можно сделать так называемый анализ тональности (чаще встречаются негативные или позитивные комментарии), выявить часто обсуждаемые в комментариях темы, настроение людей по отношению к определённому событию.
Корпусный анализ поможет в создании образа города или какого-то географически обобщённого сообщества. С помощью анализа комментариев можно создать, своего рода, ядро, в центре которого наиболее острые проблемы сообщества, а на окраинах ядра уже второстепенные.
Можно сравнивать официальные и неофициальные сообщества, относящиеся к одной и той же теме. Анализировать стиль общения людей.
Ориентируясь на наиболее часто встречающиеся прилагательные, можно сформировать образ какого-либо бренда.
С помощью корпусного анализа комментариев составляется карта слов. Она будет полезна и содержательна не только с точки зрения смысла, но и с точки зрения языка.
Помимо всего, корпусный анализ помогает выявить ботов, спамеров, троллей в сообществах.
Материалы взяты из мастер-класса марафона Homo Digitus 2022 - https://www.youtube.com/watch?v=dpBeOWorQ6g
Comments