Мифы о "Больших данных" и их критика

Артемий Базельцев
23 апр. 2023 г.
9 мин. чтения

Аннотация

В этой главе рассматривается концепция "больших данных" и связанные с ней мифы об использовании "больших данных" для решения социальных и научных проблем. Каждый из мифов подвергается критике, обоснованной примерами использования "больших данных" в различных социальных и научных прикладных областях, а также с помощью идей философии науки и техники. В заключении поднимется ряд вопросов, ответы на которые помогут людям критически взаимодействовать с "большими данными" и внести свой вклад в развитие исследований таких данных.

7.1 Введение

Первые дни общедоступного интернета с середины 90-ых и до 2004 года характеризовались большой надеждой и оптимизмом. Политики, журналисты и учёные надеялись, что Интернет приведёт к прозрачности и открытости во всех сферах жизни, революции в производстве и т. д. Это и случилось, однако цифровые технологии научились использовать тоталитарные режимы для слежки и люди стали зависимы от мобильных устройств. Одним из направлений цифровых технологий стали "большие данные", т. е. эффективно обрабатываемые структурированные и неструктурированные огромные объёмы данных. "большие данные" стали возможными благодаря необычайной способности компьютеров собирать, производить, хранить и обрабатывать данные в больших объемах и с высокой скоростью, чтобы создавать закономерности в этих данных. В этой главе подробно рассматривается понятие "больших данных" и критическая теория, а также 4 основных мифа, связанные с "большими данными":

1. Данные даны;

2. "Большие данные" – это естественный ресурс;

3. Цифры говорят сами за себя;

4. Всё уже стало цифровым.

7.2 Определения и противоречия: большие данные и критика

"Большие данные" как термин начали использовать ещё в 1990-х годах, но широкое распространение он получил после 2007 года. "Большие данные" - это огромные объемы данных различных типов, которые не могут быть собраны или проанализированы в течение разумного периода времени вручную или с использованием обычных инструментов и методов анализа данных. Например, для картирования одного генома человека требуются многие десятки гигабайт данных. Не только числа, но и слова, звуки и изображения могут рождаться цифровыми или превращаться в цифровые форматы, чтобы их тоже можно было перемещать и анализировать. Достоверность таких данных гарантирована, но неопределенность в отношении происхождения и качества остается.

В данный момент "большие данные" используются во всех сферах жизни от медицины и образования до составления прогнозов погоды. Однако "большие данные" не всегда используют правильно и добросовестно, поэтому необходима критика данной концепции. Критика не негативная, а способная переосмыслить и преобразовать концепцию, тем самым улучшив её.

Для того, чтобы понять заметную роль риторики как данных, так и больших данных, ученые должны признать, что они локальны и глобальны, имеют прошлое и будущее, и что их значение и использование может быть сформировано. Обсуждение четырех мифов о "больших данных" в следующих разделах необходимо, чтобы внести вклад в реальную практику использования "больших данных" в конкретных социальных и научных контекстах. Данные становятся все более важными для осуществления бизнеса и государственного управление, поэтому часто данные, которые люди добровольно предоставляют, продаются другим в разных формах. Таким образом, важно, чтобы люди научились критически взаимодействовать как с данными, так и с "большими данными".

7.3 Миф 1. Данные даны

Первоначальное латинское значение слова данные — "данность", но данные никогда не даются просто так. Идеи людей и их творчество привело к теоретическим, экспериментальным и другим открытиям, которые позволяют разрабатывать средства и методы сбора, категоризации, анализа и обработки данных. Но что же такое данные? Боргман определяет данные как "представления наблюдений, объектов или других объектов, используемых в качестве доказательств явлений в целях исследований", при чём бывают разные и классифицировать их можно по-разному. Например, записная книжка Марии Кюри — это как научные, так и исторические данные.

Если сравнить определение Боргмана с определением экспертной группы высокого уровня HLEG – под термином "данные" подразумеваются цифровые исследовательские объекты в широком смысле, включая обычные исследовательские данные, а также метаданные, связанные с ними сервисы и рабочие процессы, алгоритмы аналитики и все другие инструменты, связанные с данными, которые используются в современных научных исследованиях; тогда можно выделить существенное преимущество этого определения: оно признает работу, необходимую для того, чтобы данные могли перемещаться. Но есть три проблемы. Во-первых, определение является четким: данные - это данные. Во-вторых, оно включает в себя не только данные, но и инструменты и оборудование, необходимые для обработки данных. В-третьих, имеют значение только цифровые данные.

Возвращаясь к мифу о том, что данные даны, можно сказать, что это действительно так, все данные нам предоставлены, но вот интерпретировать мы можем далеко не все данные, так как для их интерпретации необходимы инструменты, которыми люди не обладают. Сказать, что данные никогда не даются, - это еще один способ сказать, что данные требуют когнитивной, социальной и технологической работы для приобретения смысла - в их воображении, их создании, распространении, хранении, использовании и повторном использовании. Как показали Сабина Леонелли для биологии растений и Пинель для генетики человека, для получения данных необходимы высококвалифицированные люди. Требуется работа над тем, чтобы данные поддавались анализу и исследованию. Это также верно для ненаучного использования данных.

7.4 Миф 2. “Большие данные” – это естественный ресурс

Фраза "данные — это новая нефть" за последнее десятилетие вышла за рамки метафоры и стала почти клише. Нефть — не единственный ресурс, на который можно метафорически ссылаться. Пушман и Берджесс подчеркивают, как эти метафоры служат для того, чтобы сделать технологии и данные естественными и неподвластными политическому контролю. Хосе Ван Дейк идет дальше, она указывает на метафору «золотой лихорадки», которая представляет данные как сырье, которое можно использовать для получения прибыли. Другими словами, «данные как ресурс» — это не миф, а метафора. Миф заключается в том, что данные и нефть являются естественными, дешевыми и хорошими для демократии и/или промышленности. Как в промышленности, так и в политике используют эти метафоры, основанные на ресурсах, чтобы подчеркнуть важность использования экономического потенциала данных для частной или общественной выгоды. Эти метафоры можно критиковать за то, что они не заходят достаточно далеко. Поиск и добыча нефти и золота являются наукоемкими и капиталоемкими видами деятельности. Точно так же необходимы огромные объемы работы и теоретические исследования, чтобы разобраться в больших объемах данных, однако негативные последствия экономики, основанной на нефти, уже давно очевидны, такие как разливы нефти и другие бедствия, а вот использование некоторых данных может иметь непредвиденные последствия, такие как огромные финансовые и экологические затраты на их хранение и разрыв знаний между социальными группами и между странами.

Метафоры, связанные с водой ("поток данных"), часто используются для обозначения движения "больших данных". Это может свидетельствовать о том, что движение данных является плавным и беспроблемным. Однако данные не «текут» к открытию, именно отсутствие плавности и заранее определенного направления делает их путешествие интересным и полезным.

Метафоры описывают одну вещь с точки зрения другой, либо потому, что они помогают описать что-то новое, либо потому, что они имеют больший риторический эффект. Метафоры являются прерогативой не только поэтов, но и ученых, инженеров, дизайнеров и политиков. Для исследователей критического Интернета и цифровых медиа важно помнить о том, что неисследованная метафора является заменой мышления, что подразумевает исследовать метафоры, а не заменять ими термины и явления.

7.5 Миф 3. Цифры говорят сами за себя

Большие объемы того, что иногда называют "транзакционными данными", т. е. данными, которые люди генерируют, используя платежные карты или оставляя сообщения в социальных сетях, привели к заявлениям о конце традиционных методов исследований в области социальных наук, таких как интервью и опросы. Долой все теории человеческого поведения, от лингвистики до социологии. Забудьте о таксономии, онтологии и психологии. Кто знает, почему люди делают то, что они делают? Дело в том, что они это делают, и мы можем отслеживать и измерять это с беспрецедентной точностью. При достаточном количестве данных цифры говорят сами за себя.

Было много критических замечаний по поводу такого рода цифровой колонизации науки. Бойд и Кроуфорд уже в 2012 году выступили с критикой науки, основанной на больших данных. Одним из примеров неправильности такого подхода является использование твитов для оценки общественного мнения, так как исследования на основе твитов не учитывают, что кампания не предоставляет все твиты, что делает оценку не объективной. Более того, люди, которые пишут в Твиттере, не обязательно являются репрезентативными для населения, и то, что люди предпочитают представлять в Твиттере и других социальных сетях, "часто тщательно курируется и систематически контролируется". Последнее, однако, также верно и для интервью, и для опросов. Другими словами, пренебрежение довольно базовыми методами статистического исследования, например, репрезентативной выборки, означает, что выводы с такими данными в лучшем случае ложны.

Существует ещё 3 факта, которые разоблачают этот миф: ошибки, предвзятость и сложность управления. Ошибка не является чем-то необычным в науке. Сообщение о возможных источниках ошибок и поиск объяснений ошибок (разница между ожидаемыми и фактическими результатами) являются важными механизмами обучения. Когда источники ошибок известны, ученые и те, кто предоставляет свои инструменты, делают все возможное, чтобы избежать или исправить их. Тем не менее, в 2004 году стало понятно, что, например, Excel превращает названия генов в даты. Все геномы имеют буквенно-цифровой код, который автоматически отображаются в виде дат в электронных таблицах Excel. Не было никакого способа отключить эту функцию Excel, и исследователям пришлось искать свои собственные решения с разным уровнем успеха и последовательности. Microsoft ничего не сделала, чтобы исправить это, и в августе 2020 года комитет по номенклатуре генома человека объявил об изменении рекомендаций по именованию генов, чтобы избежать этой проблемы. Этот пример иллюстрирует не только то, как ошибка может быть увеличена при использовании цифровых технологий, но и то, сколько работы необходимо проделать научному сообществу, чтобы сделать данные пригодными для использования.

Предвзятость. Например, тенденция относиться к отдельным лицам или группам на основе неоправданных убеждений или взглядов, часто приводящих к неравному обращению, это может проявляться в приложениях с использованием больших данных. Объем данных не приводит автоматически к корректуре, скорее, это может усилить предвзятость. Например, если исторические данные, отражающие старые гендерные стереотипы, используются для обучения машин, то, неудивительно, что LinkedIn чаще показывал высокооплачиваемую работу мужчинам, чем женщинам. Отчасти эта гендерная предвзятость возникает из-за очень простого международного стандарта, который кодирует «представительство человеческих полов» следующим образом: неизвестно – 0; мужчина – 1; женский – 2; не применимо – 9. Это прекрасный пример того, как исторические "преобладающие практики" могут быть встроены в системы с потенциально серьезными последствиями для повседневной жизни и для исследований. Этот код является причиной того, что "мужчина" является опцией по умолчанию в подавляющем большинстве выпадающих меню на веб-сайтах для всего, от покупки билета на самолет до бронирования концерта.

И наконец последнее: большими данными сложно управлять. Чем их больше, тем труднее найти то, что ищешь. Эмпирическое исследование Грегори и ее коллег показало, как исследователи на самом деле занимаются поиском данных, демонстрируя, что это не такая простая практика. Данные никогда не даются просто так, и сами по себе они недостаточны для того, чтобы сделать какое-либо заявление о знании. Теоретические концепции всегда встроены в классификации и алгоритмы, используемые для осмысления больших объемов данных. Более того, концепции и теории необходимы для интерпретации любого вида анализа больших данных, особенно когда исследователи делают эпистатические, социальные или нормативные заявления.

7.6 Миф 4. Всё уже стало цифровым

Одно из самых больших заблуждений о "больших данных" заключается в том, что все уже цифровое. Ничто не может быть дальше от истины, чем это. Твиты уже рождаются цифровыми, и данные датчиков, используемые для регистрации загрязнения или дорожного движения, напрямую фиксируются в базах данных. В подтверждение утверждения о том, что "все уже цифровое", представлены такие статистические данные: в 2020 году каждый второй человек создавал 1,7 мегабайта данных; 90% мировых данных были созданы в 2019 и 2020 годах. Эти цифры возникают, когда, подсчитывается ежедневное количество фотографий и видео, размещенных в социальных сетях, и отправленных электронных писем. Ссылаясь на такие большие цифры, действительно заманчиво думать, что данные обо всей человеческой жизни и мире были сохранены в цифровом виде, и что доступ к ним есть всегда при необходимости.

На самом деле это не так. Возможно, удивительно высокая доля коллекций национальных библиотек и архивов оцифрована, но, например, в Национальной библиотеке Нидерландов из-за ограничений авторского права оцифрована только 0,8% книг. Кроме подобных случаев существует огромное количество данных, которые не могут быть оцифрованы из-за того, что они утеряны или больше нет оборудования для их цифровизации. Ещё один тип данных, которые не оцифровываются – это засекреченные данные. Такие данные хранятся только на бумаге и рассекречиваются, если рассекречиваются только через большой промежуток времени. Также не оцифровываются данные о табуированных или очень деликатных темах, которые может быть трудно собрать или записать, например, данные о жестоком обращении с детьми и насилии в отношении женщин в прошлом и настоящем. Данные, которые неизвестны или непознаваемы, возникающие из-за теоретических пробелов, являются самым большим объёмом данных, которые нельзя оцифровать, так как эти данные пока не представляется возможности получить в целом. Наконец, есть машинные данные и анализы. Это может показаться парадоксальным, поскольку, можно было бы ожидать, что данные, полученные с помощью компьютерных моделей и симуляций, могут быть познаны цифровыми средствами. Действительно, они могут быть таковыми, но проблема заключается в том, что они не могут быть познаны людьми, если они производятся алгоритмами черного ящика, основанными на шаблонах в больших наборах данных.

7.7 Заключение

Были рассмотрены 4 мифа о "больших данных". Существование этих мифы означают, что восхваления больших данных должны быть подвергнуты сомнению, и необходимо обратить внимание на то, как описываются большие данные. Данные продолжают собираться как государственными, так и частными организациями. Жизнь людей становится «данными», а данные формируют и изменяют бизнес и даже государства. Данные не передаются свободно и используются в недобросовестных целях. Бесполезно думать о "больших данных" как о чём-то новом, поскольку это затемняет политическую, экономическую и культурную динамику, которая формирует способы генерации и использования данных.

Образовательные учреждения и средства массовой информации играют важную роль в том, чтобы помочь людям узнать, какие критические вопросы следует задавать при представлении данных. Этими вопросами являются: Кто создал данные? Для каких целей? Когда и как были опубликованы данные? Доступна ли документация по сбору, курированию и происхождению? Кто разработал инструменты для анализа данных и с помощью каких средств? Доступна ли какая-либо документация об используемых инструментах? Есть ли альтернативные инструменты? Приходят ли они к одинаковым результатам? Как сформулировать значимые поисковые запросы и как оценить результаты? Чего не хватает? Что было потеряно или удалено? Задаваясь подобными критическими вопросами, человек может критически взглянуть на любые данные и не стать обманутым.

Источники: Sally Wyatt, “The Necessity of Critique”, 2022 г., из главы: “Critical (Big) Data Studies” извлечено из: https://link.springer.com/book/10.1007/978-3-031-07877-4

Мифы о "Больших данных" и их критика

Недавние посты

Комментарии