1. Technology giants today preside over vast troves of user data that are heavily mined for proft. The concentration of such valuable data in private hands to serve mainly commercial interests must be questioned.
2. In contrast, governments, universities and think tanks undertake data collection eforts that are comparatively modest in scale, scope, duration and resolution and must contend with ‘data dregs’.
3. Aside from claiming scores of victims, COVID-19 has also exposed deep cleavages between the digital haves and digital have-nots in almost every society. At the outset, with half of humanity subjected to lockdowns that saw business, education and healthcare services migrating online, digital connectivity was the clear game changer.
4. Indeed, the likes of Apple, Google and WeChat command vast troves of information on users that can give epidemiologi-call control a veritable shot in the arm. Unfortunately—and rightfully—data privacy regulations restrict these companies from sharing such data, despite the legitimate imperative to contain the pandemic.
5. More recently, using anonymised mobile phone data from the same private operator, researchers also assessed the impact of mobility on epidemic spread, and more importantly, the impact of policies, such as mass quarantines and selective re-openings.
6. Besides governments, academia, think tanks and civil society are also not privy to such data. This concentration of such valuable data in private hands to serve exclusively commercial interests must therefore be questioned, especially in light of humanity’s bruising experience with COVID-19.
6. Unless we change the status quo, the current state of data inequity that privileges private
gains over public good will significantly hobble societally beneficial research for the foreseeable future.
7. Information exchange is a key tranche of urban interaction and provides illuminating insights into social governance and urban planning.
8. With more phone calls and text messaging shifting to proprietary platforms, such as WhatsApp and Telegram, our ability to understand such social exchange of information is significantly constrained unless data sharing by Big Tech companies is mandated.
9. Ultimately, in a technologising world undergirded by Big Data, we must address the pressing question—how does the prevailing data asymmetry subvert our quest for ethical AI?
10. First, the commercial exploitation of data for algorithms that automate everything from online advertisements to social media feeds and insurance premiums is an opaque exercise.
11. Big Tech companies’ data mining and algorithmic design processes are so complex that they have become incomprehensible to regulators, rendering hollow any requirements for transparency and accountability.
12. Academic research is held to more rigorous ethical standards than that conducted in corporations.
13. Research-intensive universities have multidisciplinary ethical review boards that have oversight of detailed research protocols.
14. Peer-review processes for academic publications also routinely require evidence of ethical research procedures. Such safeguards, even if not entirely failsafe, create a commendable culture of accountability.
15. If academics are granted access to Big Data, they can help raise professional standards around its management, treatment and analysis to enhance fairness and explainability. These efforts can then help translate AI ethics from lofty principles to concrete practices.
16. To be sure, technology companies are not immune to such criticisms and in a bid to boost their corporate social responsibility efforts, have sought to share some of their data through collaborations with research institutions.
17. Partnership on AI created in 2016 by several Big Tech companies is one such effort, although some partners have complained about the lack of achievements and progress.
18. Big Tech companies are also heavily involved in funding and participating in AI research conferences, where transparency norms and peer-review processes help lift the veil over some of their Big Data projects.
19. However, such arrangements and initiatives are piecemeal and undertaken on terms that weigh decidedly in favour of the companies’ interests.
20. Finally, all commodities in our societies are regulated and taxed for good reason. We must therefore ask ourselves why in our current Digital Gilded Age, one of the most valuable commodities of all––data—is effectively not regulated beyond individual privacy.
21. Mandating some levels of data sharing could be achieved through the concept of ‘Open
Data’, which borrows some of its tenets from the opensource software, open design, open knowledge and open access movements.
22. Some governments have also recognised the societal benefts of making data available through national online portals.
23. Initiatives by the open-source culture movement aim to make freely available a range of innovations, including software source code and hardware designs, to promote wider adoption and further refinement.
24. For instance, the Linux computer operating system is widely recognised as the most successful and secure ever programmed and is widely used by commercial forms in data centres and to power the Internet of Things.
25. Thanks to the collective ingenuity of developers, numerous hardware and software developments have achieved exemplary outcomes.
26. In totality therefore, when we regard the shifting contours of our Big Data society, private entities continue to gorge on data of the highest quality, while states and research institutions that seek data for the collective good must settle for vastly inferior ‘data dregs’.
27. As the amount of data society generates grows exponentially, we must reckon with the current data asymmetry becoming even more lopsided.
28. If the existing quasi-monopolistic and proprietary model for Big Data persists, substantial societal benefits will fail to materialise. Regrettably, so will our quest for ethical AI.
29. Many had to resort to ‘coarse’ proxy data from public transport, healthcare, security and public utility services, with countries, like Singapore and South Korea, initially utilising mobile phone GPS data for contact tracing and identifying super spreader events.
30. Economic and financial data using anonimised sources from several private forms—credit card issuers, job posting aggregators and financial services firms—also offer governments near-real-time economic compasses for monitoring and adapting to rapidly evolving circumstances.
Перевод на русский язык
"Отбросы данных" и их последствия для этики искусственного интеллекта: разоблачения
пандемии
1. Технологические гиганты сегодня контролируют огромные массивы пользовательских данных, которые активно добываются для получения прибыли. Концентрация таких ценных данных в частных руках для обслуживания главным образом коммерческих интересов должна быть поставлена под сомнение.
2. Напротив, правительства, университеты и аналитические центры предпринимают усилия по сбору данных, которые сравнительно скромны по масштабу, охвату, продолжительности и разрешению и должны бороться с ‘отбросами данных’.
3. Помимо того, что COVID-19 привел к многочисленным жертвам, он также выявил глубокие разногласия между цифровыми имущими и цифровыми неимущими почти в каждом обществе. С самого начала, когда половина человечества подверглась карантину, в результате которого бизнес, образование и здравоохранение перешли в онлайн, цифровое подключение явно изменило правила игры.
4. Действительно, Facebook, Google и WeChat, такие как Apple, располагают огромным количеством информации о пользователях, которая может дать эпидемиологическому контролю настоящий шанс. К сожалению — и по праву — правила конфиденциальности данных запрещают этим компаниям делиться такими данными, несмотря на законную необходимость сдерживания пандемии.
5. Совсем недавно, используя анонимизированные данные мобильных телефонов от того же частного оператора, исследователи также оценили влияние мобильности на распространение эпидемии и, что более важно, влияние политики, такой как массовые карантины и выборочные повторные открытия.
6. Помимо правительств, научные круги, аналитические центры и гражданское общество также не имеют доступа к таким данным.
Поэтому эта концентрация таких ценных данных в частных руках для обслуживания исключительно коммерческих интересов должна быть поставлена под сомнение, особенно в свете тяжелого опыта человечества с COVID-19.
6. Если мы не изменим статус-кво, нынешнее состояние неравенства в данных, при котором частная
выгода ставится выше общественного блага, в обозримом будущем значительно затруднит исследования, приносящие пользу обществу.
7. Обмен информацией является ключевым элементом городского взаимодействия и позволяет получить представление о социальном управлении и городском планировании.
8. С увеличением числа телефонных звонков и текстовых сообщений, переходящих на проприетарные платформы, такие как WhatsApp и Telegram, наша способность понимать такой социальный обмен информацией значительно ограничена, если только обмен данными крупными технологическими компаниями не является обязательным.
9. В конечном счете, в технологизирующемся мире, опирающемся на Большие данные, мы должны ответить на насущный вопрос: как преобладающая асимметрия данных подрывает наши поиски этичного ИИ?
10. Во-первых, коммерческое использование данных для алгоритмов, автоматизирующих все, от онлайн-рекламы до каналов в социальных сетях и страховых взносов, является непрозрачным занятием.
11. Процессы интеллектуального анализа данных и алгоритмического проектирования крупных технологических компаний настолько сложны, что они стали непонятными для регулирующих органов, что делает недействительными любые требования к прозрачности и подотчетности.
12. Академические исследования проводятся в соответствии с более строгими этическими стандартами, чем те, которые проводятся в корпорациях.
13. В университетах с интенсивными исследованиями существуют междисциплинарные комиссии по этическому обзору, которые осуществляют надзор за подробными протоколами исследований.
14. Процессы рецензирования научных публикаций также обычно требуют подтверждения этических процедур исследования. Такие гарантии, даже если они не совсем надежны, создают достойную похвалы культуру подотчетности.
15. Если ученым будет предоставлен доступ к Большим данным, они могут помочь повысить профессиональные стандарты в отношении их управления, обработки и анализа для повышения справедливости и объяснимости. Затем эти усилия могут помочь перевести этику ИИ из высоких принципов в конкретные практики.
16. Безусловно, технологические компании не застрахованы от подобной критики и, стремясь повысить свою корпоративную социальную ответственность, стремятся поделиться некоторыми своими данными посредством сотрудничества с исследовательскими институтами.
17. Партнерство в области искусственного интеллекта, созданное в 2016 году несколькими крупными технологическими компаниями, является одним из таких усилий, хотя некоторые партнеры жаловались на отсутствие достижений и прогресса.
18. Крупные технологические компании также активно участвуют в финансировании и участии в конференциях по исследованию искусственного интеллекта, где нормы прозрачности и процессы экспертной оценки помогают приоткрыть завесу над некоторыми
из их проектов в области больших данных.
19. Однако такие договоренности и инициативы носят разрозненный характер и осуществляются на условиях, которые
явно учитывают интересы компаний.
20. Наконец, все товары в наших обществах регулируются и облагаются налогом по уважительной причине. Поэтому мы должны спросить себя, почему в наш нынешний Цифровой Золотой век один из самых ценных товаров из всех — данные - эффективно не регулируется за пределами личной конфиденциальности.
21. Установление определенных уровней обмена данными может быть достигнуто с помощью концепции ‘Открытого
Данные’, которая заимствует некоторые из своих принципов из движений за программное обеспечение с открытым исходным кодом, открытый дизайн, открытые знания и открытый доступ.
22. Некоторые правительства также признали социальные выгоды от предоставления данных посредством
национальные интернет-порталы.
23. Инициативы движения за культуру открытого исходного кода направлены на обеспечение свободного доступа к ряду инноваций, включая исходный код программного обеспечения и конструкции аппаратных средств, для содействия более широкому внедрению и дальнейшему совершенствованию.
24. Например, компьютерная операционная система Linux широко признана самой успешной и безопасной из когда-либо программируемых и широко используется коммерческими FRM в центрах обработки данных и для питания Интернета вещей.
25. Благодаря коллективной изобретательности разработчиков многочисленные разработки аппаратного и программного обеспечения позволили добиться образцовых результатов.
26. Таким образом, в целом, когда мы рассматриваем меняющиеся контуры нашего общества больших данных, частные организации продолжают поглощать данные высочайшего качества, в то время как государства и исследовательские институты, которые ищут данные для коллективного блага, должны довольствоваться значительно более низкими "отбросами данных’.
27. Поскольку объем данных, генерируемых обществом, растет экспоненциально, мы должны считаться с тем, что нынешняя асимметрия данных становится еще более однобокой.
28. Если существующая квазимонополистическая и частная модель больших данных сохранится, существенные социальные выгоды не материализуются. К сожалению, так же будет и с нашими поисками этичного ИИ.
29. Многим приходилось прибегать к "грубым" косвенным данным из общественного транспорта, здравоохранения, служб безопасности и коммунальных служб, причем такие страны, как Сингапур и Южная Корея, первоначально использовали данные GPS мобильных телефонов для отслеживания контактов и выявления событий с суперпредставителями.
30. Экономические и финансовые данные, полученные из анонимных источников от нескольких частных frm — эмитентов кредитных карт, агрегаторов объявлений о вакансиях и компаний, предоставляющих финансовые услуги, — также предоставляют правительствам экономические компасы почти в режиме реального времени для мониторинга и адаптации к быстро меняющимся обстоятельствам.
Список используемых источников
Journal "AI and Ethics", January 2022, article "'Data dregs' and its implications for AI ethics: Revelations from the pandemic". Written by Sun Sun Lim & Roland Bouffanais. https://link.springer.com/article/10.1007/s43681-021-00130-8
Comments