товары

Цикл конфиденциальности: искусственный интеллект в лабиринте конфиденциальности и авторских прав

Это первая из двух статей, в которых я рассматриваю деликатные отношения между конфиденциальностью и авторским правом, с одной стороны, и искусственным интеллектом, с другой.

Проблемные отношения, когда технологическая эволюция оказывается настолько быстрой, что любые нормативные изменения устаревают с момента их первого применения.

Решение острых вопросов, связанных с правами людей и личными данными, требует внимания, компетентности и обязательной дискуссии между интеллектуалами и специалистами нашего времени. Мы обнаруживаем, что недостаточно быстро адаптируем социальные правила к вызовам, которые перед нами ставят технологические инновации. Новые технологии все чаще оказываются в открытом поле, при полном отсутствии правил, ограничивающих их применение, и могут причинять ущерб и, следовательно, делать это совершенно безнаказанно.

Можно ли представить себе контроль, идущий по цепочке технологического развития к научным исследованиям и их стратегическим целям?

Возможно ли управлять эволюцией нашего вида, сохраняя при этом твердое уважение к свободе личности?

Конфиденциальность?

«Чем больше ты пытаешься спрятаться, тем больше ты привлекаешь внимание. Почему так важно, чтобы о тебе никто не знал?» – из фильма «Анон» по сценарию и режиссуре Эндрю Никкола – 2018 г.

В кино "СкороВ 2018 году общество будущего представляет собой тёмное место, находящееся под прямым контролем гигантской компьютерной системы под названием Эфир, способной контролировать каждый уголок страны, наблюдая за ним глазами тех же людей, которые его населяют. Каждый человек является наблюдателем от имени Эфира, и его первая обязанность, конечно же, следить за собой и своим поведением.

Эфир — лучший союзник полиции: с помощью Эфира агенты могут проследить опыт любого человека, пережив его собственными глазами, и раскрыть любой тип преступления.

Офицер полиции Сал задается вопросом, почему вы должны бороться за защиту своей конфиденциальности: какой в этом смысл, если у вас нет причин скрываться? В конце концов, в эпоху, когда технологии, которые мы создаем для повышения безопасности наших домов и наших улиц, требуют записи, мониторинга и проверки такой информации в интересах самих людей, которые просят о защите, как мы можем рассчитывать на гарантию их конфиденциальность?

Чтобы продемонстрировать, насколько опасно иметь доступ к жизни других, хакер возьмет под контроль Эфир, и на жизни миллионов людей обрушится ужасный кошмар: угроза беспомощным зрителям наблюдать за изображениями самых мучительные моменты их жизни транслируются прямо на сетчатку.

The Loop

Le искусственные нейронные сети которые лежат в основе функционирования современного искусственного интеллекта, вращаются вокруг трех основных элементов: базовой информации, иначе называемой тело, un алгоритм для усвоения информации и одного память для их запоминания.

Алгоритм не ограничивается банальной загрузкой информации в память, он сканирует ее в поисках элементов, связывающих их друг с другом. В память будет передана смесь данных и взаимосвязей, которая сформирует модель.

Внутри модели данные и отношения совершенно неразличимы, поэтому восстановить корпус исходной обучающей информации из обученной нейронной сети практически невозможно.

Это особенно актуально, когда корпусы содержат большие объемы данных. Так обстоит дело с большими лингвистическими системами, известными как Large Language Models (сокращенно LLM), включая печально известный ChatGpt. Своей эффективностью они обязаны большому объему информации, используемой при обучении: в настоящее время для хорошего обучения требуется как минимум несколько терабайт данных, а учитывая, что один терабайт соответствует 90 миллиардам символов, примерно 75 миллионам страниц текста, нетрудно понять, что существует столько информации нужно.

Но если модели невозможно деконструировать, почему мы должны задавать себе проблему нарушения конфиденциальности?

Доминирование данных

«Кто сумасшедший, может попросить освободить его от полетов, но тот, кто просит освободить его от полетов, не сумасшедший». – по роману Джозефа Хеллера «Уловка 22».

Инновационный бюллетень
Не пропустите самые важные новости об инновациях. Зарегистрируйтесь, чтобы получать их по электронной почте.

Сбор данных такого размера, чтобы позволить создание таких проектов, как ChatGpt или других подобных, сегодня является прерогативой крупных транснациональных компаний, которые своей цифровой деятельностью смогли заполучить крупнейшее хранилище информации. в мире: Интернет.

Google и Microsoft, которые в течение многих лет управляли поисковыми системами, сканирующими Интернет и экстраполирующими огромные объемы информации, являются первыми кандидатами на создание LLM, единственных моделей искусственного интеллекта, способных переваривать такие объемы информации, как описано выше.

Трудно поверить, что Google или Microsoft смогут скрыть личную информацию в своих данных, прежде чем использовать ее в качестве корпуса для обучения нейронной сети. Анонимизация информации в случае лингвистических систем означает идентификацию персональных данных в корпусе и замену их фейковыми данными. Давайте представим себе корпус размером в несколько терабайт, с помощью которого мы хотим обучить модель, и попробуем представить, сколько работы потребуется, чтобы вручную анонимизировать содержащиеся в нем данные: это было бы практически невозможно. Но если бы мы хотели полагаться на алгоритм, который сделает это автоматически, единственной системой, способной выполнить эту работу, была бы другая столь же большая и сложная модель.

Мы сталкиваемся с классической проблемой «Уловка-22»: «для обучения LLM анонимизированными данными нам нужен LLM, способный их анонимизировать, но если у нас есть LLM, способный анонимизировать данные, его обучение не проводилось с анонимизированными данными. .»

GDPR устарел

GDPR, который диктует (почти) глобально правила уважения частной жизни людей, в свете этих тем уже является старой новостью, и защита личных данных, участвующих в обучающем наборе, не рассматривается.

В GDPR обработка персональных данных с целью изучения общих корреляций и связей лишь частично регулируется статьей 22, которая гласит: «Субъект данных имеет право не подвергаться решению, основанному исключительно на автоматизированной обработке, включая профилирование, которое порождает для него юридические последствия или затрагивает его аналогичным и существенным образом».

В этой статье вводится запрет контролерам данных на использование персональных данных субъекта в рамках полностью автоматизированного процесса принятия решений, который имеет прямые юридические последствия для субъекта. Но нейронные сети, легко адаптируемые к автоматизированным процессам принятия решений, после обучения приобретают способность принимать автоматические решения, которые могут повлиять на жизнь людей. Но эти решения не всегда «логичны». Фактически, во время обучения каждая нейронная сеть учится связывать информацию друг с другом, часто связывая ее друг с другом абсолютно нелинейным образом. И отсутствие «логики» не облегчает работу законодателя, который хочет поднять щит в защиту частной жизни людей.

Если кто-то также решит применить чрезвычайно ограничительную политику, например, запретив использование любых конфиденциальных данных без явного разрешения владельца, законное использование нейронных сетей будет непрактичным. И отказ от технологий нейронных сетей был бы большой потерей, просто подумайте о моделях анализа, обученных на клинических данных субъектов популяции, частично затронутых конкретным заболеванием. Эти модели помогают улучшить политику профилактики, выявляя корреляции между элементами, присутствующими в данных, и самим заболеванием, неожиданные корреляции, которые в глазах врачей могут показаться совершенно нелогичными.

Управление потребностями

Ставить проблему уважения частной жизни людей после того, как в течение многих лет без разбора разрешалось собирать их, по меньшей мере, лицемерно. Сам GDPR с его сложностью несет ответственность за многочисленные манипуляции, позволяющие получить разрешение на обработку персональных данных, эксплуатируя двусмысленность положений и сложность понимания.

Нам, безусловно, необходимо упрощение закона, обеспечивающее его применимость, и настоящее обучение сознательному использованию личной информации.

Мое предложение — не позволять компаниям знать персональные данные пользователей, которые регистрируются на их услуги, даже если это платные услуги. Использование поддельных персональных данных частными лицами должно происходить автоматически при использовании ими онлайн-систем. Использование реальных данных должно ограничиваться только процессом закупок, гарантируя, что они всегда полностью отделены от базы данных услуг.

Знание вкусов и предпочтений субъекта без возможности ассоциирования имени или лица с этим профилем будет функционировать как форма анонимизации, выполняемая на начальном этапе, что автоматически позволит собирать данные и их использовать в системах автоматизации, таких как искусственный интеллект.

Статья автора Gianfranco Fedele