towary

Pętla prywatności: sztuczna inteligencja w labiryncie prywatności i praw autorskich

To pierwszy z dwóch artykułów, w których poruszam delikatną relację pomiędzy prywatnością i prawami autorskimi z jednej strony, a sztuczną inteligencją z drugiej.

Jest to problematyczna relacja, w przypadku której ewolucja technologiczna okazuje się tak szybka, że ​​wszelkie dostosowania regulacyjne stają się przestarzałe od pierwszego zastosowania.

Zajęcie się drażliwymi kwestiami dotyczącymi praw człowieka i danych osobowych wymaga uwagi, kompetencji i niezbędnej dyskusji między intelektualistami i specjalistami naszych czasów. Odkrywamy, że nie jesteśmy wystarczająco szybcy w dostosowywaniu zasad społecznych do wyzwań, jakie stawiają przed nami innowacje technologiczne. Pojawiające się technologie coraz częściej funkcjonują na otwartym polu, przy całkowitym braku przepisów ograniczających ich stosowanie, mogąc powodować szkody, a zatem czynić to całkowicie bezkarnie.

Czy można sobie wyobrazić kontrolę sięgającą wstecz w łańcuchu rozwoju technologicznego do badań naukowych i ich celów strategicznych?

Czy można kierować ewolucją naszego gatunku, zachowując jednocześnie niezachwiane poszanowanie wolności jednostki?

Prywatność?

„Im bardziej próbujesz się ukryć, tym bardziej przyciągasz uwagę. Dlaczego to takie ważne, żeby nikt o tobie nie wiedział?” – z filmu „Anon” według scenariusza i reżyserii Andrew Niccola – 2018

W filmie "Zaraz” z 2018 roku społeczeństwo przyszłości to mroczne miejsce, znajdujące się pod bezpośrednią kontrolą gigantycznego systemu komputerowego zwanego Eterem, zdolnego monitorować każdy zakątek kraju, obserwując go oczami tych samych ludzi, którzy go zamieszkują. Każdy człowiek jest nadzorcą w imieniu Eteru i jego pierwszym obowiązkiem jest oczywiście monitorowanie siebie i swojego zachowania.

Eter jest najlepszym sprzymierzeńcem policji: za jego pośrednictwem agenci mogą prześledzić doświadczenia dowolnej osoby, przeżywając je na własne oczy i rozwiązać każdy rodzaj przestępstwa.

Policjant Sal zastanawia się, dlaczego warto walczyć o ochronę swojej prywatności: jaki jest sens, gdy nie ma powodu się ukrywać? Przecież w dobie, w której technologie, które budujemy, aby zwiększyć bezpieczeństwo naszych domów i ulic, wymagają rejestrowania, monitorowania i weryfikacji takich informacji w interesie samych osób proszących o ochronę, jak możemy oczekiwać zagwarantowania ich prywatność?

Aby pokazać, jak niebezpieczny jest dostęp do życia innych, haker przejmie kontrolę nad Eterem, a na życie milionów ludzi spadnie straszny koszmar: groźba konieczności oglądania w charakterze bezradnych widzów obrazów najbardziej udręczone momenty ich życia, transmitowane bezpośrednio do ich siatkówek.

Loop

Le sztuczne sieci neuronowe leżące u podstaw funkcjonowania współczesnych sztucznych inteligencji, krążą wokół trzech głównych elementów: podstawowych informacji, zwanych inaczej ciało, A algorytm do przyswajania informacji i a pamięci dla ich zapamiętania.

Algorytm nie ogranicza się do banalnego ładowania informacji do pamięci, on skanuje ją w poszukiwaniu elementów, które je ze sobą wiążą. Mieszanka danych i relacji zostanie przeniesiona do pamięci, która utworzy model.

W modelu dane i relacje są całkowicie nierozróżnialne, dlatego też odtworzenie korpusu oryginalnych informacji szkoleniowych z wyszkolonej sieci neuronowej jest prawie niemożliwe.

Jest to szczególnie prawdziwe, gdy korpusy zawierają duże ilości danych. Dzieje się tak w przypadku dużych systemów językowych znanych jako Large Language Models (w skrócie LLM), w tym niesławny ChatGpt. Swoją skuteczność zawdzięczają dużej ilości informacji wykorzystywanych w szkoleniach: obecnie dobre szkolenie wymaga co najmniej kilku terabajtów danych, a biorąc pod uwagę, że jeden terabajt odpowiada 90 miliardom znaków, czyli około 75 milionom stron tekstu, łatwo zrozumieć, że nie ma tak wiele potrzebnych informacji.

Ale jeśli modeli nie da się przeprojektować, dlaczego mielibyśmy zadawać sobie problem naruszeń prywatności?

Dominacja danych

„Ktokolwiek jest szalony, może poprosić o zwolnienie z misji lotniczych, ale ktokolwiek prosi o zwolnienie z misji lotniczych, nie jest szalony”. – na podstawie powieści „Paragraf 22” Josepha Hellera.

Biuletyn innowacji
Nie przegap najważniejszych wiadomości dotyczących innowacji. Zarejestruj się, aby otrzymywać je e-mailem.

Gromadzenie danych o takiej wielkości, aby umożliwić tworzenie projektów takich jak ChatGpt lub innych podobnych jest dziś prerogatywą dużych międzynarodowych firm, które dzięki swojej cyfrowej działalności udało im się zdobyć największe repozytorium informacji na świecie: Internet.

Google i Microsoft, które od lat zarządzają wyszukiwarkami skanującymi sieć i ekstrapolującymi ogromne ilości informacji, są pierwszymi kandydatami do stworzenia LLM, jedynych modeli sztucznej inteligencji zdolnych do trawienia takich ilości informacji, jak te opisane powyżej.

Trudno uwierzyć, że Google lub Microsoft byłyby w stanie ukryć w swoich danych dane osobowe, zanim wykorzystałyby je jako korpus do uczenia sieci neuronowej. Anonimizacja informacji w przypadku systemów językowych oznacza identyfikację danych osobowych w korpusie i zastąpienie ich danymi fałszywymi. Wyobraźmy sobie korpus wielkości kilku terabajtów, za pomocą którego chcemy wytrenować model i spróbujmy sobie wyobrazić, ile pracy wymagałoby ręczne zanonimizowanie zawartych w nim danych: byłoby to praktycznie niemożliwe. Gdybyśmy jednak chcieli polegać na algorytmie, który zrobi to automatycznie, jedynym systemem zdolnym wykonać to zadanie byłby inny, równie duży i wyrafinowany model.

Mamy do czynienia z klasycznym problemem Catch-22: „aby wytrenować LLM przy użyciu anonimowych danych, potrzebujemy LLM zdolnego do ich anonimizacji, ale jeśli mamy LLM potrafiący anonimizować dane, jego szkolenie nie zostało przeprowadzone przy użyciu anonimowych danych . ”

RODO jest przestarzałe

RODO, które dyktuje (prawie) globalnie zasady poszanowania prywatności ludzi, w świetle tych tematów jest już przestarzałą wiadomością i ochrona danych osobowych w ramach zestawu szkoleniowego nie jest rozważana.

W RODO przetwarzanie danych osobowych w celu poznania ogólnych powiązań i powiązań jedynie częściowo reguluje art. 22, który stanowi: „Osoba, której dane dotyczą, ma prawo nie podlegać decyzji, która opiera się wyłącznie na zautomatyzowanym przetwarzaniu, w tym profilowaniu, co wywołuje wobec niego skutki prawne lub wpływa na niego w podobny i znaczący sposób”.

Artykuł ten wprowadza zakaz wykorzystywania przez administratorów danych osobowych danych osobowych podmiotu w ramach w pełni zautomatyzowanego procesu decyzyjnego wywołującego bezpośrednie skutki prawne wobec podmiotu. Jednak sieci neuronowe, które można łatwo przyswoić do zautomatyzowanych procesów decyzyjnych, po przeszkoleniu nabywają zdolność do podejmowania automatycznych decyzji, które mogą mieć wpływ na życie ludzi. Ale te decyzje nie zawsze są „logiczne”. Tak naprawdę podczas treningu każda sieć neuronowa uczy się skojarzyć ze sobą informacje, często wiążąc je ze sobą w sposób absolutnie nieliniowy. A brak „logiki” nie ułatwia pracy ustawodawcy, który chce wznieść tarczę w obronie prywatności ludzi.

Jeśli ktoś zdecydowałby się również na zastosowanie niezwykle restrykcyjnej polityki, na przykład zakazującej wykorzystywania jakichkolwiek danych wrażliwych bez wyraźnej zgody właściciela, legalne wykorzystanie sieci neuronowych byłoby niepraktyczne. A rezygnacja z technologii sieci neuronowych byłaby poważną stratą, wystarczy pomyśleć o modelach analitycznych wytrenowanych na podstawie danych klinicznych pacjentów z populacji, która została częściowo dotknięta określoną chorobą. Modele te pomagają ulepszyć politykę profilaktyczną poprzez identyfikację korelacji między elementami obecnymi w danych a samą chorobą, nieoczekiwanych korelacji, które w oczach klinicystów mogą wydawać się całkowicie nielogiczne.

Zarządzanie potrzebami

Stawianie problemu poszanowania prywatności ludzi po tym, jak przez lata bezkrytycznie zezwalano na jej gromadzenie, jest co najmniej hipokryzją. Samo RODO, swoją złożonością, powoduje liczne manipulacje, które pozwalają uzyskać zgodę na przetwarzanie danych osobowych poprzez wykorzystanie niejednoznaczności klauzul i trudności w ich zrozumieniu.

Na pewno potrzebne jest uproszczenie prawa, które pozwoli na jego stosowanie i prawdziwa edukacja w zakresie świadomego korzystania z danych osobowych.

Moja propozycja jest taka, aby nie pozwalać firmom na poznanie danych osobowych użytkowników rejestrujących się w celu skorzystania z ich usług, nawet jeśli są to usługi płatne. Wykorzystywanie fałszywych danych osobowych przez osoby prywatne powinno następować automatycznie podczas korzystania przez nie z systemów internetowych. Wykorzystanie rzeczywistych danych powinno ograniczać się wyłącznie do procesu zakupowego, dbając o to, aby były one zawsze całkowicie oddzielone od bazy danych usług.

Znajomość gustów i preferencji podmiotu bez zezwolenia na skojarzenie imienia lub twarzy z tym profilem funkcjonowałaby jako forma anonimizacji przeprowadzanej na wyższym szczeblu łańcucha dostaw, która automatycznie umożliwiałaby gromadzenie danych i ich wykorzystanie w systemach automatyki, takich jak sztuczna inteligencja.

Artykuł z Gianfranco Fedele

Biuletyn innowacji
Nie przegap najważniejszych wiadomości dotyczących innowacji. Zarejestruj się, aby otrzymywać je e-mailem.

Najnowsze artykuły

Veeam oferuje najbardziej wszechstronną obsługę oprogramowania ransomware, od ochrony po reagowanie i odzyskiwanie

Coveware by Veeam będzie w dalszym ciągu świadczyć usługi reagowania na incydenty związane z wyłudzeniami cybernetycznymi. Coveware będzie oferować funkcje kryminalistyczne i naprawcze…

Kwiecień 23 2024

Rewolucja ekologiczna i cyfrowa: jak konserwacja predykcyjna zmienia przemysł naftowy i gazowy

Konserwacja predykcyjna rewolucjonizuje sektor naftowo-gazowy dzięki innowacyjnemu i proaktywnemu podejściu do zarządzania zakładami.…

Kwiecień 22 2024

Brytyjski organ antymonopolowy podnosi alarm BigTech w związku z GenAI

Brytyjskie CMA wydało ostrzeżenie dotyczące zachowań Big Tech na rynku sztucznej inteligencji. Tam…

Kwiecień 18 2024

Casa Green: rewolucja energetyczna dla zrównoważonej przyszłości we Włoszech

Rozporządzenie w sprawie zielonych domów, opracowane przez Unię Europejską w celu zwiększenia efektywności energetycznej budynków, zakończyło proces legislacyjny…

Kwiecień 18 2024