Članki

Privacy Loop: umetna inteligenca v labirintu zasebnosti in avtorskih pravic

To je prvi od dveh člankov, v katerih obravnavam občutljiv odnos med zasebnostjo in avtorskimi pravicami na eni strani ter umetno inteligenco na drugi.

Problematično razmerje, pri katerem se tehnološki razvoj izkaže za tako hiter, da je vsaka regulativna prilagoditev zastarela že ob prvi uporabi.

Reševanje kočljivih vprašanj, povezanih s pravicami ljudi in osebnimi podatki, zahteva pozornost, usposobljenost in nepogrešljivo razpravo med intelektualci in strokovnjaki našega časa. Ugotavljamo, da nismo dovolj hitri pri prilagajanju družbenih pravil izzivom, ki nam jih postavljajo tehnološke inovacije. Nastajajoče tehnologije vse pogosteje delujejo na prostem, v popolni odsotnosti predpisov, ki omejujejo njihovo uporabo, lahko povzročijo škodo in zato to počnejo popolnoma nekaznovano.

Ali si je mogoče zamisliti nadzor, ki sega po verigi tehnološkega razvoja nazaj do znanstvenih raziskav in njihovih strateških ciljev?

Ali si je mogoče zamisliti, da bi ob ohranjanju trdnega spoštovanja posameznikovih svoboščin upravljali razvoj naše vrste?

Zasebnost?

»Bolj ko se poskušaš skriti, več pozornosti pritegneš. Zakaj je tako pomembno, da nihče ne ve zate?« – iz filma “Anon” scenarija in režiserja Andrewa Niccola – 2018

V filmu "Anon” leta 2018 je družba prihodnosti temno mesto, pod neposrednim nadzorom velikanskega računalniškega sistema, imenovanega Ether, ki je sposoben nadzirati vsak kotiček naroda tako, da ga opazuje skozi oči istih ljudi, ki ga naseljujejo. Vsako človeško bitje je nadzornik v imenu Etra in njegova prva odgovornost je seveda nadzorovati sebe in svoje vedenje.

Ether je najboljši zaveznik policijskih sil: prek Etherja lahko agenti izsledijo izkušnjo katere koli osebe, tako da jo podoživijo na lastne oči, in rešijo katero koli vrsto zločina.

Policist Sal se sprašuje, zakaj bi se morali boriti za zaščito svoje zasebnosti: kaj je smisel, ko se nimate razloga skrivati? Konec koncev, v dobi, v kateri tehnologije, ki jih gradimo za povečanje varnosti naših domov in naših ulic, zahtevajo beleženje, spremljanje in preverjanje takšnih informacij v interesu ljudi samih, ki prosijo za zaščito, kako lahko pričakujemo, da bomo zagotovili njihova zasebnost?

Da bi pokazal, kako nevaren je dostop do življenj drugih, bo heker prevzel nadzor nad Etherjem in v življenja milijonov ljudi se bo spustila strašna nočna mora: grožnja, da bodo morali kot nemočni gledalci gledati slike najbolj mučne trenutke njihovih življenj, predvajane neposredno v njihovo mrežnico.

Loop

Le umetne nevronske mreže ki so osnova delovanja sodobne umetne inteligence, se vrtijo okoli treh glavnih elementov: osnovnih informacij, sicer imenovanih corpus, En algoritem za asimilacijo informacij in a spomin za njihovo pomnjenje.

Algoritem ni omejen na banalno nalaganje informacij v pomnilnik, temveč jih skenira in išče elemente, ki jih med seboj povezujejo. Mešanica podatkov in odnosov bo prenesena v pomnilnik, ki bo tvoril a model.

Znotraj modela so podatki in relacije popolnoma nerazločljivi, zato je rekonstrukcija korpusa izvirnih učnih informacij iz naučene nevronske mreže skoraj nemogoča.

To še posebej velja, če korpusi vsebujejo velike količine podatkov. To velja za velike jezikovne sisteme, znane kot Large Language Models (kratko LLM), vključno z zloglasnim ChatGpt. Svojo učinkovitost dolgujejo veliki količini informacij, uporabljenih pri usposabljanju: trenutno dobro usposabljanje zahteva vsaj nekaj terabajtov podatkov in glede na to, da en terabajt ustreza 90 milijardam znakov, približno 75 milijonom strani besedila, je enostavno razumeti, da obstaja toliko potrebnih informacij.

Toda če modelov ni mogoče de-inženirsko spremeniti, zakaj bi se morali spraševati o problemu kršitev zasebnosti?

Prevlada podatkov

"Kdorkoli je nor, lahko zahteva izvzetje iz letalskih misij, toda kdor zahteva izvzetje iz letalskih misij, ni nor." – po romanu "Catch 22" Josepha Hellerja.

Glasilo o inovacijah
Ne zamudite najpomembnejših novic o inovacijah. Prijavite se, če jih želite prejemati po e-pošti.

Zbiranje podatkov v tolikšni velikosti, da bi omogočili ustvarjanje projektov, kot je ChatGpt ali drugih podobnih, je danes v pristojnosti velikih multinacionalk, ki so se s svojimi digitalnimi aktivnostmi lahko dokopale do največjega skladišča informacij. v svetu: splet.

Google in Microsoft, ki že leta upravljata iskalnike, ki skenirajo splet in ekstrapolirajo ogromne količine informacij, sta prva kandidata za ustvarjanje LLM, edinih modelov AI, ki so sposobni prebaviti količine informacij, kot so zgoraj opisane.

Težko je verjeti, da bi lahko Google ali Microsoft prikrila osebne podatke v svojih podatkih, preden bi jih uporabila kot korpus pri usposabljanju nevronske mreže. Anonimizacija informacij se v primeru jezikovnih sistemov prevede v identifikacijo osebnih podatkov znotraj korpusa in njihovo zamenjavo z lažnimi podatki. Predstavljajmo si korpus velikosti nekaj terabajtov, s katerim želimo usposobiti model, in poskusimo si predstavljati, koliko dela bi bilo potrebno za ročno anonimiziranje podatkov, ki jih vsebuje: to bi bilo praktično nemogoče. Toda če bi se želeli zanašati na algoritem, ki bi to naredil samodejno, bi bil edini sistem, ki bi lahko opravil to delo, drug enako velik in sofisticiran model.

Pred nami je klasična težava Catch-22: »za usposabljanje LLM z anonimiziranimi podatki potrebujemo LLM, ki jih je sposoben anonimizirati, če pa imamo LLM, ki je sposoben anonimizirati podatke, njegovo usposabljanje ni potekalo z anonimiziranimi podatki .”

GDPR je zastarela

GDPR, ki (skoraj) globalno narekuje pravila spoštovanja zasebnosti ljudi, je v luči teh tem že stara novica in o varstvu osebnih podatkov, ki so vključeni v izobraževalni sklop, ne pride v poštev.

V GDPR je obdelava osebnih podatkov za namene učenja splošnih korelacij in povezav le delno urejena z 22. členom, ki pravi: »Posameznik, na katerega se nanašajo osebni podatki, ima pravico, da ni podvržen odločitvi, ki temelji izključno na avtomatizirani obdelavi, vključno s profiliranjem, kar ima zanj pravne učinke ali ga prizadene na podoben in pomemben način«.

Ta člen uvaja prepoved upravljavcem podatkov, da osebne podatke subjekta uporabljajo kot del popolnoma avtomatiziranega postopka odločanja, ki ima neposredne pravne učinke na subjekt. Toda nevronske mreže, ki jih je mogoče zlahka prilagoditi avtomatiziranim procesom odločanja, ko so usposobljene, pridobijo sposobnost sprejemanja samodejnih odločitev, ki lahko vplivajo na življenja ljudi. Vendar te odločitve niso vedno »logične«. Med usposabljanjem se pravzaprav vsaka nevronska mreža nauči povezovati informacije med seboj, pri čemer jih pogosto povezuje med seboj na popolnoma nelinearen način. In odsotnost »logike« prav nič ne olajša dela zakonodajalcu, ki želi postaviti ščit v bran zasebnosti ljudi.

Če bi se poleg tega odločili za uporabo izjemno restriktivne politike, na primer prepovedi uporabe kakršnih koli občutljivih podatkov, razen če lastnik tega izrecno ne odobri, bi bila zakonita uporaba nevronskih mrež neizvedljiva. In opustitev tehnologij nevronskih mrež bi bila velika izguba, samo pomislite na modele analize, usposobljene s kliničnimi podatki preiskovancev iz populacije, ki jo je delno prizadela določena bolezen. Ti modeli pomagajo izboljšati politike preprečevanja z ugotavljanjem korelacije med elementi, prisotnimi v podatkih, in samo boleznijo, nepričakovane korelacije, ki se v očeh zdravnikov lahko zdijo popolnoma nelogične.

Upravljanje potreb

Postavljati problem spoštovanja zasebnosti ljudi, potem ko je leta neselektivno dovoljeval zbiranje, je najmanj hinavsko. Sama GDPR je s svojo kompleksnostjo odgovorna za številne manipulacije, ki omogočajo pridobivanje pooblastil za obdelavo osebnih podatkov z izkoriščanjem dvoumnosti klavzul in težavnostjo razumevanja.

Vsekakor potrebujemo poenostavitev zakonodaje, ki omogoča njeno uporabnost in pravo vzgojo zavestne uporabe osebnih podatkov.

Moj predlog je, da podjetjem ne dovolimo, da poznajo osebne podatke uporabnikov, ki se registrirajo za njihove storitve, tudi če gre za plačljive storitve. Do uporabe lažnih osebnih podatkov s strani zasebnikov bi moralo priti samodejno, ko uporabljajo spletne sisteme. Uporaba resničnih podatkov bi morala biti omejena samo na nakupni proces in zagotoviti, da so vedno popolnoma ločeni od podatkovne baze storitev.

Poznavanje okusov in preferenc subjekta, ne da bi dovolili, da se ime ali obraz poveže s tem profilom, bi delovalo kot oblika anonimizacije, izvedene navzgor, kar bi samodejno omogočilo zbiranje podatkov in njihovo uporabo v sistemih avtomatizacije, kot je umetna inteligenca.

Člen Gianfranco Fedele