Articole

Bucla de confidențialitate: inteligențe artificiale în labirintul confidențialității și drepturilor de autor

Acesta este primul dintre cele două articole în care abordez relația delicată dintre confidențialitate și drepturi de autor, pe de o parte, și inteligența artificială, pe de altă parte.

O relație problematică în care evoluția tehnologică se dovedește a fi atât de rapidă încât face ca orice ajustare a reglementărilor să fie depășită de la prima aplicare.

Abordarea problemelor spinoase care implică drepturile oamenilor și datele personale necesită atenție, competență și o discuție indispensabilă între intelectualii și specialiștii timpului nostru. Descoperim că nu suntem suficient de rapizi în adaptarea regulilor sociale la provocările pe care ni le pun inovațiile tehnologice. Tehnologiile emergente se trezesc din ce în ce mai mult să opereze în câmp deschis, în absența totală a reglementărilor care să le limiteze aplicarea, libere să provoace prejudicii și deci să facă acest lucru cu totală impunitate.

Este posibil să ne imaginăm un control care să urce pe lanțul dezvoltării tehnologice până la cercetarea științifică și obiectivele sale strategice?

Este de imaginat să guvernăm evoluția speciei noastre, păstrând respectul ferm pentru libertățile individuale?

Confidențialitate?

„Cu cât încerci să te ascunzi mai mult, cu atât atragi mai mult atenția. De ce este atât de important ca nimeni să nu știe despre tine?” – din filmul „Anon” scris și regizat de Andrew Niccol – 2018

În film "Îndată” din 2018, societatea viitorului este un loc întunecat, sub controlul direct al unui sistem informatic gigantic numit Ether, capabil să monitorizeze fiecare colț al națiunii observându-l prin ochii acelorași oameni care o populează. Fiecare ființă umană este un supraveghetor în numele lui Ether și prima lor responsabilitate este, desigur, să se monitorizeze pe sine și comportamentul lor.

Ether este cel mai bun aliat al forțelor de poliție: prin Ether, agenții pot urmări experiența oricărei persoane retrăind-o cu ochii lor și rezolvă orice tip de crimă.

Ofițerul de poliție Sal se întreabă de ce ar trebui să lupți pentru a-ți proteja intimitatea: ce rost are când nu ai de ce să te ascunzi? La urma urmei, într-o epocă în care tehnologiile pe care le construim pentru a crește siguranța caselor și a străzilor noastre necesită înregistrarea, monitorizarea și verificarea unor astfel de informații în interesul oamenilor înșiși care solicită protecție, cum ne putem aștepta să garantăm intimitatea lor?

Pentru a demonstra cât de periculos este să ai acces la viețile altora, un hacker va prelua controlul asupra Etherului și un coșmar teribil se va abate asupra vieților a milioane de oameni: amenințarea de a fi nevoiți să urmărească ca spectatori neajutorati imaginile celor mai mari. momente chinuite din viața lor, transmise direct în retinele lor.

Buclă

Le rețele neuronale artificiale care stau la baza funcționării inteligențelor artificiale moderne, gravitează în jurul a trei elemente principale: informații de bază denumite altfel corp, A Algoritmul pentru asimilarea informațiilor și a memorie pentru memorarea lor.

Algoritmul nu se limitează la o încărcare banală de informații în memorie, le scanează în căutarea elementelor care le relaționează între ele. Un amestec de date și relații va fi transferat în memorie care va forma a model.

În cadrul unui model, datele și relațiile sunt complet imposibil de distins, motiv pentru care reconstruirea corpusului de informații originale de antrenament dintr-o rețea neuronală antrenată este aproape imposibilă.

Acest lucru este valabil mai ales atunci când corpusurile conțin cantități mari de date. Acesta este cazul marilor sisteme lingvistice cunoscute ca Large Language Models (LLM pe scurt), inclusiv infamul ChatGpt. Ele își datorează eficiența cantității mari de informații folosite în antrenament: în prezent o bună pregătire necesită cel puțin câțiva terabytes de date și având în vedere că un terabyte corespunde la 90 de miliarde de caractere, aproximativ 75 de milioane de pagini de text, este ușor de înțeles că există atât de multe informații necesare.

Dar dacă modelele nu pot fi de-proiectate, de ce ar trebui să ne punem problema încălcărilor de confidențialitate?

Dominanța datelor

„Cine este nebun poate cere să fie scutit de misiunile de zbor, dar cine cere să fie scutit de misiunile de zbor nu este nebun.” – bazat pe romanul „Catch 22” de Joseph Heller.

Buletin informativ de inovare
Nu rata cele mai importante știri despre inovație. Înscrieți-vă pentru a le primi pe e-mail.

Colectarea de date de o asemenea dimensiune încât să permită realizarea de proiecte precum ChatGpt sau altele similare este astăzi apanajul marilor companii multinaționale care, prin activitățile lor digitale, au putut pune mâna pe cel mai mare depozit de informații. în lume: Web-ul.

Google și Microsoft, care de ani de zile au gestionat motoare de căutare care scanează Web-ul și extrapolează cantități enorme de informații, sunt primii candidați pentru crearea LLM, singurele modele AI capabile să digere cantități de informații precum cele descrise mai sus.

Este greu de crezut că Google sau Microsoft ar putea să ascundă informațiile personale din datele lor înainte de a le folosi ca corpus în formarea unei rețele neuronale. Anonimizarea informațiilor în cazul sistemelor lingvistice se traduce prin identificarea datelor personale în cadrul unui corpus și înlocuirea acestuia cu date false. Să ne imaginăm un corpus de mărimea câțiva terabytes cu care dorim să antrenăm un model și să încercăm să ne imaginăm câtă muncă ar fi necesară pentru a anonimiza manual datele pe care le conține: ar fi practic imposibil. Dar dacă am vrea să ne bazăm pe un algoritm care să o facă automat, singurul sistem capabil să facă această treabă ar fi un alt model la fel de mare și sofisticat.

Suntem în prezența unei probleme clasice Catch-22: „pentru a antrena un LLM cu date anonimizate avem nevoie de un LLM capabil să îl anonimizeze, dar dacă avem un LLM capabil să anonimizeze datele, antrenamentul lui nu s-a făcut cu date anonimizate. .”

GDPR este învechit

GDPR care dictează (aproape) la nivel global regulile de respectare a vieții private a oamenilor, în lumina acestor subiecte este deja o știre veche și nu este avută în vedere protecția datelor personale implicate într-un set de instruire.

În GDPR, prelucrarea datelor cu caracter personal în scopul de a învăța corelații și conexiuni generale este doar parțial reglementată de articolul 22 care prevede: „Persoana vizată are dreptul de a nu fi supusă unei decizii bazate exclusiv pe prelucrare automată, inclusiv pe profilare, care produce asupra sa efecte juridice sau care îl afectează în mod similar și semnificativ”.

Acest articol introduce interdicția operatorilor de a utiliza datele cu caracter personal ale unui subiect ca parte a unui proces decizional complet automatizat care are efecte juridice directe asupra subiectului. Dar rețelele neuronale, ușor asimilabile proceselor automate de luare a deciziilor, odată instruite dobândesc capacitatea de a lua decizii automate care pot avea un impact asupra vieții oamenilor. Dar aceste decizii nu sunt întotdeauna „logice”. În timpul antrenamentului, de fapt, fiecare rețea neuronală învață să asocieze informații între ele, de multe ori relaționându-le între ele într-o manieră absolut neliniară. Iar lipsa „logicii” nu ușurează treaba legiuitorului care vrea să ridice un scut în apărarea vieții private a oamenilor.

Dacă cineva alege, de asemenea, să aplice o politică extrem de restrictivă, de exemplu interzicerea utilizării oricăror date sensibile cu excepția cazului în care este autorizată în mod explicit de către proprietar, utilizarea legală a rețelelor neuronale ar fi imposibilă. Și renunțarea la tehnologiile rețelelor neuronale ar fi o pierdere majoră, gândiți-vă doar la modelele de analiză antrenate cu datele clinice ale subiecților unei populații care a fost parțial afectată de o anumită boală. Aceste modele ajută la îmbunătățirea politicilor de prevenire prin identificarea corelațiilor dintre elementele prezente în date și boala în sine, corelații neașteptate care în ochii clinicienilor pot părea complet ilogice.

Gestionarea nevoilor

A pune problema respectării vieții private a oamenilor după ce a autorizat fără discernământ colectarea acesteia ani de zile este cel puțin ipocrit. GDPR însuși cu complexitatea sa este responsabil pentru numeroase manipulări care permit obținerea autorizației de prelucrare a datelor cu caracter personal prin exploatarea ambiguității clauzelor și a greutății de înțelegere.

Cu siguranță avem nevoie de o simplificare a legii care să permită aplicabilitatea acesteia și de o adevărată educație în utilizarea conștientă a informațiilor personale.

Propunerea mea este de a nu permite companiilor să cunoască datele personale ale utilizatorilor care se înregistrează pentru serviciile lor, chiar dacă sunt servicii cu plată. Utilizarea datelor personale false de către persoane private ar trebui să aibă loc automat atunci când folosesc sisteme online. Utilizarea datelor reale ar trebui să se limiteze numai la procesul de cumpărare, asigurându-se că acestea sunt întotdeauna complet separate de baza de date a serviciilor.

Cunoașterea gusturilor și preferințelor subiectului fără a permite asocierea unui nume sau chip cu acest profil ar funcționa ca o formă de anonimizare efectuată în amonte care ar permite automat colectarea datelor și utilizarea lor în sisteme de automatizare precum inteligența artificială.

Articolul din Gianfranco Fedele

Buletin informativ de inovare
Nu rata cele mai importante știri despre inovație. Înscrieți-vă pentru a le primi pe e-mail.

Articole recente

Editorii și OpenAI semnează acorduri pentru a reglementa fluxul de informații procesate de Inteligența Artificială

Luni trecută, Financial Times a anunțat un acord cu OpenAI. FT își licențiază jurnalismul de clasă mondială...

Aprilie 30 2024

Plăți online: Iată cum serviciile de streaming vă fac să plătiți pentru totdeauna

Milioane de oameni plătesc pentru serviciile de streaming, plătind taxe lunare de abonament. Este o părere comună că tu...

Aprilie 29 2024

Veeam oferă cel mai complet suport pentru ransomware, de la protecție la răspuns și recuperare

Coveware de la Veeam va continua să ofere servicii de răspuns la incidente de extorcare cibernetică. Coveware va oferi capacități criminalistice și de remediere...

Aprilie 23 2024

Revoluția verde și digitală: cum întreținerea predictivă transformă industria petrolului și gazelor

Întreținerea predictivă revoluționează sectorul petrolului și gazelor, cu o abordare inovatoare și proactivă a managementului uzinelor...

Aprilie 22 2024