Artiklid

Privaatsussilmus: tehisintellektid privaatsuse ja autoriõiguse labürindis

See on esimene kahest artiklist, milles käsitlen ühelt poolt privaatsuse ja autoriõiguse ning teiselt poolt tehisintellekti vahelist delikaatset suhet.

Probleemne suhe, kus tehnoloogiline areng on osutunud nii kiireks, et kõik regulatiivsed kohandused on juba esmakordsest rakendamisest aegunud.

Inimeste õigusi ja isikuandmeid puudutavate keeruliste küsimuste käsitlemine nõuab tähelepanu, kompetentsi ja asendamatut arutelu meie aja haritlaste ja spetsialistide vahel. Avastame, et me ei ole piisavalt kiired sotsiaalsete reeglite kohandamisel väljakutsetega, mida tehnoloogilised uuendused meile esitavad. Arenevad tehnoloogiad leiavad end üha enam töötamas avamaal, nende rakendamist piiravate eeskirjade täieliku puudumise tõttu, tekitades kahju ja seega täiesti karistamatult.

Kas on võimalik ette kujutada kontrolli, mis kulgeks tehnoloogilise arengu ahelas tagasi teadusuuringute ja selle strateegiliste eesmärkideni?

Kas on mõeldav juhtida meie liigi arengut, säilitades samal ajal kindla austamise üksikisiku vabaduste vastu?

Privaatsus?

"Mida rohkem üritate varjata, seda rohkem tõmbate tähelepanu. Miks on nii tähtis, et keegi teist ei tea?” – Andrew Niccoli kirjutatud ja lavastatud filmist “Anon” – 2018

Filmis "Anon” 2018. aasta ühiskond on tume koht, mis on hiiglasliku Etheri-nimelise arvutisüsteemi otsese kontrolli all, mis suudab jälgida rahva iga nurka, jälgides seda samade inimeste pilguga, kes seda asustavad. Iga inimene on Eetri nimel järelevaataja ja tema esimene kohustus on loomulikult jälgida ennast ja oma käitumist.

Eeter on politseijõudude parim liitlane: Etheri kaudu saavad agendid jälgida iga inimese kogemusi, kogedes seda oma silmaga uuesti läbi ja lahendada mis tahes tüüpi kuritegusid.

Politseinik Sal mõtleb, miks peaksite oma privaatsuse kaitseks võitlema: mis mõtet on, kui teil pole põhjust varjata? Lõppude lõpuks, ajastul, mil tehnoloogiad, mille me ehitame oma kodude ja tänavate ohutuse suurendamiseks, nõuavad sellise teabe salvestamist, jälgimist ja kontrollimist kaitset taotlevate inimeste endi huvides, kuidas me saame garanteerida nende privaatsus?

Et näidata, kui ohtlik on pääseda ligi teiste eludele, võtab häkker Etheri üle kontrolli ja miljonite inimeste eludesse langeb kohutav õudusunenägu: oht, et nad peavad abitute pealtvaatajatena vaatama kõige rohkem pilte. piinatud hetked nende elust, edastatud otse nende võrkkestasse.

Loop

Le tehisnärvivõrgud mis on tänapäevaste tehisintellektide toimimise aluseks, tiirlevad ümber kolme põhielemendi: põhiteabe, mida muidu nimetatakse korpus, Üks algoritm teabe assimilatsiooniks ja üks mälu nende meeldejätmiseks.

Algoritm ei piirdu teabe banaalse laadimisega mällu, vaid skannib seda, otsides elemente, mis neid omavahel seostavad. Andmete ja seoste segu kantakse üle mällu, mis moodustab a mudel.

Mudeli sees on andmed ja seosed täiesti eristamatud, mistõttu on treenitud närvivõrgust algse koolitusteabe korpuse rekonstrueerimine peaaegu võimatu.

See kehtib eriti siis, kui korpused sisaldavad suures koguses andmeid. See kehtib suurte keelesüsteemide kohta Large Language Models (lühidalt LLM), sealhulgas kurikuulus ChatGpt. Nende tõhusus võlgneb koolitusel kasutatavale suurele teabehulgale: praegu nõuab hea koolitus vähemalt paar terabaiti andmemahtu ja arvestades, et üks terabait vastab 90 miljardile tähemärgile, ligikaudu 75 miljonile leheküljele teksti, on lihtne aru saada, et nii palju infot vaja.

Aga kui mudeleid ei saa dekonstrueerida, siis miks peaksime endalt küsima privaatsusrikkumiste probleemi?

Andmete domineerimine

"Kes on hull, võib taotleda lennumissioonidest vabastamist, kuid see, kes soovib lennumissioonidest vabastamist, pole hull." – Joseph Helleri romaani “Catch 22” ainetel.

Innovatsiooni uudiskiri
Ärge jätke ilma kõige olulisematest uuendustest. Registreeruge, et saada neid meili teel.

Sellise mahuga andmete kogumine, mis võimaldab luua selliseid projekte nagu ChatGpt või muud sarnased, on tänapäeval suurte rahvusvaheliste ettevõtete eesõigus, kes on oma digitaalse tegevusega saanud oma käed suurimale teabehoidlale. maailmas: Veeb.

Google ja Microsoft, kes on aastaid haldanud otsingumootoreid, mis skaneerivad veebi ja ekstrapoleerivad tohutul hulgal teavet, on esimesed kandidaadid LLM-i loomiseks, ainsteks tehisintellekti mudeliteks, mis suudavad seedida ülalkirjeldatuid.

On raske uskuda, et Google või Microsoft suudaksid oma andmetes isikuandmeid varjata, enne kui seda korpusena närvivõrgu treenimisel kasutavad. Teabe anonüümseks muutmine keelesüsteemide puhul tähendab isikuandmete tuvastamist korpuses ja nende asendamist võltsandmetega. Kujutagem ette mõne terabaidi suurust korpust, millega tahame mudelit treenida, ja proovime ette kujutada, kui palju tööd oleks vaja selles sisalduvate andmete käsitsi anonüümseks muutmiseks: see oleks praktiliselt võimatu. Aga kui me tahame toetuda algoritmile, mis seda automaatselt teeks, oleks ainus süsteem, mis seda tööd saaks teha, teine sama suur ja keerukas mudel.

Oleme klassikalise Catch-22 probleemi ees: "anonüümsete andmetega LLM-i koolitamiseks vajame LLM-i, mis suudab need anonüümseks muuta, kuid kui meil on LLM-i, mis suudab andmeid anonüümseks muuta, siis selle koolitust ei tehtud anonüümsete andmetega. . ”

GDPR on vananenud

GDPR, mis dikteerib (peaaegu) globaalselt inimeste privaatsuse austamise reeglid, on nende teemade valguses juba vana uudis ja koolituskomplektiga seotud isikuandmete kaitset ei mõelda.

GDPR-is reguleerib isikuandmete töötlemist üldiste seoste ja seoste õppimise eesmärgil vaid osaliselt artikkel 22, mis ütleb: „Andmesubjektil on õigus mitte olla allutatud otsusele, mis põhineb üksnes automatiseeritud töötlemisel, sealhulgas profiilide koostamisel, mis avaldab talle õiguslikke tagajärgi või mis mõjutab teda sarnasel ja olulisel viisil”.

Käesolevas artiklis kehtestatakse vastutavatel andmetöötlejatel keeld kasutada subjekti isikuandmeid täielikult automatiseeritud otsustusprotsessi osana, millel on subjektile otsesed õiguslikud tagajärjed. Kuid automatiseeritud otsustusprotsessidega hõlpsasti assimileeritavad närvivõrgud omandavad pärast koolitamist võime teha automaatseid otsuseid, mis võivad mõjutada inimeste elu. Kuid need otsused ei ole alati "loogilised". Tegelikult õpib iga närvivõrk koolituse käigus teavet üksteisega seostama, seostades neid sageli üksteisega absoluutselt mittelineaarsel viisil. Ja "loogika" puudumine ei tee seadusandja tööd lihtsamaks, kes tahab inimeste privaatsuse kaitseks kilpi tõsta.

Kui otsustada rakendada ka äärmiselt piiravat poliitikat, näiteks keelata mis tahes tundlike andmete kasutamine, välja arvatud juhul, kui omanik on selleks selgesõnaliselt loa andnud, oleks närvivõrkude seaduslik kasutamine võimatu. Ja närvivõrgu tehnoloogiatest loobumine oleks suur kahju, mõelge vaid analüüsimudelitele, mis on koolitatud teatud haigusest osaliselt mõjutatud elanikkonna kliiniliste andmetega. Need mudelid aitavad parandada ennetuspoliitikat, tuvastades andmetes sisalduvate elementide ja haiguse enda vahel seosed – ootamatud korrelatsioonid, mis võivad arstide silmis tunduda täiesti ebaloogilised.

Vajaduste haldamine

Inimeste privaatsuse austamise probleemi püstitamine pärast seda, kui on aastaid olnud valimatult volitatud selle kogumiseks, on pehmelt öeldes silmakirjalik. GDPR ise on oma keerukusega vastutav arvukate manipulatsioonide eest, mis võimaldavad saada isikuandmete töötlemiseks loa, kasutades ära klauslite mitmetähenduslikkust ja mõistmisraskust.

Kindlasti vajame selle rakendatavust võimaldavat seaduse lihtsustamist ja reaalset harimist isikuandmete teadlikul kasutamisel.

Minu ettepanek on mitte lubada ettevõtetel teada nende kasutajate isikuandmeid, kes registreeruvad oma teenustele, isegi kui tegemist on tasuliste teenustega. Eraisikud peaksid võrgusüsteemide kasutamisel võltsitud isikuandmeid kasutama automaatselt. Reaalsete andmete kasutamine peaks piirduma ainult ostuprotsessiga, tagades, et need on alati teenuseandmebaasist täiesti eraldi.

Subjekti maitsete ja eelistuste tundmine, lubamata selle profiiliga nime või nägu seostada, toimiks ülesvoolu teostatava anonüümsuse vormina, mis võimaldaks automaatselt koguda andmeid ja kasutada neid automatiseerimissüsteemides, nagu tehisintellektid.

Artikkel Gianfranco Fedele