Straipsniai

Privatumo kilpa: dirbtinis intelektas privatumo ir autorių teisių labirinte

Tai pirmasis iš dviejų straipsnių, kuriuose aptariu subtilų privatumo ir autorių teisių bei dirbtinio intelekto ryšį.

Probleminis santykis, kai technologinė evoliucija pasirodo esanti tokia greita, kad bet koks reguliavimo pakeitimas paseno nuo pat pirmojo taikymo.

Sprendžiant sudėtingas problemas, susijusias su žmonių teisėmis ir asmens duomenimis, reikia dėmesio, kompetencijos ir nepakeičiamos diskusijos tarp šių laikų intelektualų ir specialistų. Atrandame, kad nepakankamai greitai pritaikome socialines taisykles prie iššūkių, kuriuos mums kelia technologinės naujovės. Naujos technologijos vis dažniau veikia atvirame lauke, visiškai nesant taisyklių, ribojančių jų taikymą, gali sukelti žalą, todėl tai daroma visiškai nebaudžiamai.

Ar įmanoma įsivaizduoti kontrolę, kuri tęstųsi technologinės plėtros grandine iki mokslinių tyrimų ir jų strateginių tikslų?

Ar įmanoma valdyti mūsų rūšies evoliuciją išlaikant tvirtą pagarbą asmens laisvėms?

Privatumas?

„Kuo daugiau stengiesi slėptis, tuo labiau pritraukia dėmesį. Kodėl taip svarbu, kad niekas apie tave nežinotų? – iš filmo „Anon“, kurį parašė ir režisavo Andrew Niccol – 2018 m

Filme "Anon2018 m., ateities visuomenė yra tamsi vieta, kurią tiesiogiai valdo milžiniška kompiuterinė sistema Ether, galinti stebėti kiekvieną tautos kampelį, stebėdama jį tų pačių žmonių akimis. Kiekvienas žmogus yra Eterio prižiūrėtojas ir, žinoma, pirmoji jų pareiga yra stebėti save ir savo elgesį.

Eteris yra geriausias policijos pajėgų sąjungininkas: per eterį agentai gali atsekti bet kurio žmogaus patirtį, išgyvendami ją savo akimis ir išspręsti bet kokio tipo nusikaltimus.

Policijos pareigūnas Sal klausia, kodėl turėtumėte kovoti, kad apsaugotumėte savo privatumą: kokia prasmė, kai neturite priežasties slėptis? Galų gale, epochoje, kai technologijos, kurias statome, kad padidintume savo namų ir gatvių saugumą, reikalauja registruoti, stebėti ir tikrinti tokią informaciją pačių žmonių, kurie prašo apsaugos, interesais, kaip galime tikėtis garantuoti jų privatumas?

Norėdami parodyti, kaip pavojinga turėti prieigą prie kitų žmonių, įsilaužėlis perims Eterio kontrolę, o milijonų žmonių gyvenimus užklups baisus košmaras: grėsmė, kad bejėgiams žiūrovams teks stebėti pačių didžiausių žmonių vaizdus. kankinamos jų gyvenimo akimirkos, transliuojamos tiesiai į tinklainę.

Loop

Le dirbtiniai neuroniniai tinklai kurie yra šiuolaikinio dirbtinio intelekto veikimo pagrindas, sukasi aplink tris pagrindinius elementus: pagrindinę informaciją, kitaip vadinamą rinkinys, Vienas algoritmas informacijos įsisavinimui ir a atmintis už jų įsiminimą.

Algoritmas neapsiriboja banaliu informacijos įkėlimu į atmintį, jis nuskaito ją ieškodamas elementų, kurie juos sieja vienas su kitu. Duomenų ir ryšių derinys bus perkeltas į atmintį, kuri sudarys a šabloną.

Modelyje duomenys ir ryšiai yra visiškai neatskiriami, todėl originalios mokymo informacijos korpuso atkūrimas iš apmokyto neuroninio tinklo yra beveik neįmanomas.

Tai ypač aktualu, kai korpusuose yra daug duomenų. Tai yra didelių kalbinių sistemų, žinomų kaip Large Language Models (trumpai – LLM), įskaitant liūdnai pagarsėjusį „ChatGpt. Jų veiksmingumą lemia didelis mokymo metu naudojamos informacijos kiekis: šiuo metu geram mokymui reikia bent kelių terabaitų duomenų ir turint omenyje, kad vienas terabaitas atitinka 90 milijardų simbolių, maždaug 75 milijonus puslapių teksto, nesunku suprasti, kad yra tiek reikia informacijos.

Bet jei modelių neįmanoma ištaisyti, kodėl turėtume savęs paklausti privatumo pažeidimų?

Duomenų dominavimas

„Kas yra pamišęs, gali prašyti būti atleistas nuo skrydžio misijų, bet tas, kuris prašo būti atleistas nuo skrydžio misijų, nėra išprotėjęs. – pagal Josepho Hellerio romaną „Pagauk 22“.

Inovacijų naujienlaiškis
Nepraleiskite svarbiausių naujienų apie naujoves. Prisiregistruokite, kad gautumėte juos el.

Tokio dydžio duomenų rinkimas, leidžiantis kurti tokius projektus kaip ChatGpt ar kitus panašius projektus, šiandien yra didelių tarptautinių kompanijų, kurios savo skaitmenine veikla galėjo patekti į didžiausią informacijos saugyklą, prerogatyva. pasaulyje: žiniatinklis.

„Google“ ir „Microsoft“, daugelį metų valdančios paieškos sistemas, kurios nuskaito žiniatinklį ir ekstrapoliuoja didžiulius kiekius informacijos, yra pirmieji kandidatai sukurti LLM – vienintelius AI modelius, galinčius suvirškinti tokius kiekius informacijos, kaip aprašyta aukščiau.

Sunku patikėti, kad „Google“ ar „Microsoft“ galėtų paslėpti asmeninę informaciją savo duomenyse, prieš naudodami ją kaip korpusą treniruodami neuroninį tinklą. Informacijos anoniminimas kalbinių sistemų atveju reiškia asmens duomenų identifikavimą korpuse ir jų pakeitimą netikrais duomenimis. Įsivaizduokime kelių terabaitų dydžio korpusą, su kuriuo norime apmokyti modelį, ir pabandykime įsivaizduoti, kiek darbo reikėtų rankiniu būdu anonimizuoti jame esančius duomenis: tai būtų praktiškai neįmanoma. Bet jei norėtume pasikliauti algoritmu, kuris tai atliktų automatiškai, vienintelė sistema, galinti atlikti šį darbą, būtų kitas toks pat didelis ir sudėtingas modelis.

Susidūrėme su klasikine Catch-22 problema: „norėdami mokyti LLM su anoniminiais duomenimis, mums reikia LLM, galinčio juos anonimizuoti, bet jei turime LLM, galintį anonimizuoti duomenis, jo mokymas nebuvo atliktas naudojant anoniminius duomenis. .

GDPR yra pasenęs

BDAR, diktuojantis (beveik) visame pasaulyje taisykles, kaip gerbti žmonių privatumą, atsižvelgiant į šias temas, jau sena naujiena, o asmens duomenų, susijusių su mokymo rinkiniu, apsauga negalvojama.

BDAR asmens duomenų tvarkymą siekiant sužinoti bendrąsias sąsajas ir ryšius tik iš dalies reglamentuoja 22 straipsnis, kuriame teigiama: „Duomenų subjektas turi teisę, kad jam nebūtų priimtas sprendimas, pagrįstas tik automatizuotu tvarkymu, įskaitant profiliavimą, kuris sukelia jam teisines pasekmes arba daro jam panašią ir reikšmingą įtaką“.

Šiame straipsnyje pateikiamas draudimas duomenų valdytojams naudoti subjekto asmens duomenis kaip dalį visiškai automatizuoto sprendimų priėmimo proceso, turinčio tiesioginių teisinių padarinių subjektui. Tačiau neuroniniai tinklai, lengvai prilyginami automatizuotiems sprendimų priėmimo procesams, išmokę įgyja galimybę priimti automatinius sprendimus, kurie gali turėti įtakos žmonių gyvenimui. Tačiau šie sprendimai ne visada yra „logiški“. Treniruotės metu iš tikrųjų kiekvienas neuroninis tinklas išmoksta susieti informaciją vienas su kitu, dažnai susiejant juos vienas su kitu absoliučiai nelinijiškai. O „logikos“ nebuvimas nepalengvina darbo įstatymų leidėjui, norinčiam pakelti skydą ginant žmonių privatumą.

Jei taip pat būtų pasirinkta taikyti itin ribojančią politiką, pavyzdžiui, uždrausti naudoti bet kokius neskelbtinus duomenis, nebent savininkas aiškiai leido, legalus neuroninių tinklų naudojimas būtų nepraktiškas. Neuroninių tinklų technologijų atsisakymas būtų didžiulis nuostolis, tik pagalvokite apie analizės modelius, parengtus remiantis klinikiniais duomenimis apie populiaciją, kurią iš dalies paveikė tam tikra liga. Šie modeliai padeda tobulinti prevencijos politiką, nustatydami ryšius tarp duomenų elementų ir pačios ligos, netikėtas koreliacijas, kurios gydytojų akimis gali pasirodyti visiškai nelogiškos.

Poreikių valdymas

Keletas pagarbos žmonių privatumo problemai, kai beatodairiškai buvo leista rinkti daugelį metų, yra mažų mažiausiai veidmainiška. Pats GDPR dėl savo sudėtingumo yra atsakingas už daugybę manipuliacijų, leidžiančių gauti leidimą tvarkyti asmens duomenis, pasinaudojant sąlygų dviprasmiškumu ir supratimo sunkumu.

Mums tikrai reikia įstatymo supaprastinimo, leidžiančio jį taikyti, ir realaus išsilavinimo, kaip sąmoningai naudoti asmeninę informaciją.

Mano pasiūlymas – neleisti įmonėms žinoti naudotojų, kurie registruojasi savo paslaugoms gauti, asmens duomenų, net jei tai yra mokamos paslaugos. Privatūs asmenys suklastotus asmens duomenis turėtų naudoti automatiškai, kai jie naudojasi internetinėmis sistemomis. Tikrų duomenų naudojimas turėtų apsiriboti tik pirkimo procesu, užtikrinant, kad jie visada būtų visiškai atskirti nuo paslaugų duomenų bazės.

Žinant subjekto skonį ir pageidavimus, neleidžiant su šiuo profiliu susieti vardo ar veido, būtų galima atlikti anonimiškumą, kuris automatiškai leistų rinkti duomenis ir juos naudoti automatizavimo sistemose, pvz., dirbtiniame intelekte.

Straipsnis Gianfranco Fedele