raksti

Privātuma cilpa: mākslīgais intelekts privātuma un autortiesību labirintā

Šis ir pirmais no diviem rakstiem, kuros es runāju par delikātajām attiecībām starp privātumu un autortiesībām, no vienas puses, un mākslīgo intelektu, no otras puses.

Problemātiskas attiecības, kurās tehnoloģiskā attīstība izrādās tik ātra, ka jebkura regulējuma korekcija ir novecojusi no pirmās piemērošanas brīža.

Lai risinātu sarežģītus jautājumus, kas saistīti ar cilvēku tiesībām un personas datiem, ir nepieciešama uzmanība, kompetence un neaizstājama diskusija starp mūsdienu intelektuāļiem un speciālistiem. Mēs atklājam, ka neesam pietiekami ātri, pielāgojot sociālos noteikumus izaicinājumiem, ko mums rada tehnoloģiskās inovācijas. Jaunās tehnoloģijas arvien vairāk darbojas atklātā laukā, jo pilnībā nav noteikumu, kas ierobežo to piemērošanu, var radīt kaitējumu un tādējādi to darīt pilnīgi nesodīti.

Vai ir iespējams iedomāties kontroli, kas virzās augšup pa tehnoloģiskās attīstības ķēdi līdz zinātniskiem pētījumiem un tās stratēģiskajiem mērķiem?

Vai ir iespējams pārvaldīt mūsu sugas evolūciju, vienlaikus stingri ievērojot individuālās brīvības?

Privātums?

"Jo vairāk jūs mēģināt slēpties, jo vairāk jūs piesaistāt uzmanību. Kāpēc ir tik svarīgi, ka neviens par tevi nezina? – no Endrjū Nikola sarakstītās un režisores filmas “Anon” – 2018. gads

Filmā "Tūliņ” 2018. gada sabiedrība nākotnes sabiedrība ir tumša vieta, kas atrodas tiešā gigantiskas datorsistēmas Ether vadībā, kas spēj uzraudzīt katru nācijas nostūri, vērojot to ar to pašu cilvēku acīm, kuri to apdzīvo. Katrs cilvēks ir Ētera pārraugs, un viņu pirmais pienākums, protams, ir uzraudzīt sevi un savu uzvedību.

Ēteris ir labākais policijas spēku sabiedrotais: ar Ether palīdzību aģenti var izsekot jebkuras personas pieredzei, izdzīvojot to ar savām acīm, un atrisināt jebkura veida noziegumus.

Policists Sals brīnās, kāpēc jums vajadzētu cīnīties, lai aizsargātu savu privātumu: kāda jēga, ja jums nav iemesla slēpties? Galu galā laikmetā, kurā tehnoloģijas, ko mēs veidojam, lai palielinātu mūsu māju un ielu drošību, pieprasa reģistrēt, uzraudzīt un pārbaudīt šādu informāciju to cilvēku interesēs, kuri lūdz aizsardzību, kā mēs varam sagaidīt, ka mēs garantēsim viņu privātumu?

Lai parādītu, cik bīstami ir piekļūt citu cilvēku dzīvībām, hakeris pārņems kontroli pār Ēteru, un miljoniem cilvēku dzīvības pārņems šausmīgs murgs: draudi, ka viņiem kā bezpalīdzīgiem skatītājiem būs jāskatās vislielāko cilvēku attēli. viņu dzīves nomocītos mirkļus, kas tiek pārraidīti tieši viņu tīklenē.

Cilpa

Le mākslīgie neironu tīkli kas ir mūsdienu mākslīgā intelekta funkcionēšanas pamatā, griežas ap trim galvenajiem elementiem: pamatinformāciju, ko citādi sauc korpusu, Viena algoritms informācijas asimilācijai un viens memoria to iegaumēšanai.

Algoritms neaprobežojas tikai ar banālu informācijas ielādi atmiņā, tas skenē to, meklējot elementus, kas tos saista viens ar otru. Datu un attiecību sajaukums tiks pārsūtīts uz atmiņu, kas veidos a modelis.

Modeļa ietvaros dati un attiecības ir pilnīgi neatšķiramas, tāpēc sākotnējās apmācības informācijas korpusa rekonstrukcija no apmācīta neironu tīkla ir gandrīz neiespējama.

Tas jo īpaši attiecas uz gadījumiem, kad korpusos ir liels datu apjoms. Tas attiecas uz lielajām valodu sistēmām, kas pazīstamas kā Large Language Models (īsumā LLM), tostarp bēdīgi slaveno ChatGpt. To efektivitāti nodrošina lielais apmācībā izmantotās informācijas apjoms: pašlaik labam apmācībai ir nepieciešami vismaz daži terabaiti datu un, ņemot vērā, ka viens terabaits atbilst 90 miljardiem rakstzīmju, aptuveni 75 miljoniem teksta lappušu, ir viegli saprast, ka tik daudz informācijas vajag.

Bet, ja modeļus nevar deģenerēt, kāpēc mums vajadzētu sev uzdot jautājumu par privātuma pārkāpumiem?

Datu dominēšana

"Ikviens, kurš ir traks, var lūgt, lai viņu atbrīvo no lidojumu misijām, bet tas, kurš lūdz atbrīvot no lidojumu misijām, nav traks." – pēc Džozefa Hellera romāna “Catch 22” motīviem.

Inovāciju biļetens
Nepalaidiet garām svarīgākās ziņas par jauninājumiem. Reģistrējieties, lai tos saņemtu pa e-pastu.

Tāda apjoma datu vākšana, kas ļautu izveidot tādus projektus kā ChatGpt vai citus līdzīgus projektus, mūsdienās ir lielo starptautisku uzņēmumu prerogatīva, kuri ar savām digitālajām darbībām ir spējuši iegūt vislielāko informācijas krātuvi. pasaulē: Web.

Google un Microsoft, kas gadiem ilgi ir pārvaldījušas meklētājprogrammas, kas skenē tīmekli un ekstrapolē milzīgu informācijas daudzumu, ir pirmie kandidāti LLM izveidei, kas ir vienīgie AI modeļi, kas spēj sagremot tādu informācijas daudzumu kā iepriekš aprakstītie.

Grūti noticēt, ka Google vai Microsoft spētu aizēnot savos datos esošo personisko informāciju, pirms to izmantos kā korpusu neironu tīkla apmācībā. Informācijas anonimizācija lingvistisko sistēmu gadījumā nozīmē personas datu identificēšanu korpusā un to aizstāšanu ar viltotiem datiem. Iedomāsimies dažu terabaitu lielu korpusu, ar kuru mēs vēlamies apmācīt modeli, un mēģināsim iedomāties, cik daudz darba būtu nepieciešams, lai manuāli anonimizētu tajā esošos datus: tas būtu praktiski neiespējami. Bet, ja mēs vēlētos paļauties uz algoritmu, lai to izdarītu automātiski, vienīgā sistēma, kas spēj veikt šo darbu, būtu cits tikpat liels un izsmalcināts modelis.

Mēs esam klasiskas Catch-22 problēmas klātbūtnē: “lai apmācītu LLM ar anonimizētiem datiem, mums ir nepieciešams LLM, kas spēj tos anonimizēt, bet, ja mums ir LLM, kas spēj anonimizēt datus, tā apmācība netika veikta ar anonimizētiem datiem. . ”

GDPR ir novecojis

GDPR, kas diktē (gandrīz) globāli noteikumus par cilvēku privātuma ievērošanu, ņemot vērā šīs tēmas, jau ir veca ziņa, un apmācības komplektā iesaistīto personas datu aizsardzība nav paredzēta.

VDAR personas datu apstrādi, lai uzzinātu vispārīgas korelācijas un sakarības, tikai daļēji regulē 22. pants, kurā teikts: “Datu subjektam ir tiesības netikt pakļautam lēmumam, kas balstīts tikai uz automatizētu apstrādi, tostarp profilēšanu, kas rada uz viņu juridiskas sekas vai kas viņu ietekmē līdzīgā un nozīmīgā veidā”.

Šis pants ievieš aizliegumu datu pārziņiem izmantot subjekta personas datus kā daļu no pilnībā automatizēta lēmumu pieņemšanas procesa, kam ir tiešas juridiskas sekas attiecībā uz subjektu. Taču neironu tīkli, kas ir viegli pielīdzināmi automatizētiem lēmumu pieņemšanas procesiem, pēc apmācības iegūst spēju pieņemt automātiskus lēmumus, kas var ietekmēt cilvēku dzīvi. Taču šie lēmumi ne vienmēr ir “loģiski”. Apmācības laikā faktiski katrs neironu tīkls iemācās saistīt informāciju viens ar otru, bieži vien tos savstarpēji saistot absolūti nelineāri. Un "loģikas" trūkums neatvieglo darbu likumdevējam, kurš vēlas pacelt vairogu cilvēku privātuma aizsardzībai.

Ja tiktu izvēlēta arī ārkārtīgi ierobežojoša politika, piemēram, aizliedzot izmantot jebkādus sensitīvus datus, ja vien īpašnieks to nepārprotami nav atļāvis, neironu tīklu likumīga izmantošana būtu nepraktiska. Un atteikšanās no neironu tīklu tehnoloģijām būtu liels zaudējums, iedomājieties tikai analīzes modeļus, kas apmācīti ar klīniskajiem datiem par indivīdiem, kurus ir daļēji skārusi konkrēta slimība. Šie modeļi palīdz uzlabot profilakses politiku, identificējot korelācijas starp datos esošajiem elementiem un pašu slimību, negaidītas korelācijas, kas klīnicistu acīs var šķist pilnīgi neloģiskas.

Vajadzību pārvaldīšana

Problēmas izvirzīšana par cilvēku privātuma ievērošanu pēc tam, kad gadiem ilgi bez izšķirības ir atļauta tās kolekcija, ir maigi izsakoties liekulīgi. Pats GDPR ar savu sarežģītību ir atbildīgs par daudzām manipulācijām, kas ļauj iegūt atļauju apstrādāt personas datus, izmantojot klauzulu neskaidrību un izpratnes grūtības.

Mums noteikti ir nepieciešama likuma vienkāršošana, kas ļauj to piemērot, un reāla izglītošana apzinātā personas informācijas izmantošanā.

Mans priekšlikums ir neļaut uzņēmumiem uzzināt to lietotāju personas datus, kuri reģistrējas saviem pakalpojumiem, pat ja tie ir maksas pakalpojumi. Viltus personas datus privātpersonām vajadzētu izmantot automātiski, kad tās izmanto tiešsaistes sistēmas. Reālu datu izmantošana ir jāierobežo tikai ar pirkšanas procesu, nodrošinot, ka tie vienmēr ir pilnībā nošķirti no pakalpojumu datu bāzes.

Zinot subjekta gaumi un vēlmes, neļaujot ar šo profilu saistīt vārdu vai seju, tas darbotos kā anonimizācijas veids, kas tiek veikts pirms plūsmas, kas automātiski ļautu vākt datus un izmantot tos automatizācijas sistēmās, piemēram, mākslīgajos intelektos.

Raksts no Gianfranco Fedele