artikuluak

Pribatutasun-begizta: adimen artifizialak Pribatutasunaren eta Copyrightaren labirintoan

Hau da, batetik, Pribatutasuna eta Copyrightaren eta bestetik Adimen Artifizialaren arteko harreman delikatua jorratzen dudan bi artikuluetatik lehenengoa.

Harreman problematikoa non bilakaera teknologikoa oso azkarra dela frogatzen ari den edozein arau-doikuntza lehen aplikaziotik zaharkitu egiten baita.

Pertsonen eskubideei eta datu pertsonalei buruzko gai arantzatsuak jorratzeko arreta, konpetentzia eta gure garaiko intelektual eta espezialisten arteko ezinbesteko eztabaida behar da. Deskubritzen ari gara ez garela nahikoa azkar arau sozialak berrikuntza teknologikoek planteatzen dizkiguten erronketara egokitzen. Sortzen ari diren teknologiak gero eta gehiago aurkitzen dira eremu irekian lanean, haien aplikazioa mugatzen duten araudirik ezean, kalteak eragiteko askeak eta, beraz, zigorgabetasun osoz egiteko.

Imajinatu al daiteke garapen teknologikoaren katea ikerketa zientifikoraino eta bere helburu estrategikoetara doan kontrol bat?

Pentsa daiteke gure espeziearen bilakaera gobernatzea, norbanakoen askatasunei errespetu irmoa mantenduz?

Pribatutasuna?

«Zenbat eta gehiago ezkutatzen saiatu, orduan eta arreta gehiago erakartzen duzu. Zergatik da hain garrantzitsua inork zutaz ez jakitea?». – Andrew Niccolek idatzi eta zuzendutako “Anon” filmetik – 2018

Pelikulan"Anon” 2018ko, etorkizuneko gizartea leku ilun bat da, Ether izeneko sistema informatiko erraldoi baten kontrol zuzenaren pean, nazioko txoko guztiak kontrolatzeko gai dena, biztanle dituen pertsona berberen begietatik behatuz. Gizaki bakoitza gainbegirale bat da Ether-en izenean eta bere lehen erantzukizuna, noski, bere burua eta bere jokabidea kontrolatzea da.

Ether da polizia indarren aliatu onena: Ether-en bidez, agenteek edozein pertsonaren esperientziaren jarraipena egin dezakete, haien begiekin biziz eta edozein motatako delitua konponduz.

Sal poliziak galdetzen du zergatik borrokatu behar duzun zure pribatutasuna babesteko: zertarako balio du ezkutatzeko arrazoirik ez duzunean? Azken finean, gure etxeetako eta gure kaleetako segurtasuna areagotzeko eraikitzen ditugun teknologiek informazio hori grabatu, kontrolatu eta egiaztatzea eskatzen duten garai honetan, babesa eskatzen duten pertsonen interesen arabera, nola espero dezakegu bermatzea. haien pribatutasuna?

Besteen bizitzarako sarbidea zein arriskutsua den erakusteko, hacker batek Etherren kontrola hartuko du eta amesgaizto ikaragarri bat eroriko da milioika pertsonen bizitzan: ikusle ezinduen moduan ikusi behar izatearen mehatxua gehienen irudiak. beren bizitzako une oinazeak, zuzenean erretinara igortzen direnak.

Loop

Le neurona-sare artifizialak adimen artifizial modernoen funtzionamenduaren azpian daudenak, hiru elementu nagusiren inguruan biratzen dira: bestela deituriko oinarrizko informazioa corpusbat algoritmoa informazioa asimilatzeko eta a memoria haien memorizatzeko.

Algoritmoa ez da memorian informazioa kargatze hutsal batera mugatzen, haien artean erlazionatzen duten elementuen bila aztertzen du. Datu eta erlazioen nahasketa bat eratuko duen memoriara transferituko da eredu.

Eredu baten barruan, datuak eta erlazioak guztiz bereiztezinak dira, eta horregatik trebatutako neurona-sare batetik jatorrizko prestakuntza-informazioaren corpusa berreraikitzea ia ezinezkoa da.

Hau bereziki egia da corpusek datu kopuru handiak dituztenean. Hau da izenez ezagutzen diren sistema linguistiko handien kasua Large Language Models (LLM laburbilduz) ChatGpt gaiztoa barne. Prestakuntzan erabiltzen den informazio-kopuru handiari zor diote eraginkortasuna: gaur egun entrenamendu onak gutxienez datu terabyte batzuk behar ditu eta terabyte bat 90 milioi karaktereri dagokiola, gutxi gorabehera 75 milioi orrialde testu, erraz ulertzen da badagoela. hainbeste informazio behar da.

Baina ereduak ezin badira desingeniarizatu, zergatik galdetu behar diogu geure buruari pribatutasun urraketen arazoa?

Datuen nagusitasuna

"Ero dagoenak hegaldi-misioetatik salbuesteko eska dezake, baina hegaldi-misioetatik salbuesteko eskatzen duena ez da ero". – Joseph Hellerren “Catch 22” eleberrian oinarrituta.

Berrikuntzaren buletina
Ez galdu berrikuntzari buruzko albiste garrantzitsuenak. Eman izena posta elektronikoz jasotzeko.

ChatGpt edo antzeko beste proiektu batzuk sortzea ahalbidetuko duten tamainako datuak biltzea gaur egun enpresa multinazional handien eskumena da, euren jarduera digitalarekin informazio biltegirik handiena eskuratzea lortu baitute. munduan: Weba.

Google eta Microsoft, urte luzez Weba arakatzen eta informazio kantitate izugarria estrapolatzen duten bilatzaileak kudeatzen dituztenak, LLM sortzeko lehen hautagaiak dira, goian deskribatutakoak bezalako informazio kantitatea digeritzeko gai diren AI eredu bakarrak.

Zaila da sinestea Googlek edo Microsoft-ek beren datuetan informazio pertsonala ezkutatu ahal izango luketela sare neuronal bat entrenatzeko corpus gisa erabili aurretik. Sistema linguistikoen kasuan informazioa anonimizatzeak corpus baten barruan datu pertsonalak identifikatzea eta datu faltsuekin ordezkatzea dakar. Imajina dezagun eredu bat landu nahi dugun terabyte batzuen tamainako corpus bat eta saia gaitezen imajinatzen zenbat lan beharko litzatekeen dituen datuak eskuz anonimoratzeko: ia ezinezkoa izango litzateke. Baina automatikoki egiteko algoritmo batean oinarritu nahi bagenu, lan hori egiteko gai den sistema bakarra beste eredu bezain handi eta sofistikatua izango litzateke.

Catch-22 arazo klasiko baten aurrean gaude: “LLM bat datu anonimizatuekin trebatzeko, anonimizatzeko gai den LLM bat behar dugu, baina datuak anonimizatu ahal izateko LLM bat badugu, bere prestakuntza ez zen datu anonimizatuekin egin. .”

GDPR zaharkituta dago

Pertsonen pribatutasuna errespetatzeko arauak (ia) globalki agintzen dituen GDPR, gai hauen harira, dagoeneko berri zaharra da eta prestakuntza multzo batean parte hartzen duten datu pertsonalen babesa ez da aurreikusten.

GDPRn, datu pertsonalak prozesatzea korrelazio eta konexio orokorrak ikasteko helburuarekin partzialki bakarrik arautzen du 22. artikuluak, eta honako hau dio: “Datuek eskubidea du tratamendu automatizatuan soilik oinarritutako erabakirik ez jasateko, profilak barne. lege-ondorioak sortzen dizkio edo modu antzera eta esanguratsuan eragiten diotenak».

Artikulu honek tratamenduaren arduradunek subjektu baten datu pertsonalak gaian zuzeneko ondorio juridikoak dituen erabakiak hartzeko prozesu guztiz automatizatu baten barruan erabiltzeko debekua ezartzen du. Baina neurona-sareek, erabakiak hartzeko prozesu automatizatuetara erraz asimilagarriak, trebatu ondoren pertsonen bizitzan eragina izan dezaketen erabaki automatikoak hartzeko gaitasuna lortzen dute. Baina erabaki hauek ez dira beti “logikoak”. Prestakuntzan zehar, hain zuzen ere, neurona-sare bakoitzak informazioa elkarren artean lotzen ikasten du, askotan elkarren artean era guztiz ez-linealean erlazionatuz. Eta «logika» ezak ez dio lana errazten pertsonen pribatutasunaren defentsan ezkutu bat altxatu nahi duen legegileari.

Norbaitek politika oso murriztaile bat aplikatzea ere aukeratuko balu, adibidez, jabeak berariaz baimendu ezean datu sentikorren erabilera debekatuz, sare neuronalak legez erabiltzea ezinezkoa izango litzateke. Eta sare neuronaleko teknologiak uztea galera handia izango litzateke, pentsa ezazu gaixotasun jakin batek partzialki kaltetutako populazio bateko subjektuen datu klinikoekin trebatutako analisi-ereduetan. Eredu hauek prebentzio-politikak hobetzen laguntzen dute, datuetan dauden elementuen eta gaixotasunaren beraren arteko korrelazioak identifikatuz, ustekabeko korrelazioak klinikoen aburuz guztiz ilogikoak izan daitezkeenak.

Beharrak kudeatzea

Pertsonen pribatutasuna errespetatzeko arazoa planteatzea bere bilketa urtetan bereizi gabe baimendu ostean hipokrita da. GDPR bera bere konplexutasunarekin datu pertsonalak tratatzeko baimena lortzea ahalbidetzen duten manipulazio ugariren erantzulea da klausulen anbiguotasuna eta ulertzeko zailtasuna baliatuz.

Zalantzarik gabe, bere aplikagarritasuna ahalbidetzen duen legearen sinplifikazioa eta informazio pertsonalaren erabilera kontzientean benetako heziketa bat behar dugu.

Nire proposamena da enpresei ez ematea beren zerbitzuetan izena ematen duten erabiltzaileen datu pertsonalak ezagutzea, nahiz eta ordainpeko zerbitzuak izan. Pertsona pribatuek datu pertsonal faltsuak erabiltzea automatikoki gertatu behar da lineako sistemak erabiltzen dituztenean. Datu errealen erabilera erosketa-prozesura bakarrik mugatu behar da, beti zerbitzu datu-basetik guztiz bereizita egon dadin.

Subjektuaren gustuak eta lehentasunak ezagutzeak profil honekin izenik edo aurpegirik lotzen utzi gabe urian gora egiten den anonimizazio modu bat bezala funtzionatuko luke, eta horrek automatikoki ahalbidetuko luke datuen bilketa eta haien erabilera adimen artifiziala bezalako automatizazio sistemen barruan.

artikulua Gianfranco Fedele