Artikler

Privacy Loop: kunstig intelligens i labyrinten av personvern og opphavsrett

Dette er den første av to artikler der jeg tar for meg det delikate forholdet mellom personvern og opphavsrett på den ene siden, og kunstig intelligens på den andre.

Et problematisk forhold der den teknologiske utviklingen viser seg å være så rask at enhver reguleringsjustering blir foreldet fra den første søknaden.

Å ta opp vanskelige spørsmål som involverer menneskers rettigheter og personopplysninger krever oppmerksomhet, kompetanse og en uunnværlig diskusjon mellom intellektuelle og spesialister i vår tid. Vi oppdager at vi ikke er raske nok med å tilpasse sosiale regler til utfordringene som teknologiske innovasjoner stiller oss. Fremvoksende teknologier befinner seg i økende grad i å operere i det åpne feltet, i totalt fravær av reguleringer som begrenser deres anvendelse, frie til å forårsake skade og derfor gjøre det helt ustraffet.

Er det mulig å tenke seg en kontroll som går tilbake opp i kjeden av teknologisk utvikling til vitenskapelig forskning og dens strategiske mål?

Er det tenkelig å styre utviklingen av arten vår samtidig som man opprettholder en fast respekt for individuelle friheter?

Personvern?

«Jo mer du prøver å skjule, jo mer tiltrekker du deg oppmerksomhet. Hvorfor er det så viktig at ingen vet om deg?» – fra filmen “Anon” skrevet og regissert av Andrew Niccol – 2018

I filmen "Anon” i 2018 er fremtidens samfunn et mørkt sted, under direkte kontroll av et gigantisk datasystem kalt Ether, i stand til å overvåke hvert hjørne av nasjonen ved å observere det gjennom øynene til de samme menneskene som befolker det. Hvert menneske er en tilsynsmann på vegne av Ether, og deres første ansvar er selvfølgelig å overvåke seg selv og sin oppførsel.

Ether er den beste allierte av politistyrkene: gjennom Ether kan agenter spore opplevelsen til enhver person ved å gjenoppleve den med egne øyne og løse enhver form for kriminalitet.

Politibetjent Sal lurer på hvorfor du skal kjempe for å beskytte personvernet ditt: hva er vitsen når du ikke har noen grunn til å gjemme deg? Tross alt, i en tid der teknologiene vi bygger for å øke sikkerheten til hjemmene våre og gatene våre krever registrering, overvåking og verifisering av slik informasjon i interessene til menneskene selv som ber om beskyttelse, hvordan kan vi forvente å garantere deres privatliv?

For å demonstrere hvor farlig det er å ha tilgang til andres liv, vil en hacker ta kontroll over Ether og et forferdelig mareritt vil senke seg over livene til millioner av mennesker: trusselen om å måtte se som hjelpeløse tilskuere bildene av de mest plagede øyeblikk av livet deres, sendt direkte inn i netthinnen deres.

The Loop

Le kunstige nevrale nettverk som ligger til grunn for funksjonen til moderne kunstig intelligens, dreier seg om tre hovedelementer: grunnleggende informasjon ellers kalt corpus, Un algoritme for assimilering av informasjon og en minne for deres memorering.

Algoritmen er ikke begrenset til en banal lasting av informasjon i minnet, den skanner den på leting etter elementer som relaterer dem til hverandre. En blanding av data og relasjoner vil bli overført til minnet som vil danne en modell.

Innenfor en modell er data og relasjoner fullstendig umulig å skille, og derfor er det nesten umulig å rekonstruere korpuset av original treningsinformasjon fra et trent nevralt nettverk.

Dette gjelder spesielt når korpus inneholder store mengder data. Dette er tilfellet med de store språklige systemene kjent som Large Language Models (LLM for kort) inkludert den beryktede ChatGpt. De skylder effektiviteten sin til den store mengden informasjon som brukes i trening: for tiden krever god trening minst noen få terabyte med data, og gitt at en terabyte tilsvarer 90 milliarder tegn, omtrent 75 millioner sider med tekst, er det lett å forstå at det er så mye informasjon som trengs.

Men hvis modeller ikke kan dekonstrueres, hvorfor skal vi spørre oss selv problemet med brudd på personvernet?

Datadominans

"Den som er gal kan be om å bli fritatt fra flyoppdrag, men den som ber om å bli fritatt fra flyoppdrag er ikke gal." – basert på romanen «Catch 22» av Joseph Heller.

Nyhetsbrev for innovasjon
Ikke gå glipp av de viktigste nyhetene om innovasjon. Registrer deg for å motta dem på e-post.

Innsamling av data av en slik størrelse at det er mulig å lage prosjekter som ChatGpt eller andre lignende er i dag privilegiet til store multinasjonale selskaper som med sine digitale aktiviteter har vært i stand til å få tak i det største depotet av informasjon i verden: Internett.

Google og Microsoft, som i årevis har administrert søkemotorer som skanner nettet og ekstrapolerer enorme mengder informasjon, er de første kandidatene for å lage LLM, de eneste AI-modellene som er i stand til å fordøye mengder informasjon som de som er beskrevet ovenfor.

Det er vanskelig å tro at Google eller Microsoft vil være i stand til å skjule personlig informasjon i dataene sine før de bruker dem som et korpus for å trene et nevralt nettverk. Anonymisering av informasjon i tilfelle av språklige systemer betyr identifikasjon av personopplysninger i et korpus og erstatning av dem med falske data. La oss forestille oss et korpus på størrelse med noen få terabyte som vi ønsker å trene en modell med, og la oss prøve å forestille oss hvor mye arbeid som vil være nødvendig for å manuelt anonymisere dataene den inneholder: det ville være praktisk talt umulig. Men hvis vi ønsket å stole på en algoritme for å gjøre det automatisk, ville det eneste systemet som er i stand til å gjøre denne jobben være en annen like stor og sofistikert modell.

Vi er i nærvær av et klassisk Catch-22-problem: "for å trene en LLM med anonymiserte data trenger vi en LLM som er i stand til å anonymisere dem, men hvis vi har en LLM som er i stand til å anonymisere dataene, ble ikke opplæringen utført med anonymiserte data ."

GDPR er foreldet

GDPR som dikterer (nesten) globalt reglene for å respektere folks personvern, i lys av disse temaene er allerede gamle nyheter og beskyttelse av personopplysninger involvert i et treningssett er ikke vurdert.

I GDPR er behandling av personopplysninger med det formål å lære generelle sammenhenger og sammenhenger kun delvis regulert av artikkel 22 som sier: «Den registrerte har rett til ikke å bli underlagt en beslutning basert utelukkende på automatisert behandling, inkludert profilering, som gir rettsvirkninger for ham eller som berører ham på lignende og vesentlig måte».

Denne artikkelen introduserer forbudet for behandlingsansvarlige til å bruke personopplysningene til en subjekt som en del av en helautomatisert beslutningsprosess som har direkte rettsvirkninger for subjektet. Men nevrale nettverk, som lett kan assimileres med automatiserte beslutningsprosesser, får når de er trent evnen til å ta automatiske beslutninger som kan påvirke folks liv. Men disse beslutningene er ikke alltid "logiske". Under trening lærer faktisk hvert nevrale nettverk å assosiere informasjon med hverandre, og relaterer dem ofte til hverandre på en absolutt ikke-lineær måte. Og fraværet av «logikk» gjør ikke jobben lettere for lovgiveren som ønsker å heve et skjold for å forsvare folks privatliv.

Hvis man i tillegg velger å bruke en ekstremt restriktiv policy, for eksempel å forby bruk av sensitive data med mindre eieren har gitt uttrykkelig tillatelse til dette, vil lovlig bruk av nevrale nettverk være upraktisk. Og å gi opp nevrale nettverksteknologier ville være et stort tap, bare tenk på analysemodellene som er trent med kliniske data fra forsøkspersonene i en populasjon som har blitt delvis påvirket av en bestemt sykdom. Disse modellene bidrar til å forbedre forebyggingspolitikken ved å identifisere sammenhenger mellom elementene som finnes i dataene og selve sykdommen, uventede sammenhenger som i klinikeres øyne kan virke helt ulogiske.

Håndtere behov

Å stille problemet med å respektere folks privatliv etter å ha vilkårlig autorisert innsamlingen i årevis er hyklerisk for å si det mildt. Selve GDPR med sin kompleksitet er ansvarlig for en rekke manipulasjoner som gjør det mulig å få autorisasjon til å behandle personopplysninger ved å utnytte tvetydigheten i klausulene og vanskeligheten med å forstå.

Vi trenger absolutt en forenkling av loven som tillater dens anvendelighet og en reell opplæring i bevisst bruk av personopplysninger.

Mitt forslag er ikke å la bedrifter få vite personopplysningene til brukere som registrerer seg for deres tjenester, selv om de er betalte tjenester. Privatpersoners bruk av falske personopplysninger bør skje automatisk når de bruker nettbaserte systemer. Bruken av reelle data bør begrenses til kjøpsprosessen alene, og sikre at den alltid er helt adskilt fra tjenestedatabasen.

Å kjenne til personens smak og preferanser uten å la navn eller ansikt assosieres med denne profilen vil fungere som en form for anonymisering utført oppstrøms som automatisk vil tillate innsamling av data og deres bruk i automatiseringssystemer som kunstig intelligens.

Artikkel av Gianfranco Fedele