Artikler

Privacy Loop: kunstig intelligens i labyrinten af privatliv og ophavsret

Dette er den første af to artikler, hvor jeg behandler det delikate forhold mellem privatliv og ophavsret på den ene side og kunstig intelligens på den anden side.

Et problematisk forhold, hvor den teknologiske udvikling viser sig at være så hurtig, at enhver lovgivningsmæssig justering bliver forældet fra dens første anvendelse.

At tage fat på vanskelige spørgsmål, der involverer menneskers rettigheder og personlige data, kræver opmærksomhed, kompetence og en uundværlig diskussion mellem intellektuelle og specialister i vor tid. Vi er ved at opdage, at vi ikke er hurtige nok til at tilpasse sociale regler til de udfordringer, som teknologiske innovationer stiller os over for. Nye teknologier befinder sig i stigende grad i at operere i det åbne felt, i det totale fravær af regler, der begrænser deres anvendelse, frie til at forårsage skade og derfor gøre det helt ustraffet.

Er det muligt at forestille sig en kontrol, der går tilbage op i kæden af teknologisk udvikling til den videnskabelige forskning og dens strategiske mål?

Kan det tænkes at styre udviklingen af vores art og samtidig bevare en fast respekt for individuelle friheder?

Privatliv?

"Jo mere du prøver at gemme dig, jo mere tiltrækker du opmærksomhed. Hvorfor er det så vigtigt, at ingen ved om dig?” – fra filmen “Anon” skrevet og instrueret af Andrew Niccol – 2018

I filmen "Anon” i 2018 er fremtidens samfund et mørkt sted, under direkte kontrol af et gigantisk computersystem kaldet Ether, der er i stand til at overvåge hvert hjørne af nationen ved at observere det gennem øjnene af de samme mennesker, der befolker det. Ethvert menneske er tilsynsførende på vegne af Ether, og deres første ansvar er selvfølgelig at overvåge sig selv og deres adfærd.

Ether er politistyrkernes bedste allierede: gennem Ether kan agenter spore enhver persons oplevelse ved at genopleve den med deres egne øjne og løse enhver form for kriminalitet.

Politibetjent Sal undrer sig over, hvorfor du skal kæmpe for at beskytte dit privatliv: hvad er meningen, når du ikke har nogen grund til at gemme dig? Når alt kommer til alt, i en tid, hvor de teknologier, vi bygger for at øge sikkerheden i vores hjem og vores gader, kræver registrering, overvågning og verifikation af sådanne oplysninger af hensyn til de mennesker selv, der beder om beskyttelse, hvordan kan vi forvente at garantere deres privatliv?

For at demonstrere, hvor farligt det er at have adgang til andres liv, vil en hacker tage kontrol over Ether, og et frygteligt mareridt vil sænke sig over millioner af menneskers liv: truslen om som hjælpeløse tilskuere at skulle se billederne af de mest forpinte øjeblikke af deres liv, udsendt direkte ind i deres nethinde.

The Loop

Le kunstige neurale netværk som ligger til grund for funktionen af moderne kunstige intelligenser, kredser om tre hovedelementer: grundlæggende information ellers kaldet corpus, har en algoritme til assimilering af information og en hukommelse for deres memorering.

Algoritmen er ikke begrænset til en banal indlæsning af information i hukommelsen, den scanner den på jagt efter elementer, der relaterer dem til hinanden. En blanding af data og relationer vil blive overført til hukommelsen, som danner en Modello.

Inden for en model er data og relationer fuldstændigt ude af skel, hvorfor det er næsten umuligt at rekonstruere korpuset af original træningsinformation fra et trænet neuralt netværk.

Dette gælder især, når korpuser indeholder store mængder data. Dette er tilfældet med de store sproglige systemer kendt som Large Language Models (forkortet LLM) inklusive den berygtede ChatGpt. De skylder deres effektivitet den store mængde information, der bruges i træningen: i øjeblikket kræver god træning mindst et par terabyte data, og i betragtning af at en terabyte svarer til 90 milliarder tegn, cirka 75 millioner sider tekst, er det let at forstå, at der er så meget information er nødvendig.

Men hvis modeller ikke kan dekonstrueres, hvorfor skulle vi så spørge os selv problemet med krænkelser af privatlivets fred?

Datadominans

"Den, der er skør, kan bede om at blive fritaget fra flyvemissioner, men den, der beder om at blive fritaget fra flyvemissioner, er ikke skør." – baseret på romanen "Catch 22" af Joseph Heller.

Nyhedsbrev om innovation
Gå ikke glip af de vigtigste nyheder om innovation. Tilmeld dig for at modtage dem via e-mail.

Indsamling af data af en sådan størrelse, at det er muligt at skabe projekter som ChatGpt eller andre lignende, er i dag et privilegium for store multinationale virksomheder, som med deres digitale aktiviteter har været i stand til at få fingrene i det største lager af information i verden: Internettet.

Google og Microsoft, som i årevis har styret søgemaskiner, der scanner nettet og ekstrapolerer enorme mængder information, er de første kandidater til at skabe LLM, de eneste AI-modeller, der er i stand til at fordøje mængder af information som dem, der er beskrevet ovenfor.

Det er svært at tro, at Google eller Microsoft ville være i stand til at skjule personlige oplysninger i deres data, før de brugte dem som et korpus til at træne et neuralt netværk. Anonymisering af oplysninger i tilfælde af sproglige systemer omsættes til identifikation af personoplysninger i et korpus og erstatning heraf med falske data. Lad os forestille os et korpus på størrelse med et par terabyte, som vi ønsker at træne en model med, og lad os prøve at forestille os, hvor meget arbejde der ville være nødvendigt for manuelt at anonymisere de data, det indeholder: det ville være praktisk talt umuligt. Men hvis vi ville stole på en algoritme til at gøre det automatisk, ville det eneste system, der er i stand til at udføre dette job, være en anden lige så stor og sofistikeret model.

Vi er i nærvær af et klassisk Catch-22-problem: "for at træne en LLM med anonymiserede data har vi brug for en LLM, der er i stand til at anonymisere dem, men hvis vi har en LLM, der er i stand til at anonymisere dataene, blev dens træning ikke udført med anonymiserede data ."

GDPR er forældet

GDPR, som dikterer (næsten) globalt reglerne for respekt for folks privatliv, er i lyset af disse emner allerede gamle nyheder, og beskyttelse af personlige data involveret i et træningssæt er ikke påtænkt.

I GDPR er behandling af personoplysninger med det formål at lære generelle sammenhænge og sammenhænge kun delvist reguleret af artikel 22, som siger: ”Den registrerede har ret til ikke at blive udsat for en afgørelse, der udelukkende er baseret på automatiseret behandling, herunder profilering, som har retsvirkninger for ham, eller som påvirker ham på lignende og væsentlig måde".

Denne artikel introducerer forbuddet for dataansvarlige mod at bruge et subjekts personoplysninger som en del af en fuldautomatisk beslutningsproces, der har direkte retsvirkninger for subjektet. Men neurale netværk, der let kan assimileres med automatiserede beslutningsprocesser, opnår, når de er trænet, evnen til at træffe automatiske beslutninger, der kan påvirke folks liv. Men disse beslutninger er ikke altid "logiske". Under træning lærer hvert neurale netværk faktisk at associere information med hinanden, og relaterer dem ofte til hinanden på en absolut ikke-lineær måde. Og fraværet af "logik" gør ikke jobbet lettere for den lovgiver, der ønsker at hæve et skjold til forsvar for folks privatliv.

Hvis man også valgte at anvende en ekstremt restriktiv politik, for eksempel at forbyde brugen af følsomme data, medmindre ejeren udtrykkeligt har givet tilladelse hertil, ville lovlig brug af neurale netværk være upraktisk. Og at opgive neurale netværksteknologier ville være et stort tab, tænk bare på analysemodellerne, der er trænet med de kliniske data fra forsøgspersonerne i en befolkning, som er blevet delvist påvirket af en bestemt sygdom. Disse modeller hjælper med at forbedre forebyggelsespolitikken ved at identificere sammenhænge mellem de elementer, der er til stede i dataene og selve sygdommen, uventede sammenhænge, som i klinikernes øjne kan virke fuldstændig ulogiske.

Håndtering af behov

At stille problemet med at respektere folks privatliv efter vilkårligt at have godkendt dets indsamling i årevis er mildest talt hyklerisk. Selve GDPR med dens kompleksitet er ansvarlig for adskillige manipulationer, der gør det muligt at opnå tilladelse til at behandle personoplysninger ved at udnytte klausulernes tvetydighed og vanskeligheden ved at forstå.

Vi har bestemt brug for en forenkling af loven, der tillader dens anvendelighed og en reel uddannelse i bevidst brug af personlige oplysninger.

Mit forslag er ikke at tillade virksomheder at kende personoplysningerne for brugere, der tilmelder sig deres tjenester, selvom de er betalingstjenester. Privatpersoners brug af falske personoplysninger bør ske automatisk, når de bruger online-systemer. Brugen af reelle data bør begrænses til købsprocessen alene, hvilket sikrer, at de altid er fuldstændig adskilt fra servicedatabasen.

At kende emnets smag og præferencer uden at tillade et navn eller ansigt at blive forbundet med denne profil ville fungere som en form for anonymisering udført opstrøms, som automatisk ville tillade indsamling af data og deres anvendelse i automatiseringssystemer såsom kunstig intelligens.

Artikel af Gianfranco Fedele

tags: chat gptophavsretBNPRgianfranco fedeleGooglekunstig intelligenslarge language modelsLLMmicrosoftIntet menneske i løkkenBeskyttelse af personlige oplysningerkunstige neurale netværk

26. september 2023 kl. 12

Efter Neuralink begynder rekruttering til det første humane kliniske forsøg med hjerneimplantat »

Forrige « Strålende idé: HUDWAY DRIVE, innovation for at holde dig fokuseret på vejen

Seneste artikler

Comunicati Stampa

Veeam har den mest omfattende support til ransomware, fra beskyttelse til respons og gendannelse

Coveware by Veeam vil fortsætte med at levere responstjenester til cyberafpresning. Coveware vil tilbyde kriminaltekniske og afhjælpende funktioner...

23 April 2024

Artikler

Grøn og digital revolution: Hvordan prædiktiv vedligeholdelse transformerer olie- og gasindustrien

Forudsigende vedligeholdelse revolutionerer olie- og gassektoren med en innovativ og proaktiv tilgang til anlægsstyring...

22 April 2024

Artikler

Britisk antitrust-tilsynsmyndighed rejser BigTech-alarm over GenAI

Det britiske CMA har udsendt en advarsel om Big Techs adfærd på markedet for kunstig intelligens. Der…

18 April 2024

Comunicati Stampa

Casa Green: energirevolution for en bæredygtig fremtid i Italien

Dekretet om "grønne huse", der er formuleret af Den Europæiske Union for at øge bygningers energieffektivitet, har afsluttet sin lovgivningsproces med...

18 April 2024

Privacy Loop: kunstig intelligens i labyrinten af ​​privatliv og ophavsret

Dette er den første af to artikler, hvor jeg behandler det delikate forhold mellem privatliv og ophavsret på den ene side og kunstig intelligens på den anden side.

Et problematisk forhold, hvor den teknologiske udvikling viser sig at være så hurtig, at enhver lovgivningsmæssig justering bliver forældet fra dens første anvendelse.

Privatliv?

The Loop

Datadominans

GDPR er forældet

Håndtering af behov

Seneste artikler

Veeam har den mest omfattende support til ransomware, fra beskyttelse til respons og gendannelse

Grøn og digital revolution: Hvordan prædiktiv vedligeholdelse transformerer olie- og gasindustrien

Britisk antitrust-tilsynsmyndighed rejser BigTech-alarm over GenAI

Casa Green: energirevolution for en bæredygtig fremtid i Italien

Seneste artikler

tag

Privacy Loop: kunstig intelligens i labyrinten af privatliv og ophavsret