artikels

Privacy Loop: keunstmjittige yntelliginsjes yn it labyrint fan privacy en auteursrjocht

Dit is de earste fan twa artikels wêryn ik de delikate relaasje tusken Privacy en Copyright oan 'e iene kant en Artificial Intelligence oan' e oare kant oanpakke.

In problematyske relaasje wêr't technologyske evolúsje sa rap docht bliken dat elke regeljouwing oanpassing ferâldere wurdt fanôf syn earste tapassing.

It oanpakken fan netelige problemen mei rjochten fan minsken en persoanlike gegevens freget om oandacht, kompetinsje en in ûnmisbere diskusje tusken yntellektuelen en spesjalisten fan ús tiid. Wy ûntdekke dat wy net fluch genôch binne by it oanpassen fan sosjale regels oan 'e útdagings dy't technologyske ynnovaasjes ús foarstelle. Opkommende technologyen fine harsels hieltyd faker operearje yn it iepen fjild, yn 'e totale ôfwêzigens fan regeljouwing dy't har tapassing beheine, frij om skea te feroarsaakjen en dus mei totale straffeloosheid te dwaan.

Is it mooglik om in kontrôle foar te stellen dy't de keten fan technologyske ûntwikkeling werom giet nei wittenskiplik ûndersyk en har strategyske doelen?

Is it oannimlik om de evolúsje fan ús soarte te regearjen mei in fêst respekt foar yndividuele frijheden?

Privacy?

"Hoe mear jo besykje te ferbergjen, hoe mear jo oandacht lûke. Wêrom is it sa wichtich dat gjinien fan dy wit? - fan 'e film "Anon" skreaun en regissearre troch Andrew Niccol - 2018

Yn 'e film "anon” fan 2018 is de maatskippij fan 'e takomst in tsjuster plak, ûnder de direkte kontrôle fan in gigantysk kompjûtersysteem neamd Ether, by steat om elke hoeke fan' e naasje te kontrolearjen troch it te observearjen troch de eagen fan deselde minsken dy't it befolke. Elk minske is in tafersjochhâlder út namme fan Ether en har earste ferantwurdlikens is fansels om harsels en har gedrach te kontrolearjen.

Ether is de bêste bûnsgenoat fan 'e plysjemacht: fia Ether kinne aginten de ûnderfining fan elke persoan opspoare troch it mei har eigen eagen opnij te belibjen en elk type kriminaliteit op te lossen.

Plysjeman Sal freget him ôf wêrom't jo moatte fjochtsje om jo privacy te beskermjen: wat is it punt as jo gjin reden hawwe om te ferbergjen? Ommers, yn in tiidrek wêryn de technologyen dy't wy bouwe om de feiligens fan ús huzen en ús strjitten te ferheegjen de opname, tafersjoch en ferifikaasje fan sokke ynformaasje fereaskje yn it belang fan 'e minsken sels dy't om beskerming freegje, hoe kinne wy ferwachtsje om te garandearjen harren privacy?

Om te demonstrearjen hoe gefaarlik it is om tagong te krijen ta it libben fan oaren, sil in hacker kontrôle oer Ether nimme en in skriklike nachtmerje sil delkomme op it libben fan miljoenen minsken: de bedriging om as helpleaze taskôgers de bylden fan 'e measten te sjen pinige mominten fan harren libben, útstjoerd direkt yn harren retinas.

De Loop

Le keunstmjittige neurale netwurken dy't it funksjonearjen fan moderne keunstmjittige yntelliginsjes ûnderlizze, draaie om trije haadeleminten: basisynformaasje oars neamd corpus, un algoritme foar it assimilearjen fan ynformaasje en a ûnthâld foar har memorisaasje.

It algoritme is net beheind ta in banale laden fan ynformaasje yn it ûnthâld, it scant it op syk nei eleminten dy't har mei elkoar relatearje. In miks fan gegevens en relaasjes wurde oerdroegen oan it ûnthâld dat sil foarmje in sjabloan.

Binnen in model binne gegevens en relaasjes folslein net te ûnderskieden, en dêrom is it rekonstruearjen fan it korpus fan orizjinele trainingynformaasje fan in trained neural netwurk hast ûnmooglik.

Dit is benammen wier as korpusen grutte hoemannichten gegevens befetsje. Dit is it gefal fan 'e grutte taalkundige systemen bekend as Large Language Models (koarte LM) ynklusyf de beruchte ChatGpt. Se hawwe har effektiviteit te tankjen oan de grutte hoemannichte ynformaasje dy't brûkt wurdt yn training: op it stuit fereasket goede training op syn minst in pear terabyte oan gegevens en jûn dat ien terabyte oerienkomt mei 90 miljard tekens, sawat 75 miljoen siden tekst, is it maklik te begripen dat d'r is safolle ynformaasje nedich.

Mar as modellen net kinne wurde ûntworpen, wêrom moatte wy ússels dan it probleem fan privacyskendings freegje?

Data dominânsje

"Wa't gek is kin freegje om frijsteld te wurden fan flechtmissys, mar wa't freget om frijsteld te wurden fan flechtmissys is net gek." - basearre op de roman "Catch 22" fan Joseph Heller.

Ynnovaasje nijsbrief
Mis it wichtichste nijs oer ynnovaasje net. Meld jo oan om se fia e-post te ûntfangen.

It sammeljen fan gegevens fan sa'n grutte dat it meitsjen fan projekten lykas ChatGpt of oare ferlykbere projekten mooglik is, is hjoeddedei it prerogatyf fan grutte multynasjonale bedriuwen dy't mei har digitale aktiviteiten it grutste repository fan ynformaasje yn hannen krije kinnen yn 'e wrâld: it Web.

Google en Microsoft, dy't jierrenlang sykmasjines hawwe beheard dy't it web scannen en enoarme hoemannichten ynformaasje ekstrapolearje, binne de earste kandidaten foar de skepping fan LLM, de ienige AI-modellen dy't yn steat binne om hoemannichten ynformaasje te fertarren lykas dy hjirboppe beskreaun.

It is min te leauwen dat Google as Microsoft persoanlike ynformaasje yn har gegevens kinne ferbergje foardat se it brûke as in korpus by it oplieden fan in neural netwurk. Anonymisearjen fan ynformaasje yn it gefal fan taalkundige systemen fertaalt yn 'e identifikaasje fan persoanlike gegevens binnen in korpus en de ferfanging dêrfan troch falske gegevens. Litte wy ús in korpus foarstelle fan in pear terabytes dêr't wy in model mei opliede wolle en besykje ús foar te stellen hoefolle wurk nedich wêze soe om de gegevens dy't it befettet manuell te anonymisearjen: it soe praktysk ûnmooglik wêze. Mar as wy op in algoritme wolle fertrouwe om it automatysk te dwaan, soe it ienige systeem dat dit wurk kin dwaan in oar like grut en ferfine model wêze.

Wy binne yn 'e oanwêzigens fan in klassyk Catch-22-probleem: "om in LLM te trenen mei anonymisearre gegevens, hawwe wy in LLM nedich dy't it anonime kin, mar as wy in LLM hawwe dy't de gegevens kinne anonymisearje, waard har training net dien mei anonymisearre gegevens ."

De GDPR is ferâldere

De GDPR dy't (hast) wrâldwiid de regels diktearret foar it respektearjen fan 'e privacy fan minsken, yn it ljocht fan dizze ûnderwerpen is al âld nijs en de beskerming fan persoanlike gegevens belutsen by in trainingsset wurdt net betocht.

Yn 'e GDPR wurdt it ferwurkjen fan persoanlike gegevens foar it learen fan algemiene korrelaasjes en ferbiningen mar foar in part regele troch kêst 22, dat stelt: "De gegevenssubjekt hat it rjocht om net ûnderwurpen te wurden oan in beslút basearre allinich op automatisearre ferwurking, ynklusyf profilearring, dy't hat juridyske gefolgen op him of dy't him op in fergelykbere en wichtige manier beynfloedet."

Dit artikel yntrodusearret it ferbod foar gegevenscontrollers om de persoanlike gegevens fan in ûnderwerp te brûken as ûnderdiel fan in folslein automatisearre beslútfoarmingsproses dat direkte juridyske effekten hat op it ûnderwerp. Mar neurale netwurken, maklik assimilearber foar automatisearre beslútfoarmingprosessen, krije ienris oplaat de mooglikheid om automatyske besluten te nimmen dy't ynfloed kinne op it libben fan minsken. Mar dizze besluten binne net altyd "logysk". Yn 'e training leart yn feite elk neuraal netwurk ynformaasje mei elkoar te assosjearjen, faaks relatearre se op in absolút net-lineêre manier mei elkoar. En it ûntbrekken fan "logika" makket it wurk net makliker foar de wetjouwer dy't in skyld ophelje wol om de privacy fan minsken te ferdigenjen.

As men ek keas om in ekstreem beheinend belied ta te passen, bygelyks it brûken fan gefoelige gegevens te ferbieden, útsein as it eksplisyt autorisearre is troch de eigner, soe juridysk gebrûk fan neurale netwurken ûnpraktysk wêze. En it opjaan fan neurale netwurktechnologyen soe in grut ferlies wêze, tink mar oan 'e analysemodellen dy't trainearre binne mei de klinyske gegevens fan' e ûnderwerpen fan in befolking dy't foar in part beynfloede is troch in bepaalde sykte. Dizze modellen helpe it previnsjebelied te ferbetterjen troch korrelaasjes te identifisearjen tusken de eleminten oanwêzich yn 'e gegevens en de sykte sels, unferwachte korrelaasjes dy't yn' e eagen fan kliïnten folslein ûnlogysk kinne ferskine.

Behear fan behoeften

It probleem fan it respektearjen fan 'e privacy fan minsken nei it yllegaal autorisearjen fan har kolleksje jierrenlang is hypokritysk op syn minst te sizzen. De GDPR sels mei syn kompleksiteit is ferantwurdlik foar tal fan manipulaasjes dy't it mooglik meitsje om autorisaasje te krijen om persoanlike gegevens te ferwurkjen troch de dûbelsinnigens fan 'e klausules en de muoite om te begripen te brûken.

Wy hawwe grif in ferienfâldiging fan 'e wet nedich dy't har tapasberens en in echte oplieding yn it bewuste gebrûk fan persoanlike ynformaasje mooglik makket.

Myn foarstel is om bedriuwen net te tastean de persoanlike gegevens te kennen fan brûkers dy't har registrearje foar har tsjinsten, sels as se betelle tsjinsten binne. It gebrûk fan falske persoanlike gegevens troch partikulieren moat automatysk foarkomme as se online systemen brûke. It gebrûk fan echte gegevens moat beheind wurde ta it oankeapproses allinich, en soargje derfoar dat it altyd folslein apart is fan 'e tsjinstdatabase.

It kennen fan 'e smaak en foarkar fan it ûnderwerp sûnder in namme of gesicht te ferbinen mei dit profyl soe funksjonearje as in foarm fan streamopôffierd anonymisaasje dy't automatysk it sammeljen fan gegevens en har gebrûk yn automatisearringssystemen lykas keunstmjittige yntelliginsjes soe tastean.

Artikel fan Gianfranco Fedele

Tags: chat gptauteursrjochtGDPRgianfranco fedelegooglekeunstmjittige yntelliginsjelarge language modelsLLMmicrosoftGjin minske yn 'e loopprivacykeunstmjittige neurale netwurken

26. spetimber 2023 12:56

Folgjende Neuralink begjint werving foar earste minsklike klinyske proef fan harsensimplantaasje »

Foarige « Briljant idee: HUDWAY DRIVE, ynnovaasje om jo rjochte te hâlden op 'e dyk

De takomst is hjir: hoe't de skipfeartsektor de wrâldekonomy revolúsjonearret

De marinesektor is in wiere wrâldwide ekonomyske macht, dy't navigearre is nei in merk fan 150 miljard ...

1 mei 2024

artikels

Utjouwers en OpenAI tekenje oerienkomsten om de stream fan ynformaasje te regeljen ferwurke troch Artificial Intelligence

Ofrûne moandei kundige de Financial Times in deal oan mei OpenAI. FT lisinsje har sjoernalistyk fan wrâldklasse ...

30 april 2024

artikels

Online betellingen: Hjir is hoe streamingtsjinsten jo foar altyd betelje

Miljoenen minsken betelje foar streamingtsjinsten, beteljen moanlikse abonnemintskosten. It is gewoane miening dat jo ...

29 april 2024

Comunicati Stampa

Veeam hat de meast wiidweidige stipe foar ransomware, fan beskerming oant antwurd en herstel

Coveware troch Veeam sil trochgean mei it leverjen fan antwurdtsjinsten foar cyberafpersing ynsidint. Coveware sil forensyske en sanearjen mooglikheden oanbiede ...

23 april 2024