Artikels

Privaatheidslus: kunsmatige intelligensies in die labirint van privaatheid en kopiereg

Hierdie is die eerste van twee artikels waarin ek die delikate verhouding tussen Privaatheid en Kopiereg aan die een kant en Kunsmatige Intelligensie aan die ander kant aanspreek.

'n Problematiese verhouding waar tegnologiese evolusie so vinnig blyk te wees dat enige regulatoriese aanpassing vanaf die eerste toepassing daarvan uitgedien word.

Om netelige kwessies aan te spreek wat mense se regte en persoonlike data behels, verg aandag, bekwaamheid en 'n onontbeerlike gesprek tussen intellektuele en spesialiste van ons tyd. Ons ontdek dat ons nie vinnig genoeg is om sosiale reëls aan te pas by die uitdagings wat tegnologiese innovasies vir ons stel nie. Ontluikende tegnologieë vind hulself toenemend in die oop veld, in die totale afwesigheid van regulasies wat die toepassing daarvan beperk, vry om skade te veroorsaak en dus om dit met totale straffeloosheid te doen.

Is dit moontlik om 'n beheer voor te stel wat teruggaan in die ketting van tegnologiese ontwikkeling na wetenskaplike navorsing en sy strategiese doelwitte?

Is dit denkbaar om die evolusie van ons spesie te regeer terwyl ons vaste respek vir individuele vryhede handhaaf?

Privaatheid?

“Hoe meer jy probeer wegkruip, hoe meer trek jy aandag. Hoekom is dit so belangrik dat niemand van jou weet nie?” – uit die film “Anon” geskryf en geregisseer deur Andrew Niccol – 2018

In die film "Anon” van 2018 is die samelewing van die toekoms 'n donker plek, onder die direkte beheer van 'n reusagtige rekenaarstelsel genaamd Ether, wat in staat is om elke hoek van die nasie te monitor deur dit deur die oë van dieselfde mense wat dit bevolk waar te neem. Elke mens is 'n opsiener namens Ether en hul eerste verantwoordelikheid is natuurlik om hulself en hul gedrag te monitor.

Ether is die beste bondgenoot van die polisiemagte: deur Ether kan agente die ervaring van enige persoon opspoor deur dit met hul eie oë te herleef en enige tipe misdaad op te los.

Polisiebeampte Sal wonder hoekom jy moet veg om jou privaatheid te beskerm: wat is die punt wanneer jy geen rede het om weg te kruip nie? Na alles, in 'n era waarin die tegnologieë wat ons bou om die veiligheid van ons huise en ons strate te verhoog die opname, monitering en verifikasie van sulke inligting vereis in die belang van die mense self wat om beskerming vra, hoe kan ons verwag om te waarborg hul privaatheid?

Om te demonstreer hoe gevaarlik dit is om toegang tot die lewens van ander te hê, sal 'n kuberkraker beheer oor Ether neem en 'n verskriklike nagmerrie sal oor die lewens van miljoene mense neerdaal: die bedreiging om as hulpelose toeskouers na die beelde van die meeste te moet kyk. gekwelde oomblikke van hul lewens, direk in hul retinas uitgesaai.

die Loop

Le kunsmatige neurale netwerke wat onderliggend is aan die funksionering van moderne kunsmatige intelligensies, wentel om drie hoofelemente: basiese inligting wat andersins genoem word corpus, Een algoritme vir die assimilasie van inligting en a geheue vir hul memorisering.

Die algoritme is nie beperk tot 'n banale laai van inligting in die geheue nie, dit skandeer dit op soek na elemente wat hulle met mekaar in verband bring. 'n Mengsel van data en verwantskappe sal na die geheue oorgedra word wat 'n Modello.

Binne 'n model is data en verwantskappe heeltemal ononderskeibaar, en daarom is dit byna onmoontlik om die korpus van oorspronklike opleidingsinligting vanaf 'n opgeleide neurale netwerk te rekonstrueer.

Dit is veral waar wanneer korpus groot hoeveelhede data bevat. Dit is die geval van die groot linguistiese sisteme bekend as Large Language Models (kortweg LLM) insluitend die berugte ChatGpt. Hulle het hul doeltreffendheid te danke aan die groot hoeveelheid inligting wat in opleiding gebruik word: tans vereis goeie opleiding ten minste 'n paar teragrepe data en gegewe dat een teragreep ooreenstem met 90 miljard karakters, ongeveer 75 miljoen bladsye teks, is dit maklik om te verstaan dat daar soveel inligting nodig.

Maar as modelle nie ontgin kan word nie, hoekom moet ons onsself die probleem van privaatheidskendings afvra?

Data dominansie

"Wie ook al mal is, kan vra om vrygestel te word van vlugsendings, maar wie vra om vrygestel te word van vlugsendings, is nie mal nie." – gebaseer op die roman “Catch 22” deur Joseph Heller.

Innovasie nuusbrief
Moenie die belangrikste nuus oor innovasie mis nie. Registreer om hulle per e-pos te ontvang.

Die insameling van data van so 'n omvang dat dit die skepping van projekte soos ChatGpt of ander soortgelyke moontlik maak, is vandag die prerogatief van groot multinasionale maatskappye wat met hul digitale aktiwiteite hul hande op die grootste bewaarplek van inligting kon kry in die wêreld: die web.

Google en Microsoft, wat jare lank soekenjins bestuur wat die web skandeer en enorme hoeveelhede inligting ekstrapoleer, is die eerste kandidate vir die skepping van LLM, die enigste KI-modelle wat in staat is om hoeveelhede inligting te verteer soos dié hierbo beskryf.

Dit is moeilik om te glo dat Google of Microsoft in staat sal wees om persoonlike inligting in hul data te verberg voordat dit as 'n korpus gebruik word om 'n neurale netwerk op te lei. Anonimisering van inligting in die geval van linguistiese stelsels vertaal in die identifikasie van persoonlike data binne 'n korpus en die vervanging daarvan met vals data. Kom ons stel ons 'n korpus die grootte van 'n paar teragrepe voor waarmee ons 'n model wil oplei en kom ons probeer ons indink hoeveel werk nodig sou wees om die data wat dit bevat handmatig te anonimiseer: dit sou prakties onmoontlik wees. Maar as ons op 'n algoritme wou staatmaak om dit outomaties te doen, sou die enigste stelsel wat hierdie werk kan doen nog 'n ewe groot en gesofistikeerde model wees.

Ons is in die teenwoordigheid van 'n klassieke Catch-22-probleem: "om 'n LLM met geanonimiseerde data op te lei, benodig ons 'n LLM wat dit kan anonimiseer, maar as ons 'n LLM het wat die data kan anonimiseer, is die opleiding daarvan nie met geanonimiseerde data gedoen nie. .”

Die GDPR is uitgedien

Die GDPR wat (amper) wêreldwyd die reëls vir die respek van mense se privaatheid dikteer, is in die lig van hierdie onderwerpe reeds ou nuus en die beskerming van persoonlike data betrokke by 'n opleidingstel word nie oorweeg nie.

In die GDPR word die verwerking van persoonlike data vir die doel om algemene korrelasies en verbande te leer slegs gedeeltelik gereguleer deur Artikel 22 wat sê: "Die datasubjek het die reg om nie onderwerp te word aan 'n besluit wat uitsluitlik op geoutomatiseerde verwerking gebaseer is nie, insluitend profilering, wat regsgevolge op hom teweegbring of wat hom op 'n soortgelyke en beduidende wyse raak".

Hierdie artikel stel die verbod in vir databeheerders om die persoonlike data van 'n subjek te gebruik as deel van 'n ten volle outomatiese besluitnemingsproses wat direkte regseffekte op die onderwerp het. Maar neurale netwerke, maklik assimileerbaar met outomatiese besluitnemingsprosesse, verkry sodra opgelei die vermoë om outomatiese besluite te neem wat mense se lewens kan beïnvloed. Maar hierdie besluite is nie altyd “logies” nie. Trouens, tydens opleiding leer elke neurale netwerk om inligting met mekaar te assosieer, en bring dit dikwels op 'n absoluut nie-lineêre wyse met mekaar in verband. En die afwesigheid van “logika” maak nie die werk makliker vir die wetgewer wat ’n skild wil opsteek ter verdediging van mense se privaatheid nie.

As 'n mens ook kies om 'n uiters beperkende beleid toe te pas, byvoorbeeld om die gebruik van enige sensitiewe data te verbied tensy dit uitdruklik deur die eienaar gemagtig is, sal wettige gebruik van neurale netwerke onprakties wees. En om neurale netwerktegnologieë op te gee, sal 'n groot verlies wees, dink net aan die ontledingsmodelle wat opgelei is met die kliniese data van die proefpersone van 'n bevolking wat gedeeltelik deur 'n spesifieke siekte geraak is. Hierdie modelle help om voorkomingsbeleide te verbeter deur korrelasies te identifiseer tussen die elemente teenwoordig in die data en die siekte self, onverwagte korrelasies wat in die oë van klinici heeltemal onlogies mag voorkom.

Bestuur van behoeftes

Om die probleem te stel om mense se privaatheid te respekteer nadat hulle jare lank onoordeelkundig die versameling daarvan gemagtig het, is skynheilig om die minste te sê. Die GDPR self met sy kompleksiteit is verantwoordelik vir talle manipulasies wat die verkryging van magtiging moontlik maak om persoonlike data te verwerk deur die dubbelsinnigheid van die klousules en die moeilikheid om te verstaan, te ontgin.

Ons het beslis 'n vereenvoudiging van die wet nodig wat die toepaslikheid daarvan moontlik maak en 'n werklike opvoeding in die doelbewuste gebruik van persoonlike inligting.

My voorstel is nie om maatskappye toe te laat om die persoonlike data van gebruikers wat vir hul dienste registreer, te ken nie, selfs al is dit betaalde dienste. Die gebruik van vals persoonlike data deur privaat individue moet outomaties plaasvind wanneer hulle aanlyn stelsels gebruik. Die gebruik van werklike data moet beperk word tot die aankoopproses alleen, om te verseker dat dit altyd heeltemal apart van die diensdatabasis is.

Om die smaak en voorkeure van die onderwerp te ken sonder om toe te laat dat 'n naam of gesig met hierdie profiel geassosieer word, sal funksioneer as 'n vorm van anonimisering wat stroomop uitgevoer word wat outomaties die versameling van data en die gebruik daarvan binne outomatiseringstelsels soos kunsmatige intelligensies sal toelaat.

Artikel van Gianfranco Fedele