Artikoloj

Privateca Buklo: artefaritaj inteligentecoj en la labirinto de Privateco kaj Kopirajto

Ĉi tiu estas la unua el du artikoloj, en kiuj mi traktas la delikatan rilaton inter Privateco kaj Kopirajto unuflanke, kaj Artefarita Inteligenteco aliflanke.

Problema rilato kie teknologia evoluo pruvas esti tiel rapida ke igas ajnan reguligan alĝustigon malnoviĝinta de sia unua apliko.

Pritrakti dornajn aferojn, kiuj implikas la rajtojn de homoj kaj personajn datumojn, postulas atenton, kompetentecon kaj nemalhaveblan diskuton inter intelektuloj kaj specialistoj de nia tempo. Ni malkovras, ke ni ne sufiĉe rapidas adapti sociajn regulojn al la defioj, kiujn prezentas al ni teknologiaj novigoj. Emerĝantaj teknologioj ĉiam pli trovas sin funkcii en malferma kampo, en la tuta foresto de regularoj, kiuj limigas ilian aplikadon, liberaj kaŭzi damaĝon kaj do fari tion tute senpune.

Ĉu eblas imagi kontrolon, kiu reiras la ĉenon de teknologia evoluo al scienca esplorado kaj ĝiaj strategiaj celoj?

Ĉu estas imagebla regi la evoluon de nia specio konservante firman respekton al individuaj liberecoj?

Privateco?

“Ju pli vi provas kaŝi, des pli da atento vi altiras. Kial estas tiel grave, ke neniu scias pri vi?” – el la filmo “Anon” verkita kaj reĝisorita de Andrew Niccol – 2018

En la filmo "Anon” de 2018, la socio de la estonteco estas malluma loko, sub la rekta kontrolo de giganta komputila sistemo nomata Etero, kapabla kontroli ĉiun angulon de la nacio observante ĝin per la okuloj de la samaj homoj, kiuj ĝin loĝas. Ĉiu homo estas kontrolisto nome de Ether kaj ilia unua respondeco estas, kompreneble, kontroli sin kaj ilian konduton.

Ether estas la plej bona aliancano de la policaj fortoj: per Ether, agentoj povas spuri la sperton de iu ajn persono revivante ĝin per siaj propraj okuloj kaj solvante ajnan tipon de krimo.

Policano Sal scivolas kial vi devus batali por protekti vian privatecon: kio estas la signifo kiam vi ne havas kialon por kaŝi vin? Post ĉio, en epoko en kiu la teknologioj, kiujn ni konstruas por pliigi la sekurecon de niaj hejmoj kaj niaj stratoj, postulas la registradon, monitoradon kaj kontrolon de tiaj informoj je la intereso de la homoj mem, kiuj petas protekton, kiel ni povas atendi garantii ilian privatecon?

Por pruvi kiom danĝere estas havi aliron al la vivo de aliaj, retpirato regos Eteron kaj terura koŝmaro falos sur la vivojn de milionoj da homoj: la minaco devi rigardi kiel senhelpaj spektantoj la bildojn de la plej multaj. turmentitaj momentoj de iliaj vivoj, elsenditaj rekte en iliajn retinojn.

La Cirklo

Le artefaritaj neŭralaj retoj kiuj subestas la funkciadon de modernaj artefaritaj inteligentecoj, ĝiras ĉirkaŭ tri ĉefaj elementoj: bazaj informoj alie nomataj tekstaro, un algoritmo por la asimilado de informoj kaj unu memoro por ilia parkerigo.

La algoritmo ne limiĝas al banala ŝarĝo de informoj en la memoron, ĝi skanas ĝin serĉante elementojn, kiuj rilatas ilin unu al la alia. Miksaĵo de datumoj kaj rilatoj estos transdonita al la memoro kiu formos a ŝablono.

Ene de modelo, datumoj kaj rilatoj estas tute nedistingeblaj, tial rekonstrui la korpuson de originalaj trejnaj informoj de trejnita neŭrala reto estas preskaŭ neebla.

Ĉi tio estas precipe vera kiam korpuso enhavas grandajn kvantojn da datumoj. Tio estas la kazo de la grandaj lingvaj sistemoj konataj kiel Large Language Models (LLM mallonge) inkluzive de la fifama ChatGpt. Ili ŝuldas sian efikecon al la granda kvanto da informoj uzataj en trejnado: nuntempe bona trejnado postulas almenaŭ kelkajn terabajtojn da datumoj kaj ĉar unu terabajto respondas al 90 miliardoj da signoj, proksimume 75 milionoj da tekstoj, estas facile kompreni, ke ekzistas tiom da informoj bezonataj.

Sed se modeloj ne povas esti de-inĝenieritaj, kial ni demandu nin la problemon de privateco-malobservoj?

Regado de datumoj

"Kiu estas freneza povas peti esti sendevigita de flugmisioj, sed kiu petas esti sendevigita de flugmisioj ne estas freneza." – surbaze de la romano "Catch 22" de Joseph Heller.

Informilo pri novigo
Ne maltrafu la plej gravajn novaĵojn pri novigado. Registriĝi por ricevi ilin retpoŝte.

La kolekto de datumoj de tia grandeco por permesi la kreadon de projektoj kiel ChatGpt aŭ aliaj similaj estas hodiaŭ la privilegio de grandaj multnaciaj kompanioj, kiuj, per siaj ciferecaj agadoj, povis meti la manojn sur la plej grandan deponejon de informoj. en la mondo: la Reto.

Google kaj Mikrosofto, kiuj dum jaroj administris serĉilojn, kiuj skanas la Reton kaj ekstrapolas grandegajn kvantojn da informoj, estas la unuaj kandidatoj por la kreado de LLM, la solaj AI-modeloj kapablaj digesti kvantojn da informoj kiel tiuj supre priskribitaj.

Estas malfacile kredi, ke Guglo aŭ Mikrosofto kapablus kaŝi personajn informojn en siaj datumoj antaŭ ol uzi ĝin kiel korpuso en trejnado de neŭrala reto. Anonimigi informojn en la kazo de lingvaj sistemoj tradukiĝas en la identigon de personaj datumoj ene de korpuso kaj ĝia anstataŭigo per falsaj datumoj. Ni imagu korpuso kun la grandeco de kelkaj terabajtoj, per kiu ni volas trejni modelon kaj ni provu imagi kiom da laboro estus necesa por permane anonimigi la datumojn kiujn ĝi enhavas: ĝi estus praktike neebla. Sed se ni volus fidi algoritmon por fari ĝin aŭtomate, la sola sistemo kapabla fari ĉi tiun laboron estus alia same granda kaj altnivela modelo.

Ni estas en ĉeesto de klasika problemo Catch-22: "por trejni LLM kun anonimigitaj datumoj ni bezonas LLM kapablan anonimigi ĝin, sed se ni havas LLM kapablan anonimigi la datumojn, ĝia trejnado ne estis farita per anonimigitaj datumoj. .”

La GDPR estas malnoviĝinta

La GDPR, kiu diktas (preskaŭ) tutmonde la regulojn por respekti la privatecon de homoj, en lumo de ĉi tiuj temoj jam estas malnova novaĵo kaj la protekto de personaj datumoj implikitaj en trejnaro ne estas pripensita.

En la GDPR, prilaborado de personaj datumoj por lerni ĝeneralajn korelaciojn kaj ligojn estas nur parte reguligita de Artikolo 22, kiu deklaras: "La datumo havas la rajton ne esti submetita al decido bazita nur sur aŭtomata traktado, inkluzive de profilado, kiu produktas laŭleĝajn efikojn al li aŭ kiu influas lin en simila kaj signifa maniero".

Ĉi tiu artikolo enkondukas la malpermeson por datumregiloj uzi la personajn datumojn de subjekto kiel parto de plene aŭtomatigita decida procezo kiu havas rektajn jurajn efikojn al la temo. Sed neŭralaj retoj, facile asimileblaj al aŭtomatigitaj decidprocezoj, post kiam trejnitaj akiras la kapablon fari aŭtomatajn decidojn, kiuj povas influi la vivojn de homoj. Sed ĉi tiuj decidoj ne ĉiam estas "logikaj". Dum trejnado, fakte, ĉiu neŭrala reto lernas asocii informojn unu kun la alia, ofte rilatigante ilin unu al la alia en absolute nelinia maniero. Kaj la manko de "logiko" ne faciligas la laboron al la leĝdonanto, kiu volas levi ŝildon por defendo de la privateco de la homoj.

Se oni ankaŭ elektas apliki ekstreme limigan politikon, ekzemple malpermesante la uzon de ajnaj sentemaj datumoj krom se eksplicite rajtigite de la posedanto, laŭleĝa uzo de neŭralaj retoj estus nepraktigebla. Kaj rezigni neŭralajn retajn teknologiojn estus grava perdo, nur pensu pri la analizmodeloj trejnitaj kun la klinikaj datumoj de la subjektoj de loĝantaro, kiu estis parte trafita de aparta malsano. Tiuj modeloj helpas plibonigi preventajn politikojn identigante korelaciojn inter la elementoj ĉeestantaj en la datumoj kaj la malsano mem, neatenditaj korelacioj kiuj en la okuloj de klinikistoj povas aperi tute nelogikaj.

Administri bezonojn

Prezenti la problemon respekti la privatecon de homoj post sendistinge rajtigi ĝian kolekton dum jaroj estas hipokrite por diri. La GDPR mem kun sia komplekseco respondecas pri multaj manipuladoj, kiuj permesas akiri rajtigon por prilabori personajn datumojn per ekspluatado de la ambigueco de la klaŭzoj kaj la malfacileco de kompreno.

Ni certe bezonas simpligon de la leĝo, kiu ebligas ĝian aplikeblecon kaj veran edukadon pri la konscia uzo de personaj informoj.

Mia propono estas ne permesi al kompanioj koni la personajn datumojn de uzantoj, kiuj registras por siaj servoj, eĉ se ili estas pagitaj servoj. La uzo de falsaj personaj datumoj fare de privatuloj devus okazi aŭtomate kiam ili uzas retajn sistemojn. La uzo de realaj datumoj devus esti limigita al la aĉeta procezo sole, certigante ke ĝi estas ĉiam tute aparta de la serva datumbazo.

Koni la gustojn kaj preferojn de la subjekto sen permesi nomon aŭ vizaĝon esti asociita kun ĉi tiu profilo funkcius kiel formo de anonimigo efektivigita kontraŭflue, kiu aŭtomate permesus la kolekton de datumoj kaj ilian uzon ene de aŭtomatigaj sistemoj kiel artefaritaj inteligentecoj.

Artikolo de Gianfranco Fedele