Greinar

Privacy Loop: gervigreind í völundarhúsi friðhelgi einkalífs og höfundarréttar

Þetta er fyrsta grein af tveimur þar sem ég fjalla um viðkvæmt samband á milli friðhelgi einkalífs og höfundarréttar annars vegar og gervigreindar hins vegar.

Vandræðalegt samband þar sem tækniþróun hefur reynst vera svo hröð að allar lagabreytingar verða úreltar frá fyrstu beitingu.

Til að taka á vandræðalegum málum sem snúa að réttindum fólks og persónuupplýsingum þarf athygli, hæfni og ómissandi umræðu milli menntamanna og sérfræðinga samtímans. Við erum að uppgötva að við erum ekki nógu fljót að laga félagslegar reglur að þeim áskorunum sem tækninýjungar hafa í för með sér. Ný tækni lendir í auknum mæli í því að starfa á víðavangi, í algjörri fjarveru reglugerða sem takmarka beitingu þeirra, frjálst að valda tjóni og gera það því með algjöru refsileysi.

Er hægt að ímynda sér stjórn sem fer aftur upp í keðju tækniþróunar til vísindarannsókna og stefnumarkandi markmiða þeirra?

Er hægt að hugsa sér að stjórna þróun tegundar okkar á sama tíma og við viðhalda eindreginni virðingu fyrir einstaklingsfrelsi?

Persónuvernd?

„Því meira sem þú reynir að fela þig, því meiri athygli vekur þú. Af hverju er svona mikilvægt að enginn viti af þér?“ - úr myndinni "Anon" skrifað og leikstýrt af Andrew Niccol - 2018

Í myndinni "Anon” 2018, samfélag framtíðarinnar er myrkur staður, undir beinni stjórn risastórs tölvukerfis sem kallast Ether, sem getur fylgst með hverju horni þjóðarinnar með því að fylgjast með því með augum sama fólksins og byggir það. Sérhver manneskja er umsjónarmaður fyrir hönd Ether og fyrsta ábyrgð þeirra er að sjálfsögðu að fylgjast með sjálfum sér og hegðun sinni.

Ether er besti bandamaður lögreglunnar: í gegnum Ether geta umboðsmenn rakið upplifun hvers manns með því að endurlifa hana með eigin augum og leysa hvers kyns glæpi.

Lögregluþjónninn Sal veltir því fyrir sér hvers vegna þú ættir að berjast til að vernda friðhelgi þína: hvað er tilgangurinn þegar þú hefur enga ástæðu til að fela þig? Þegar allt kemur til alls, á tímum þar sem tæknin sem við byggjum til að auka öryggi heimila okkar og gatna okkar krefst skráningar, eftirlits og sannprófunar á slíkum upplýsingum í þágu fólksins sjálfs sem biður um vernd, hvernig getum við búist við að tryggja einkalíf þeirra?

Til að sýna fram á hversu hættulegt það er að hafa aðgang að lífi annarra mun tölvuþrjótur ná tökum á Ether og skelfileg martröð mun koma yfir líf milljóna manna: hótun um að þurfa að horfa á sem hjálparlausa áhorfendur myndir af þeim sem mest kvalin augnablik lífs síns, send beint inn í sjónhimnu þeirra.

The Loop

Le gervi taugakerfi sem liggja til grundvallar starfsemi nútíma gervigreindar, snúast um þrjá meginþætti: grunnupplýsingar sem annars kallast Corpus, A reiknirit til upplýsingaöflunar og a minni fyrir minnið þeirra.

Reikniritið einskorðast ekki við banal hleðslu upplýsinga í minnið heldur skannar það í leit að þáttum sem tengja þær hvert við annað. Blanda af gögnum og samböndum verður flutt í minnið sem mun mynda a líkan.

Innan líkans eru gögn og tengsl algjörlega óaðgreinanleg, þess vegna er nánast ómögulegt að endurbyggja frumuupplýsingar um þjálfun úr þjálfuðu tauganeti.

Þetta á sérstaklega við þegar lík innihalda mikið magn af gögnum. Þetta á við um stóru tungumálakerfin sem kallast Large Language Models (LLM í stuttu máli) þar á meðal hið alræmda ChatGpt. Þeir eiga skilvirkni sína að þakka miklu magni upplýsinga sem notað er við þjálfun: eins og er krefst góð þjálfun að minnsta kosti nokkurra terabæta af gögnum og í ljósi þess að eitt terabæti samsvarar 90 milljörðum stafa, um það bil 75 milljón síðum af texta, er auðvelt að skilja að það er það vantar svo miklar upplýsingar.

En ef ekki er hægt að afstýra módel, hvers vegna ættum við að spyrja okkur vandamálið með brot á friðhelgi einkalífs?

Gagnaráðandi

„Hver ​​sem er brjálaður getur beðið um að vera undanþeginn flugleiðangri, en sá sem biður um að vera undanþeginn flugleiðangri er ekki brjálaður. - byggð á skáldsögunni "Catch 22" eftir Joseph Heller.

Nýsköpunarfréttabréf
Ekki missa af mikilvægustu fréttunum um nýsköpun. Skráðu þig til að fá þau með tölvupósti.

Söfnun gagna af þeirri stærðargráðu að hægt sé að búa til verkefni eins og ChatGpt eða önnur sambærileg er í dag forréttindi stórra fjölþjóðafyrirtækja sem hafa með stafrænni starfsemi sinni getað komist yfir stærstu geymslu upplýsinga. í heiminum: Vefurinn.

Google og Microsoft, sem um árabil hafa stjórnað leitarvélum sem skanna vefinn og framreikna gífurlegt magn upplýsinga, eru fyrstu frambjóðendurnir til að búa til LLM, einu gervigreindarlíkönin sem geta melt magn upplýsinga eins og lýst er hér að ofan.

Það er erfitt að trúa því að Google eða Microsoft geti hyljað persónulegar upplýsingar í gögnum sínum áður en þær eru notaðar sem hópur til að þjálfa taugakerfi. Nafnlausar upplýsingar þegar um tungumálakerfi er að ræða þýðir auðkenningu á persónuupplýsingum innan málheildar og í staðinn fyrir fölsuð gögn. Við skulum ímynda okkur corpus á stærð við nokkur terabæta sem við viljum þjálfa líkan með og við skulum reyna að ímynda okkur hversu mikil vinna væri nauðsynleg til að nafngreina gögnin sem það inniheldur handvirkt: það væri nánast ómögulegt. En ef við vildum treysta á reiknirit til að gera það sjálfkrafa, þá væri eina kerfið sem gæti unnið þetta starf annað jafn stórt og háþróað líkan.

Við erum með klassískt Catch-22 vandamál: „til að þjálfa LLM með nafnlausum gögnum þurfum við LLM sem getur gert þau nafnlaus, en ef við erum með LLM sem getur gert gögnin nafnlaus var þjálfun þess ekki gerð með nafnlausum gögnum .“

GDPR er úrelt

GDPR, sem kveður (næstum) á heimsvísu reglurnar um að virða friðhelgi einkalífs fólks, í ljósi þessara efnisþátta, eru nú þegar gamlar fréttir og verndun persónuupplýsinga sem taka þátt í þjálfunarsetti er ekki til skoðunar.

Í GDPR er vinnsla persónuupplýsinga í þeim tilgangi að læra almenn fylgni og tengsl aðeins að hluta til stjórnað af 22. greininni sem segir: „Hinn skráði á rétt á að sæta ekki ákvörðun sem byggist eingöngu á sjálfvirkri vinnslu, þ.m.t. hefur réttaráhrif á hann eða snertir hann á svipaðan og verulegan hátt“.

Í þessari grein er innleitt bann ábyrgðaraðila gagna að nota persónuupplýsingar einstaklings sem hluta af fullkomlega sjálfvirku ákvarðanatökuferli sem hefur bein réttaráhrif á viðfangsefnið. En taugakerfi, sem auðvelt er að samlaga sjálfvirkum ákvarðanatökuferlum, öðlast hæfileikann til að taka sjálfvirkar ákvarðanir sem geta haft áhrif á líf fólks þegar þau eru þjálfuð. En þessar ákvarðanir eru ekki alltaf „rökréttar“. Meðan á þjálfun stendur lærir hvert tauganet að tengja upplýsingar hvert við annað og tengja þær oft við hvert annað á algerlega ólínulegan hátt. Og skortur á "rökfræði" auðveldar ekki starfið fyrir löggjafann sem vill slá upp skjaldborg til varnar einkalífi fólks.

Ef maður velur líka að beita mjög takmarkandi stefnu, til dæmis að banna notkun hvers kyns viðkvæmra gagna nema eigandinn hafi sérstaklega heimild til þess, væri lögleg notkun tauganeta óframkvæmanleg. Og að hætta við taugakerfistækni væri stórt tap, hugsaðu bara um greiningarlíkönin sem eru þjálfuð með klínískum gögnum einstaklinga af þýði sem hefur að hluta verið fyrir áhrifum af tilteknum sjúkdómi. Þessi líkön hjálpa til við að bæta forvarnarstefnu með því að bera kennsl á fylgni milli þátta sem eru til staðar í gögnunum og sjúkdómsins sjálfs, óvænt fylgni sem í augum lækna kann að virðast algjörlega órökrétt.

Stjórna þörfum

Að setja fram þann vanda að virða friðhelgi einkalífs fólks eftir að hafa heimilað söfnun þess óspart í mörg ár er vægast sagt hræsni. GDPR sjálft með margbreytileika sínum ber ábyrgð á fjölmörgum meðferðum sem gera það kleift að fá leyfi til að vinna með persónuupplýsingar með því að nýta sér tvíræðni ákvæðanna og erfiðleika við að skilja.

Okkur vantar svo sannarlega einföldun á lögum sem heimilar gildi þeirra og raunverulega fræðslu um meðvitaða notkun persónuupplýsinga.

Mín tillaga er að heimila ekki fyrirtækjum að vita um persónuupplýsingar notenda sem skrá sig fyrir þjónustu þeirra, jafnvel þótt um gjaldskylda þjónustu sé að ræða. Notkun falsaðra persónuupplýsinga af einkaaðilum ætti að eiga sér stað sjálfkrafa þegar þeir nota netkerfi. Notkun raunverulegra gagna ætti að vera bundin við innkaupaferlið eitt og sér og tryggja að þau séu alltaf algjörlega aðskilin frá þjónustugagnagrunninum.

Að þekkja smekk og óskir viðfangsefnisins án þess að leyfa nafni eða andliti að vera tengt við þennan prófíl myndi virka sem form nafnleyndar sem framkvæmt er á undan sem myndi sjálfkrafa leyfa söfnun gagna og notkun þeirra innan sjálfvirknikerfa eins og gervigreindar.

gr Gianfranco Fedele

Nýsköpunarfréttabréf
Ekki missa af mikilvægustu fréttunum um nýsköpun. Skráðu þig til að fá þau með tölvupósti.

Nýlegar greinar

Útgefendur og OpenAI skrifa undir samninga um að stjórna flæði upplýsinga sem unnið er með gervigreind

Síðasta mánudag tilkynnti Financial Times um samning við OpenAI. FT leyfir heimsklassa blaðamennsku…

30 Apríl 2024

Greiðslur á netinu: Hér er hvernig streymisþjónusta gerir þér kleift að borga að eilífu

Milljónir manna borga fyrir streymisþjónustu og greiða mánaðarlega áskriftargjöld. Það er almenn skoðun að þú…

29 Apríl 2024

Veeam býður upp á umfangsmesta stuðninginn fyrir lausnarhugbúnað, allt frá vernd til viðbragða og bata

Coveware frá Veeam mun halda áfram að veita viðbragðsþjónustu fyrir tölvukúgun. Coveware mun bjóða upp á réttar- og úrbótamöguleika ...

23 Apríl 2024

Græn og stafræn bylting: Hvernig forspárviðhald er að umbreyta olíu- og gasiðnaðinum

Forspárviðhald er að gjörbylta olíu- og gasgeiranum, með nýstárlegri og fyrirbyggjandi nálgun við verksmiðjustjórnun.…

22 Apríl 2024