Privacy Loop: ხელოვნური ინტელექტი კონფიდენციალურობისა და საავტორო უფლებების ლაბირინთში

ეს არის პირველი ორი სტატიიდან, სადაც მე მივმართავ დელიკატურ ურთიერთობას კონფიდენციალურობასა და საავტორო უფლებას, ერთის მხრივ, და ხელოვნური ინტელექტის, მეორე მხრივ.

პრობლემური ურთიერთობა, სადაც ტექნოლოგიური ევოლუცია იმდენად სწრაფია, რომ ნებისმიერი მარეგულირებელი კორექტირება მოძველებულია მისი პირველი აპლიკაციიდან.

ხალხის უფლებებსა და პერსონალურ მონაცემებთან დაკავშირებული მწვავე საკითხების განხილვა მოითხოვს ყურადღებას, კომპეტენციას და შეუცვლელ დისკუსიას ჩვენი დროის ინტელექტუალებსა და სპეციალისტებს შორის. ჩვენ აღმოვაჩენთ, რომ ჩვენ არ ვართ საკმარისად სწრაფი სოციალური წესების ადაპტაციაში იმ გამოწვევებთან, რომლებსაც ტექნოლოგიური ინოვაციები გვიქმნის. განვითარებადი ტექნოლოგიები სულ უფრო მეტად მოქმედებენ ღია ველზე, რეგულაციების სრული არარსებობის პირობებში, რომლებიც ზღუდავს მათ გამოყენებას, თავისუფლად აყენებენ ზიანს და, შესაბამისად, ამას აკეთებენ სრული დაუსჯელობით.

შესაძლებელია თუ არა წარმოვიდგინოთ კონტროლი, რომელიც ტექნოლოგიური განვითარების ჯაჭვს უბრუნდება სამეცნიერო კვლევებსა და მის სტრატეგიულ მიზნებს?

შესაძლებელია თუ არა ჩვენი სახეობის ევოლუციის მართვა ინდივიდუალური თავისუფლებებისადმი მტკიცე პატივისცემის შენარჩუნებით?

კონფიდენციალურობა?

„რაც უფრო მეტად ცდილობ დამალვას, მით უფრო იპყრობ ყურადღებას. რატომ არის ასე მნიშვნელოვანი, რომ არავინ იცოდეს შენს შესახებ?” – ენდრიუ ნიკოლის სცენარისტი და რეჟისორი ფილმიდან „ანონი“ – 2018 წ

ფილმში "Anon2018 წელს, მომავლის საზოგადოება არის ბნელი ადგილი, გიგანტური კომპიუტერული სისტემის პირდაპირი კონტროლის ქვეშ, სახელწოდებით ეთერი, რომელსაც შეუძლია ერის ყოველი კუთხის მონიტორინგი და დაკვირვება იმავე ხალხის თვალით, ვინც მასში ცხოვრობს. ყოველი ადამიანი არის ზედამხედველი ეთერის სახელით და მათი უპირველესი პასუხისმგებლობა, რა თქმა უნდა, არის საკუთარი თავის და მათი ქცევის მონიტორინგი.

ეთერი პოლიციის ძალების საუკეთესო მოკავშირეა: ეთერის მეშვეობით აგენტებს შეუძლიათ ნებისმიერი ადამიანის გამოცდილების თვალყურის დევნება საკუთარი თვალით გადახედვით და ნებისმიერი სახის დანაშაულის ამოხსნა.

პოლიციელ სალს აინტერესებს, რატომ უნდა იბრძოლო შენი კონფიდენციალურობის დასაცავად: რა აზრი აქვს, როცა დამალვის მიზეზი არ გაქვს? ბოლოს და ბოლოს, იმ ეპოქაში, როდესაც ტექნოლოგიები, რომლებსაც ჩვენ ვაშენებთ ჩვენი სახლებისა და ქუჩების უსაფრთხოების გაზრდის მიზნით, მოითხოვს ასეთი ინფორმაციის ჩაწერას, მონიტორინგს და გადამოწმებას იმ ადამიანების ინტერესებიდან, რომლებიც ითხოვენ დაცვას, როგორ უნდა ველოდოთ გარანტიას. მათი კონფიდენციალურობა?

იმის დემონსტრირებისთვის, თუ რამდენად საშიშია სხვების ცხოვრებაზე წვდომა, ჰაკერი აიღებს კონტროლს ეთერზე და საშინელი კოშმარი დაეცემა მილიონობით ადამიანის სიცოცხლეს: უმწეო მაყურებლის ყურების საშიშროება. მათი ცხოვრების ტანჯული მომენტები პირდაპირ მათ ბადურაზე გადაიცემა.

Loop

Le ხელოვნური ნერვული ქსელები რომელიც საფუძვლად უდევს თანამედროვე ხელოვნური ინტელექტის ფუნქციონირებას, ტრიალებს სამი ძირითადი ელემენტის ირგვლივ: ძირითადი ინფორმაცია სხვაგვარად ე.წ კორპუსი, ერთი ალგორითმი ინფორმაციის ასიმილაციისთვის და ა მეხსიერება მათი დასამახსოვრებლად.

ალგორითმი არ შემოიფარგლება მხოლოდ ინფორმაციის ბანალური დატვირთვით მეხსიერებაში, ის ასკანირებს მათ ერთმანეთთან დაკავშირებული ელემენტების ძიებაში. მონაცემთა და ურთიერთობების ნაზავი გადაეცემა მეხსიერებას, რომელიც წარმოქმნის ა მოდელო.

მოდელის შიგნით, მონაცემები და ურთიერთობები სრულიად განუყოფელია, რის გამოც გაწვრთნილი ნერვული ქსელიდან ორიგინალური სასწავლო ინფორმაციის კორპუსის რეკონსტრუქცია თითქმის შეუძლებელია.

ეს განსაკუთრებით ეხება, როდესაც კორპუსები შეიცავს დიდი რაოდენობით მონაცემებს. ეს არის დიდი ლინგვისტური სისტემების შემთხვევა, რომელიც ცნობილია როგორც Large Language Models (მოკლედ LLM) სამარცხვინო ChatGpt-ის ჩათვლით. მათ თავიანთი ეფექტურობა ევალებათ ტრენინგის დროს გამოყენებული ინფორმაციის დიდ რაოდენობას: ამჟამად კარგი ტრენინგი მოითხოვს მინიმუმ რამდენიმე ტერაბაიტ მონაცემს და იმის გათვალისწინებით, რომ ერთი ტერაბაიტი შეესაბამება 90 მილიარდ სიმბოლოს, დაახლოებით 75 მილიონ გვერდს ტექსტს, ადვილი გასაგებია, რომ არსებობს იმდენი ინფორმაციაა საჭირო.

მაგრამ თუ მოდელების დეინჟინერია შეუძლებელია, რატომ უნდა ვკითხოთ საკუთარ თავს კონფიდენციალურობის დარღვევის პრობლემა?

მონაცემთა დომინირება

„ვინც გიჟია, შეუძლია მოითხოვოს ფრენის მისიებიდან გათავისუფლება, მაგრამ ვინც ითხოვს გათავისუფლებას ფრენის მისიებიდან, გიჟი არ არის“. - დაფუძნებულია ჯოზეფ ჰელერის რომანზე "Catch 22".

საინფორმაციო ბიულეტენი
არ გამოტოვოთ ყველაზე მნიშვნელოვანი სიახლეები ინოვაციების შესახებ. დარეგისტრირდით, რომ მიიღოთ ისინი ელექტრონული ფოსტით.

ისეთი ზომის მონაცემების შეგროვება, რომელიც საშუალებას მისცემს შექმნას ისეთი პროექტები, როგორიცაა ChatGpt ან სხვა მსგავსი, დღეს დიდი მრავალეროვნული კომპანიების პრეროგატივაა, რომლებმაც თავიანთი ციფრული აქტივობებით შეძლეს ინფორმაციის უდიდეს საცავში მოხვედრა. მსოფლიოში: ვებ.

Google და Microsoft, რომლებიც წლების განმავლობაში მართავენ საძიებო სისტემებს, რომლებიც სკანირებენ ინტერნეტს და ახდენენ ინფორმაციის უზარმაზარი რაოდენობის ექსტრაპოლაციას, არიან პირველი კანდიდატები LLM-ის შესაქმნელად, ერთადერთი AI მოდელებისთვის, რომლებსაც შეუძლიათ ისეთი ინფორმაციის მონელება, როგორიც ზემოთ იყო აღწერილი.

ძნელი დასაჯერებელია, რომ Google-ს ან Microsoft-ს შეეძლოთ დაფარონ პერსონალური ინფორმაცია თავიანთ მონაცემებში, სანამ გამოიყენებდნენ მას, როგორც კორპუსს ნერვული ქსელის ტრენინგში. ინფორმაციის ანონიმიზაცია ლინგვისტური სისტემების შემთხვევაში ითარგმნება როგორც პერსონალური მონაცემების იდენტიფიკაცია კორპუსში და მის ჩანაცვლება ყალბი მონაცემებით. წარმოვიდგინოთ რამდენიმე ტერაბაიტის ზომის კორპუსი, რომლითაც გვინდა მოდელის მომზადება და შევეცადოთ წარმოვიდგინოთ, რამდენი სამუშაო იქნება საჭირო მასში შემავალი მონაცემების ხელით ანონიმიზაციისთვის: ეს პრაქტიკულად შეუძლებელი იქნება. მაგრამ თუ გვინდოდა დავეყრდნობოდით ალგორითმს, რომელიც ამას ავტომატურად გააკეთებს, ერთადერთი სისტემა, რომელსაც შეუძლია ამ სამუშაოს შესრულება, იქნებოდა სხვა თანაბრად დიდი და დახვეწილი მოდელი.

ჩვენ გვაქვს კლასიკური Catch-22 პრობლემის არსებობა: „LLM ანონიმიზებული მონაცემების მოსამზადებლად გვჭირდება LLM, რომელსაც შეუძლია მისი ანონიმიზაცია, მაგრამ თუ ჩვენ გვაქვს LLM, რომელსაც შეუძლია მონაცემების ანონიმიზაცია, მისი ტრენინგი არ განხორციელებულა ანონიმური მონაცემებით. . ”

GDPR მოძველებულია

GDPR, რომელიც კარნახობს (თითქმის) გლობალურად ადამიანების კონფიდენციალურობის პატივისცემის წესებს, ამ თემების გათვალისწინებით, უკვე ძველი სიახლეა და ტრენინგში ჩართული პერსონალური მონაცემების დაცვა არ არის გათვალისწინებული.

GDPR-ში, ზოგადი კორელაციებისა და კავშირების შესწავლის მიზნით პერსონალური მონაცემების დამუშავება მხოლოდ ნაწილობრივ რეგულირდება 22-ე მუხლით, სადაც ნათქვამია: „მონაცემთა სუბიექტს უფლება აქვს არ დაექვემდებაროს გადაწყვეტილებას, რომელიც დაფუძნებულია მხოლოდ ავტომატიზებულ დამუშავებაზე, მათ შორის პროფილირებაზე, რომელიც აწარმოებს მასზე სამართლებრივ ეფექტს ან რაც გავლენას ახდენს მასზე მსგავსი და მნიშვნელოვანი გზით“.

ეს მუხლი შემოაქვს მონაცემთა კონტროლერებისთვის სუბიექტის პერსონალური მონაცემების გამოყენების აკრძალვას, როგორც გადაწყვეტილების მიღების სრულად ავტომატიზებული პროცესის ნაწილი, რომელსაც აქვს პირდაპირი სამართლებრივი ეფექტი სუბიექტზე. მაგრამ ნერვული ქსელები, ადვილად ათვისებადი გადაწყვეტილების მიღების ავტომატიზირებულ პროცესებთან, სწავლის შემდეგ იძენენ უნარს, მიიღონ ავტომატური გადაწყვეტილებები, რამაც შეიძლება გავლენა მოახდინოს ადამიანების ცხოვრებაზე. მაგრამ ეს გადაწყვეტილებები ყოველთვის არ არის "ლოგიკური". ტრენინგის დროს, ფაქტობრივად, თითოეული ნერვული ქსელი სწავლობს ინფორმაციის ერთმანეთთან დაკავშირებას, ხშირად მათ ერთმანეთთან დაკავშირებას აბსოლუტურად არაწრფივი გზით. და „ლოგიკის“ არარსებობა არ უადვილებს საქმეს კანონმდებელს, რომელსაც სურს ფარის აწევა ხალხის პირადი ცხოვრების დასაცავად.

თუ ვინმემ ასევე აირჩია გამოიყენოს უკიდურესად შემზღუდავი პოლიტიკა, მაგალითად, აკრძალოს ნებისმიერი მგრძნობიარე მონაცემების გამოყენება, თუ არ არის მკაფიოდ ნებადართული მფლობელის მიერ, ნეირონული ქსელების ლეგალური გამოყენება შეუძლებელი იქნება. და ნერვული ქსელის ტექნოლოგიებზე უარის თქმა დიდი დანაკარგი იქნება, უბრალოდ იფიქრეთ ანალიზის მოდელებზე, რომლებიც გაწვრთნილი იყო იმ პოპულაციის სუბიექტების კლინიკური მონაცემებით, რომლებიც ნაწილობრივ დაზარალდნენ კონკრეტული დაავადებით. ეს მოდელები ხელს უწყობს პრევენციის პოლიტიკის გაუმჯობესებას მონაცემებში არსებულ ელემენტებსა და თავად დაავადებას შორის კორელაციების იდენტიფიცირებით, მოულოდნელი კორელაციებით, რომლებიც კლინიკოსების თვალში შეიძლება სრულიად ალოგიკური აღმოჩნდეს.

საჭიროებების მართვა

ადამიანების კონფიდენციალურობის პატივისცემის პრობლემის დაყენება წლების განმავლობაში მისი შეგროვების განურჩევლად ავტორიზაციის შემდეგ, რბილად რომ ვთქვათ, ფარისევლობაა. თავად GDPR თავისი სირთულით პასუხისმგებელია მრავალრიცხოვან მანიპულაციებზე, რომლებიც იძლევა პერსონალური მონაცემების დამუშავების ავტორიზაციის მოპოვების საშუალებას პუნქტების ბუნდოვანებისა და გაგების სირთულის გამოყენებით.

ჩვენ, რა თქმა უნდა, გვჭირდება კანონის გამარტივება, რომელიც მის გამოყენებადობას და რეალურ განათლებას პერსონალური ინფორმაციის შეგნებულად გამოყენებაში იძლევა.

ჩემი წინადადება არის, რომ კომპანიებს არ მივცეთ საშუალება იცოდნენ იმ მომხმარებლების პერსონალური მონაცემები, რომლებიც დარეგისტრირდებიან მათ სერვისებზე, თუნდაც ფასიანი სერვისები იყოს. კერძო პირების მიერ ყალბი პერსონალური მონაცემების გამოყენება ავტომატურად უნდა მოხდეს, როდესაც ისინი იყენებენ ონლაინ სისტემებს. რეალური მონაცემების გამოყენება უნდა შემოიფარგლოს მხოლოდ შეძენის პროცესით, რათა უზრუნველყოფილი იყოს ის ყოველთვის სრულიად განცალკევებული მომსახურების მონაცემთა ბაზიდან.

სუბიექტის გემოვნებისა და პრეფერენციების ცოდნა ამ პროფილთან სახელის ან სახის ასოცირების გარეშე იმოქმედებს, როგორც ანონიმიზაციის ფორმა, რომელიც განხორციელდება ზემოთ, რაც ავტომატურად საშუალებას მისცემს მონაცემთა შეგროვებას და მათ გამოყენებას ავტომატიზაციის სისტემებში, როგორიცაა ხელოვნური ინტელექტი.

არტიკოლო დი Gianfranco Fedele