लेख

गोपनीयता लूप: गोपनीयता और कॉपीराइट की भूलभुलैया में कृत्रिम बुद्धिमत्ता

यह दो लेखों में से पहला है जिसमें मैं एक ओर गोपनीयता और कॉपीराइट और दूसरी ओर आर्टिफिशियल इंटेलिजेंस के बीच नाजुक संबंधों को संबोधित करता हूं।

एक समस्याग्रस्त संबंध जहां तकनीकी विकास इतना तेज़ साबित हो रहा है कि किसी भी नियामक समायोजन को उसके पहले अनुप्रयोग से ही अप्रचलित बना दिया गया है।

लोगों के अधिकारों और व्यक्तिगत डेटा से जुड़े जटिल मुद्दों को संबोधित करने के लिए ध्यान, सक्षमता और हमारे समय के बुद्धिजीवियों और विशेषज्ञों के बीच एक अपरिहार्य चर्चा की आवश्यकता है। हमें पता चल रहा है कि तकनीकी नवाचार हमारे सामने आने वाली चुनौतियों के लिए सामाजिक नियमों को अपनाने में हम उतने तेज नहीं हैं। उभरती हुई प्रौद्योगिकियाँ तेजी से खुद को खुले मैदान में काम करती हुई पाती हैं, उन नियमों के पूर्ण अभाव में जो उनके अनुप्रयोग को सीमित करते हैं, क्षति पहुँचाने के लिए स्वतंत्र होते हैं और इसलिए पूरी तरह से दण्ड से मुक्त होते हैं।

क्या ऐसे नियंत्रण की कल्पना करना संभव है जो तकनीकी विकास की श्रृंखला से लेकर वैज्ञानिक अनुसंधान और उसके रणनीतिक उद्देश्यों तक जाता हो?

क्या व्यक्तिगत स्वतंत्रता के प्रति दृढ़ सम्मान बनाए रखते हुए हमारी प्रजातियों के विकास को नियंत्रित करना संभव है?

गोपनीयता?

“जितना अधिक आप छिपने की कोशिश करते हैं, उतना अधिक आप ध्यान आकर्षित करते हैं। यह इतना महत्वपूर्ण क्यों है कि आपके बारे में कोई नहीं जानता?” - एंड्रयू निकोल द्वारा लिखित और निर्देशित फिल्म "एनोन" से - 2018

फिल्म में "अभी2018 में, भविष्य का समाज एक अंधेरी जगह है, जो ईथर नामक एक विशाल कंप्यूटर प्रणाली के सीधे नियंत्रण में है, जो राष्ट्र के हर कोने को उन्हीं लोगों की आंखों से देखकर निगरानी करने में सक्षम है जो इसे आबाद करते हैं। प्रत्येक मनुष्य ईथर की ओर से एक पर्यवेक्षक है और उनकी पहली ज़िम्मेदारी, निश्चित रूप से, स्वयं और उनके व्यवहार की निगरानी करना है।

ईथर पुलिस बलों का सबसे अच्छा सहयोगी है: ईथर के माध्यम से, एजेंट किसी भी व्यक्ति के अनुभव को अपनी आँखों से अनुभव करके उसका पता लगा सकते हैं और किसी भी प्रकार के अपराध को सुलझा सकते हैं।

पुलिस अधिकारी सैल आश्चर्यचकित हैं कि आपको अपनी गोपनीयता की रक्षा के लिए क्यों लड़ना चाहिए: जब आपके पास छिपने का कोई कारण नहीं है तो इसका क्या मतलब है? आख़िरकार, ऐसे युग में जब हम अपने घरों और सड़कों की सुरक्षा बढ़ाने के लिए जो तकनीकें बनाते हैं, उन्हें सुरक्षा की मांग करने वाले लोगों के हित में ऐसी जानकारी की रिकॉर्डिंग, निगरानी और सत्यापन की आवश्यकता होती है, हम गारंटी की उम्मीद कैसे कर सकते हैं उनकी गोपनीयता?

यह प्रदर्शित करने के लिए कि दूसरों के जीवन तक पहुंच बनाना कितना खतरनाक है, एक हैकर ईथर पर नियंत्रण कर लेगा और लाखों लोगों के जीवन पर एक भयानक दुःस्वप्न आ जाएगा: असहाय दर्शकों के रूप में सबसे अधिक छवियों को देखने का खतरा उनके जीवन के कष्टकारी क्षण, सीधे उनके रेटिना में प्रसारित होते हैं।

सूचित करते रहना

Le कृत्रिम तंत्रिका प्रसार जो आधुनिक कृत्रिम बुद्धिमत्ता की कार्यप्रणाली का आधार है, तीन मुख्य तत्वों के इर्द-गिर्द घूमता है: बुनियादी जानकारी जिसे अन्यथा कहा जाता है देहएक कलन विधि जानकारी को आत्मसात करने के लिए और एक स्मृति उन्हें याद रखने के लिए.

एल्गोरिदम मेमोरी में जानकारी की सामान्य लोडिंग तक ही सीमित नहीं है, यह उन तत्वों की खोज में इसे स्कैन करता है जो उन्हें एक-दूसरे से संबंधित करते हैं। डेटा और रिश्तों का मिश्रण मेमोरी में स्थानांतरित किया जाएगा जो एक बनेगा टाइप.

एक मॉडल के भीतर, डेटा और रिश्ते पूरी तरह से अप्रभेद्य हैं, यही कारण है कि एक प्रशिक्षित तंत्रिका नेटवर्क से मूल प्रशिक्षण जानकारी के कोष का पुनर्निर्माण करना लगभग असंभव है।

यह विशेष रूप से सच है जब कॉर्पस में बड़ी मात्रा में डेटा होता है। यह ज्ञात बड़ी भाषाई प्रणालियों का मामला है Large Language Modelएस (संक्षेप में एलएलएम) जिसमें कुख्यात चैटजीपीटी भी शामिल है। वे अपनी प्रभावशीलता का श्रेय प्रशिक्षण में उपयोग की जाने वाली बड़ी मात्रा में जानकारी को देते हैं: वर्तमान में अच्छे प्रशिक्षण के लिए कम से कम कुछ टेराबाइट डेटा की आवश्यकता होती है और यह देखते हुए कि एक टेराबाइट 90 बिलियन वर्णों, लगभग 75 मिलियन पृष्ठों के पाठ से मेल खाता है, यह समझना आसान है कि वहाँ है इतनी सारी जानकारी चाहिए.

लेकिन अगर मॉडलों को डी-इंजीनियर नहीं किया जा सकता है, तो हमें खुद से गोपनीयता के उल्लंघन की समस्या क्यों पूछनी चाहिए?

डेटा प्रभुत्व

"जो कोई पागल है वह उड़ान मिशन से छूट मांग सकता है, लेकिन जो कोई उड़ान मिशन से छूट मांगता है वह पागल नहीं है।" - जोसेफ हेलर के उपन्यास "कैच 22" पर आधारित।

नवाचार समाचार पत्र
नवाचार पर सबसे महत्वपूर्ण समाचार देखना न भूलें। उन्हें ईमेल द्वारा प्राप्त करने के लिए साइन अप करें।

चैटजीपीटी या अन्य समान परियोजनाओं के निर्माण की अनुमति देने के लिए इस आकार के डेटा का संग्रह आज बड़ी बहुराष्ट्रीय कंपनियों का विशेषाधिकार है, जो अपनी डिजिटल गतिविधियों के साथ, सूचना के सबसे बड़े भंडार पर अपना हाथ रखने में सक्षम हैं। दुनिया में: वेब.

Google और Microsoft, जो वर्षों से वेब को स्कैन करने और भारी मात्रा में जानकारी निकालने वाले खोज इंजनों का प्रबंधन कर रहे हैं, एलएलएम के निर्माण के लिए पहले उम्मीदवार हैं, एकमात्र एआई मॉडल जो ऊपर वर्णित जानकारी की मात्रा को पचाने में सक्षम हैं।

यह विश्वास करना कठिन है कि Google या Microsoft तंत्रिका नेटवर्क के प्रशिक्षण में एक कोष के रूप में उपयोग करने से पहले अपने डेटा में व्यक्तिगत जानकारी को अस्पष्ट करने में सक्षम होंगे। भाषाई प्रणालियों के मामले में जानकारी को गुमनाम करने का मतलब एक कोष के भीतर व्यक्तिगत डेटा की पहचान करना और उसे नकली डेटा से बदलना है। आइए कुछ टेराबाइट्स के आकार के एक कोष की कल्पना करें जिसके साथ हम एक मॉडल को प्रशिक्षित करना चाहते हैं और यह कल्पना करने का प्रयास करें कि इसमें मौजूद डेटा को मैन्युअल रूप से अज्ञात करने के लिए कितना काम आवश्यक होगा: यह व्यावहारिक रूप से असंभव होगा। लेकिन अगर हम इसे स्वचालित रूप से करने के लिए एक एल्गोरिदम पर भरोसा करना चाहते हैं, तो इस काम को करने में सक्षम एकमात्र प्रणाली एक और समान रूप से बड़ा और परिष्कृत मॉडल होगा।

हम एक क्लासिक कैच-22 समस्या की उपस्थिति में हैं: "अनाम डेटा के साथ एलएलएम को प्रशिक्षित करने के लिए हमें उन्हें अज्ञात करने में सक्षम एलएलएम की आवश्यकता होती है, लेकिन अगर हमारे पास डेटा को अज्ञात करने में सक्षम एलएलएम है, तो इसका प्रशिक्षण अज्ञात डेटा के साथ नहीं किया गया था . ”

जीडीपीआर अप्रचलित है

जीडीपीआर जो (लगभग) विश्व स्तर पर लोगों की गोपनीयता का सम्मान करने के नियमों को निर्देशित करता है, इन विषयों के आलोक में पहले से ही पुरानी खबर है और प्रशिक्षण सेट में शामिल व्यक्तिगत डेटा की सुरक्षा पर विचार नहीं किया गया है।

जीडीपीआर में, सामान्य सहसंबंधों और कनेक्शनों को सीखने के उद्देश्य से व्यक्तिगत डेटा को संसाधित करना केवल आंशिक रूप से अनुच्छेद 22 द्वारा विनियमित होता है जिसमें कहा गया है: "डेटा विषय को प्रोफाइलिंग सहित पूरी तरह से स्वचालित प्रसंस्करण पर आधारित निर्णय के अधीन नहीं होने का अधिकार है, जो उस पर कानूनी प्रभाव डालता है या जो उसे समान और महत्वपूर्ण तरीके से प्रभावित करता है"।

यह आलेख पूरी तरह से स्वचालित निर्णय लेने की प्रक्रिया के हिस्से के रूप में किसी विषय के व्यक्तिगत डेटा का उपयोग करने के लिए डेटा नियंत्रकों के निषेध का परिचय देता है जिसका विषय पर सीधा कानूनी प्रभाव पड़ता है। लेकिन स्वचालित निर्णय लेने की प्रक्रियाओं को आसानी से आत्मसात करने वाले तंत्रिका नेटवर्क, एक बार प्रशिक्षित होने पर स्वचालित निर्णय लेने की क्षमता हासिल कर लेते हैं जो लोगों के जीवन को प्रभावित कर सकते हैं। लेकिन ये निर्णय हमेशा "तार्किक" नहीं होते। प्रशिक्षण के दौरान, वास्तव में, प्रत्येक तंत्रिका नेटवर्क सूचनाओं को एक-दूसरे के साथ जोड़ना सीखता है, अक्सर उन्हें बिल्कुल गैर-रेखीय तरीके से एक-दूसरे से संबंधित करता है। और "तर्क" की अनुपस्थिति उस विधायक के लिए काम को आसान नहीं बनाती जो लोगों की गोपनीयता की रक्षा के लिए ढाल बनाना चाहता है।

यदि कोई अत्यधिक प्रतिबंधात्मक नीति लागू करने का विकल्प चुनता है, उदाहरण के लिए किसी भी संवेदनशील डेटा के उपयोग पर रोक लगाना जब तक कि मालिक द्वारा स्पष्ट रूप से अधिकृत न किया गया हो, तंत्रिका नेटवर्क का कानूनी उपयोग अव्यावहारिक होगा। और तंत्रिका नेटवर्क प्रौद्योगिकियों को छोड़ना एक बड़ा नुकसान होगा, बस उस आबादी के विषयों के नैदानिक डेटा के साथ प्रशिक्षित विश्लेषण मॉडल के बारे में सोचें जो किसी विशेष बीमारी से आंशिक रूप से प्रभावित हुआ है। ये मॉडल डेटा में मौजूद तत्वों और बीमारी के बीच सहसंबंधों की पहचान करके रोकथाम नीतियों को बेहतर बनाने में मदद करते हैं, अप्रत्याशित सहसंबंध जो चिकित्सकों की नजर में पूरी तरह से अतार्किक लग सकते हैं।

आवश्यकताओं का प्रबंध करना

वर्षों तक इसके संग्रह को अंधाधुंध रूप से अधिकृत करने के बाद लोगों की निजता का सम्मान करने की समस्या को उठाना कम से कम पाखंडपूर्ण है। जीडीपीआर स्वयं अपनी जटिलता के साथ कई हेरफेरों के लिए ज़िम्मेदार है जो खंडों की अस्पष्टता और समझने की कठिनाई का फायदा उठाकर व्यक्तिगत डेटा को संसाधित करने के लिए प्राधिकरण प्राप्त करने की अनुमति देता है।

हमें निश्चित रूप से कानून के सरलीकरण की आवश्यकता है जो इसकी प्रयोज्यता और व्यक्तिगत जानकारी के सचेत उपयोग में वास्तविक शिक्षा की अनुमति दे।

मेरा प्रस्ताव कंपनियों को उन उपयोगकर्ताओं के व्यक्तिगत डेटा को जानने की अनुमति नहीं देना है जो उनकी सेवाओं के लिए पंजीकरण करते हैं, भले ही वे भुगतान सेवाएं हों। निजी व्यक्तियों द्वारा ऑनलाइन सिस्टम का उपयोग करते समय नकली व्यक्तिगत डेटा का उपयोग स्वचालित रूप से होना चाहिए। वास्तविक डेटा का उपयोग केवल क्रय प्रक्रिया तक ही सीमित होना चाहिए, यह सुनिश्चित करते हुए कि यह हमेशा सेवा डेटाबेस से पूरी तरह से अलग हो।

इस प्रोफ़ाइल के साथ किसी नाम या चेहरे को जोड़े बिना विषय के स्वाद और प्राथमिकताओं को जानना अपस्ट्रीम में किए गए गुमनामीकरण के एक रूप के रूप में कार्य करेगा जो स्वचालित रूप से डेटा के संग्रह और कृत्रिम बुद्धिमत्ता जैसे स्वचालन प्रणालियों के भीतर उनके उपयोग की अनुमति देगा।

आर्टिकोलो डी Gianfranco Fedele