مقالات

حلقه حریم خصوصی: هوش مصنوعی در هزارتوی حریم خصوصی و حق چاپ

این اولین مقاله از دو مقاله ای است که در آن به رابطه ظریف بین حریم خصوصی و حق چاپ از یک سو و هوش مصنوعی از سوی دیگر می پردازم.

یک رابطه مشکل ساز که در آن ثابت شده است که تکامل فناوری آنقدر سریع است که هر گونه تعدیل نظارتی را از اولین کاربرد آن منسوخ می کند.

پرداختن به مسائل پیچیده مربوط به حقوق مردم و داده های شخصی نیازمند توجه، شایستگی و بحثی ضروری بین روشنفکران و متخصصان زمان ما است. ما در حال کشف هستیم که در تطبیق قوانین اجتماعی با چالش هایی که نوآوری های تکنولوژیکی برای ما ایجاد می کنند به اندازه کافی سریع نیستیم. فن‌آوری‌های نوظهور به‌طور فزاینده‌ای خود را در میدان باز می‌یابند، در غیاب کامل مقرراتی که کاربرد آنها را محدود می‌کند، بدون ایجاد آسیب و در نتیجه با مصونیت کامل.

آیا می توان کنترلی را تصور کرد که از زنجیره توسعه فناوری به تحقیقات علمی و اهداف استراتژیک آن بازگردد؟

آیا می توان با حفظ احترام قاطع به آزادی های فردی، بر تکامل گونه های ما حکومت کرد؟

حریم خصوصی؟

«هرچه بیشتر سعی کنید پنهان شوید، بیشتر جلب توجه می کنید. چرا اینقدر مهم است که هیچ کس از شما خبر نداشته باشد؟» – از فیلم “آنون” به نویسندگی و کارگردانی اندرو نیکول – ۲۰۱۸

در فیلم "چند لحظه بعددر سال 2018، جامعه آینده یک مکان تاریک است، تحت کنترل مستقیم یک سیستم کامپیوتری غول پیکر به نام اتر، که قادر است هر گوشه ای از کشور را با مشاهده آن از چشم همان افرادی که در آن ساکن هستند، زیر نظر بگیرد. هر انسانی از طرف اتر ناظر است و البته اولین مسئولیت آنها نظارت بر خود و رفتارشان است.

اتر بهترین متحد نیروهای پلیس است: از طریق اتر، ماموران می توانند تجربه هر شخصی را با چشمان خود ردیابی کنند و هر نوع جنایتی را حل کنند.

افسر پلیس سال تعجب می کند که چرا باید برای محافظت از حریم خصوصی خود بجنگید: وقتی دلیلی برای پنهان شدن ندارید چه فایده ای دارد؟ به هر حال، در عصری که در آن فناوری‌هایی که ما برای افزایش ایمنی خانه‌ها و خیابان‌های خود می‌سازیم، نیازمند ثبت، نظارت و راستی‌آزمایی چنین اطلاعاتی در راستای منافع خود مردمی هستند که درخواست حفاظت می‌کنند، چگونه می‌توانیم انتظار داشته باشیم که تضمین کنیم. حریم خصوصی آنها؟

برای نشان دادن اینکه دسترسی به زندگی دیگران چقدر خطرناک است، یک هکر کنترل اتر را در دست خواهد گرفت و کابوس وحشتناکی بر زندگی میلیون‌ها نفر فرود می‌آید: تهدید مجبور شدن به تماشای تماشاگران درمانده تصاویری از بیشترین تصاویر. لحظات عذاب آور زندگی آنها، مستقیماً در شبکیه چشم آنها پخش می شود.

حلقه

Le شبکه های عصبی مصنوعی که زیربنای عملکرد هوش مصنوعی مدرن است، حول سه عنصر اصلی می چرخد: اطلاعات اساسی که به غیر از آن نامیده می شود جسم، یکی از الگوریتم برای جذب اطلاعات و الف حافظه برای حفظ آنها

این الگوریتم به بارگذاری پیش پا افتاده اطلاعات در حافظه محدود نمی شود، آن را در جستجوی عناصری که آنها را به یکدیگر مرتبط می کند اسکن می کند. ترکیبی از داده ها و روابط به حافظه منتقل می شود که شکل یک را تشکیل می دهد مدل.

در یک مدل، داده ها و روابط کاملاً غیرقابل تشخیص هستند، به همین دلیل است که بازسازی مجموعه اطلاعات آموزشی اصلی از یک شبکه عصبی آموزش دیده تقریبا غیرممکن است.

این امر به ویژه زمانی صادق است که پیکره ها حاوی مقادیر زیادی داده باشند. این مورد در مورد سیستم های زبانی بزرگ شناخته شده به عنوان است Large Language Models (به طور خلاصه LLM) از جمله ChatGpt بدنام. آنها اثربخشی خود را مدیون حجم زیادی از اطلاعات مورد استفاده در آموزش هستند: در حال حاضر آموزش خوب حداقل به چند ترابایت داده نیاز دارد و با توجه به اینکه یک ترابایت با 90 میلیارد کاراکتر، تقریباً 75 میلیون صفحه متن مطابقت دارد، به راحتی می توان فهمید که وجود دارد. اطلاعات زیادی مورد نیاز است

اما اگر مدل ها را نمی توان مهندسی زدایی کرد، چرا باید مشکل نقض حریم خصوصی را از خود بپرسیم؟

تسلط بر داده ها

هر که دیوانه است می تواند درخواست معافیت از ماموریت های پروازی کند، اما کسی که درخواست معافیت از مأموریت های پروازی می کند دیوانه نیست. - بر اساس رمان "Catch 22" اثر جوزف هلر.

خبرنامه نوآوری
مهم ترین اخبار نوآوری را از دست ندهید. برای دریافت آنها از طریق ایمیل ثبت نام کنید.

جمع آوری داده هایی به اندازه ای که امکان ایجاد پروژه هایی مانند ChatGpt یا سایر موارد مشابه را فراهم می کند، امروزه در اختیار شرکت های بزرگ چند ملیتی است که با فعالیت های دیجیتالی خود توانسته اند بزرگترین مخزن اطلاعات را در اختیار داشته باشند. در جهان: وب.

گوگل و مایکروسافت که سال‌ها موتورهای جستجویی را مدیریت می‌کنند که وب را اسکن می‌کنند و مقادیر عظیمی از اطلاعات را برون‌یابی می‌کنند، اولین نامزدهای ایجاد LLM هستند، تنها مدل‌های هوش مصنوعی که قادر به هضم مقادیری از اطلاعات مانند آنچه در بالا توضیح داده شد، هستند.

به سختی می توان باور کرد که گوگل یا مایکروسافت بتوانند اطلاعات شخصی خود را قبل از استفاده از آنها به عنوان یک مجموعه در آموزش شبکه عصبی پنهان کنند. ناشناس کردن اطلاعات در مورد سیستم های زبانی به شناسایی داده های شخصی در یک مجموعه و جایگزینی آن با داده های جعلی تبدیل می شود. بیایید پیکره‌ای به اندازه چند ترابایت را تصور کنیم که می‌خواهیم یک مدل را با آن آموزش دهیم و بیایید تصور کنیم چقدر کار برای ناشناس کردن دستی داده‌های موجود در آن لازم است: عملاً غیرممکن است. اما اگر بخواهیم به یک الگوریتم برای انجام خودکار آن تکیه کنیم، تنها سیستمی که قادر به انجام این کار است مدل دیگری به همان اندازه بزرگ و پیچیده خواهد بود.

ما با مشکل کلاسیک Catch-22 روبرو هستیم: "برای آموزش یک LLM با داده های ناشناس، به یک LLM نیاز داریم که بتواند آن را ناشناس کند، اما اگر یک LLM داشته باشیم که بتواند داده ها را ناشناس کند، آموزش آن با داده های ناشناس انجام نشده است. .»

GDPR منسوخ شده است

GDPR که قوانین (تقریبا) جهانی را برای احترام به حریم خصوصی افراد دیکته می کند، با توجه به این موضوعات، از قبل یک خبر قدیمی است و حفاظت از داده های شخصی درگیر در یک مجموعه آموزشی در نظر گرفته نشده است.

در GDPR، پردازش داده‌های شخصی به منظور یادگیری همبستگی‌ها و ارتباطات کلی فقط تا حدی توسط ماده 22 تنظیم می‌شود که می‌گوید: «موضوع داده‌ها این حق را دارد که تحت تصمیم‌گیری صرفاً بر اساس پردازش خودکار، از جمله نمایه‌سازی، قرار نگیرد. برای او آثار حقوقی ایجاد می کند یا به نحوی مشابه و با اهمیت بر او تأثیر می گذارد».

این مقاله ممنوعیت استفاده کنترل‌کنندگان داده‌ها از داده‌های شخصی یک موضوع را به عنوان بخشی از فرآیند تصمیم‌گیری کاملاً خودکار که تأثیرات قانونی مستقیم بر موضوع دارد، معرفی می‌کند. اما شبکه‌های عصبی که به راحتی با فرآیندهای تصمیم‌گیری خودکار قابل جذب هستند، پس از آموزش، توانایی تصمیم‌گیری خودکار را پیدا می‌کنند که می‌تواند بر زندگی افراد تأثیر بگذارد. اما این تصمیمات همیشه "منطقی" نیستند. در حین آموزش، در واقع، هر شبکه عصبی یاد می گیرد که اطلاعات را با یکدیگر مرتبط کند و اغلب آنها را به صورت کاملاً غیر خطی با یکدیگر مرتبط می کند. و نبود «منطق» کار را برای قانونگذار که بخواهد در دفاع از حریم خصوصی مردم سپری کند آسان نمی کند.

اگر یک سیاست بسیار محدودکننده را نیز انتخاب کنید، به عنوان مثال استفاده از هر گونه داده حساس را ممنوع کند، مگر اینکه صریحاً توسط مالک مجاز باشد، استفاده قانونی از شبکه های عصبی غیرعملی خواهد بود. و کنار گذاشتن فناوری‌های شبکه‌های عصبی ضرر بزرگی خواهد بود، فقط به مدل‌های تحلیل آموزش‌دیده با داده‌های بالینی افراد جمعیتی که تا حدی تحت تأثیر یک بیماری خاص قرار گرفته‌اند فکر کنید. این مدل‌ها با شناسایی همبستگی‌های بین عناصر موجود در داده‌ها و خود بیماری، به بهبود سیاست‌های پیشگیری کمک می‌کنند، همبستگی‌های غیرمنتظره‌ای که از نظر پزشکان ممکن است کاملاً غیرمنطقی به نظر برسد.

مدیریت نیازها

طرح مشکل رعایت حریم خصوصی افراد پس از سال ها مجوز بی رویه مجموعه آن، دست کم ریاکارانه است. خود GDPR با پیچیدگی‌اش مسئول دستکاری‌های متعددی است که اجازه می‌دهد با بهره‌برداری از ابهام بندها و دشواری درک، مجوز پردازش داده‌های شخصی را دریافت کند.

ما مطمئناً به ساده‌سازی قانون نیاز داریم که امکان اعمال آن را فراهم کند و آموزش واقعی در استفاده آگاهانه از اطلاعات شخصی.

پیشنهاد من این است که اجازه ندهیم شرکت ها اطلاعات شخصی کاربرانی را که برای خدمات آنها ثبت نام می کنند، بدانند، حتی اگر آنها خدمات پولی باشند. استفاده از داده های شخصی جعلی توسط افراد خصوصی باید به طور خودکار هنگام استفاده از سیستم های آنلاین رخ دهد. استفاده از داده های واقعی باید تنها به فرآیند خرید محدود شود و اطمینان حاصل شود که همیشه کاملاً از پایگاه داده خدمات جدا است.

دانستن سلایق و ترجیحات موضوع بدون اجازه دادن به نام یا چهره برای مرتبط شدن با این نمایه، به عنوان نوعی از ناشناس سازی انجام شده در بالادست عمل می کند که به طور خودکار امکان جمع آوری داده ها و استفاده از آنها را در سیستم های اتوماسیون مانند هوش مصنوعی می دهد.

آرتیکولو دی Gianfranco Fedele