מאמרים

לולאת פרטיות: בינה מלאכותית במבוך הפרטיות וזכויות היוצרים

זהו המאמר הראשון מבין שניים בהם אני מתייחס ליחס העדין בין פרטיות וזכויות יוצרים מחד, ובינה מלאכותית מאידך.

מערכת יחסים בעייתית שבה האבולוציה הטכנולוגית מוכיחה את עצמה כל כך מהירה עד שהיא מיושנת כל התאמה רגולטורית מהיישום הראשון שלה.

טיפול בסוגיות קוצניות הכרוכות בזכויות של אנשים ובנתונים אישיים מצריך תשומת לב, מיומנות ודיון הכרחי בין אינטלקטואלים ומומחים בני זמננו. אנו מגלים שאיננו מהירים מספיק בהתאמת כללים חברתיים לאתגרים שהחידושים הטכנולוגיים מציבים בפנינו. טכנולוגיות מתפתחות מוצאות את עצמן פועלות יותר ויותר בשטח הפתוח, בהיעדר מוחלט של תקנות המגבילות את יישומן, חופשיות לגרום נזק ולכן לעשות זאת ללא עונש מוחלט.

האם ניתן לדמיין בקרה שעוברת בחזרה את שרשרת ההתפתחות הטכנולוגית למחקר המדעי ולמטרותיו האסטרטגיות?

האם ניתן להעלות על הדעת לשלוט בהתפתחות המין שלנו תוך שמירה על כבוד מוצק לחירויות הפרט?

פְּרָטִיוּת?

"ככל שאתה מנסה להסתיר, אתה מושך יותר תשומת לב. למה זה כל כך חשוב שאף אחד לא יודע עליך?" - מתוך הסרט "אנון" שכתב וביים אנדרו ניקול - 2018

בסרט "בקרוב" של 2018, חברת העתיד היא מקום אפל, בשליטה ישירה של מערכת מחשבים ענקית בשם Ether, המסוגלת לנטר כל פינה במדינה על ידי התבוננות בה דרך עיניהם של אותם אנשים שמאכלסים אותה. כל בן אדם הוא משגיח מטעם אתר והאחריות הראשונה שלו היא כמובן לפקח על עצמו ועל התנהגותו.

אתר הוא בעל הברית הטוב ביותר של כוחות המשטרה: באמצעות אתר, סוכנים יכולים להתחקות אחר החוויה של כל אדם על ידי חיה מחדש במו עיניהם ולפתור כל סוג של פשע.

קצין המשטרה סאל תוהה מדוע עליך להילחם כדי להגן על הפרטיות שלך: מה הטעם כשאין לך סיבה להסתתר? אחרי הכל, בעידן שבו הטכנולוגיות שאנו בונים כדי להגביר את בטיחות בתינו ורחובותינו דורשות הקלטה, ניטור ואימות של מידע כזה למען האינטרסים של האנשים עצמם המבקשים הגנה, כיצד נוכל לצפות להבטיח הפרטיות שלהם?

כדי להדגים עד כמה זה מסוכן לקבל גישה לחייהם של אחרים, האקר ישתלט על אתר וסיוט נוראי יירד על חייהם של מיליוני אנשים: האיום שיצטרכו לצפות כצופים חסרי אונים בתמונות של הכי הרבה אנשים. רגעים מיוסרים מחייהם, משודרים ישירות לתוך הרשתית שלהם.

Loop

Le רשתות עצבים מלאכותיות העומדים בבסיס התפקוד של בינה מלאכותית מודרנית, סובבים סביב שלושה מרכיבים עיקריים: מידע בסיסי הנקרא אחרת גוף, אחד אלגוריתם להטמעת מידע וא זיכרון לשינון שלהם.

האלגוריתם אינו מוגבל לטעינה בנאלית של מידע לזיכרון, הוא סורק אותו בחיפוש אחר אלמנטים שמקשרים אותם זה לזה. תמהיל של נתונים וקשרים יועבר לזיכרון שייצור א modello.

בתוך מודל, נתונים ויחסים אינם ניתנים להבדלה לחלוטין, וזו הסיבה שבנייה מחדש של קורפוס מידע אימון מקורי מרשת עצבית מאומנת היא כמעט בלתי אפשרית.

זה נכון במיוחד כאשר גופים מכילים כמויות גדולות של נתונים. זהו המקרה של המערכות הלשוניות הגדולות הידועות בשם Large Language Models (בקיצור LM) כולל ChatGpt הידוע לשמצה. הם חייבים את האפקטיביות שלהם לכמות המידע הגדולה המשמשת באימון: כיום אימון טוב דורש לפחות כמה טרה-בייט של נתונים ובהתחשב בכך שטרה-בייט אחד מתאים ל-90 מיליארד תווים, כ-75 מיליון דפי טקסט, קל להבין שיש כל כך הרבה מידע צריך.

אבל אם לא ניתן לעצב מודלים, מדוע עלינו לשאול את עצמנו את בעיית הפרות הפרטיות?

דומיננטיות נתונים

"מי שמשגע יכול לבקש פטור ממשימות טיסה, אבל מי שמבקש לקבל פטור ממשימות טיסה אינו משוגע". - מבוסס על הרומן "Catch 22" מאת ג'וזף הלר.

ניוזלטר חדשנות
אל תחמיצו את החדשות החשובות ביותר בנושא חדשנות. הירשם כדי לקבל אותם במייל.

איסוף נתונים בסדר גודל כזה המאפשר יצירת פרויקטים כמו ChatGpt או פרויקטים דומים אחרים הוא כיום זכותן של חברות רב לאומיות גדולות, שבאמצעות פעילותן הדיגיטלית הצליחו לשים את ידם על מאגר המידע הגדול ביותר. בעולם: הרשת.

גוגל ומיקרוסופט, שבמשך שנים ניהלו מנועי חיפוש שסורקים את הרשת ומוציאים כמויות אדירות של מידע, הן המועמדות הראשונות ליצירת LLM, דגמי הבינה המלאכותית היחידים שמסוגלים לעכל כמויות מידע כמו אלה שתוארו לעיל.

קשה להאמין שגוגל או מיקרוסופט יוכלו לטשטש מידע אישי בנתונים שלהן לפני השימוש בו כקורפוס באימון רשת עצבית. מידע אנונימי במקרה של מערכות לשוניות מתורגם לזיהוי נתונים אישיים בתוך קורפוס והחלפתם בנתונים מזויפים. הבה נדמיין קורפוס בגודל של כמה טרה-בייט שבאמצעותו אנו רוצים להכשיר מודל וננסה לדמיין כמה עבודה תהיה נחוצה כדי לעשות אנונימיות ידנית של הנתונים שהוא מכיל: זה יהיה כמעט בלתי אפשרי. אבל אם היינו רוצים להסתמך על אלגוריתם שיעשה זאת אוטומטית, המערכת היחידה שמסוגלת לעשות את העבודה הזו תהיה עוד מודל גדול ומתוחכם לא פחות.

אנו נוכחים בעיית Catch-22 קלאסית: "כדי להכשיר LLM עם נתונים אנונימיים אנחנו צריכים LLM המסוגל להפוך אותו לאנונימי, אבל אם יש לנו LLM המסוגל להפוך את הנתונים לאנונימיים, ההכשרה שלו לא נעשתה עם נתונים אנונימיים ."

ה-GDPR מיושן

ה-GDPR שמכתיב (כמעט) באופן גלובלי את הכללים לכיבוד פרטיותם של אנשים, לאור נושאים אלו הוא כבר חדשות ישנות וההגנה על נתונים אישיים הכרוכים בערכת אימונים אינה נלקחת בחשבון.

ב-GDPR, עיבוד נתונים אישיים לצורך לימוד מתאמים וקשרים כלליים מוסדר רק באופן חלקי על ידי סעיף 22 הקובע: "לנושא המידע יש את הזכות לא להיות נתון להחלטה המבוססת על עיבוד אוטומטי בלבד, לרבות פרופילים, אשר מייצרת עליו השפעות משפטיות או שמשפיעות עליו בצורה דומה ומשמעותית".

מאמר זה מציג את האיסור על בקרי נתונים להשתמש בנתונים האישיים של נושא כחלק מתהליך קבלת החלטות אוטומטי לחלוטין שיש לו השפעות משפטיות ישירות על הנושא. אבל רשתות עצביות, הניתנות להטמעה בקלות בתהליכי קבלת החלטות אוטומטיים, לאחר הכשרה רוכשות את היכולת לקבל החלטות אוטומטיות שיכולות להשפיע על חייהם של אנשים. אבל ההחלטות האלה לא תמיד "הגיוניות". במהלך האימון, למעשה, כל רשת עצבית לומדת לשייך מידע זה לזה, ולעתים קרובות מקשרת אותם זה לזה בצורה לא ליניארית לחלוטין. והעדר "היגיון" אינו מקל על המחוקק שרוצה להרים מגן בהגנה על פרטיות האנשים.

אם בוחרים גם להחיל מדיניות מגבילה ביותר, למשל איסור שימוש בנתונים רגישים כלשהם, אלא אם כן אושר במפורש על ידי הבעלים, שימוש חוקי ברשתות עצביות יהיה בלתי מעשי. וויתור על טכנולוגיות רשתות עצביות יהיה אובדן גדול, רק תחשוב על מודלים של ניתוח שהוכשרו עם הנתונים הקליניים של נבדקים באוכלוסייה שהושפעה חלקית ממחלה מסוימת. מודלים אלו מסייעים בשיפור מדיניות המניעה על ידי זיהוי מתאמים בין המרכיבים הקיימים בנתונים לבין המחלה עצמה, מתאמים בלתי צפויים אשר בעיני הרופאים עשויים להיראות בלתי הגיוניים לחלוטין.

ניהול צרכים

הצגת הבעיה של כיבוד פרטיותם של אנשים לאחר שאישרה ללא הבחנה את איסוף זה במשך שנים היא צבועה בלשון המעטה. ה-GDPR עצמו עם המורכבות שלו אחראי למניפולציות רבות המאפשרות קבלת הרשאה לעיבוד נתונים אישיים על ידי ניצול העמימות של הסעיפים והקושי בהבנה.

אנחנו בהחלט צריכים פישוט החוק המאפשר את תחולתו וחינוך אמיתי לשימוש מודע במידע אישי.

הצעתי היא לא לאפשר לחברות לדעת את הנתונים האישיים של משתמשים שנרשמים לשירותיהם, גם אם מדובר בשירותים בתשלום. השימוש במידע אישי מזויף על ידי אנשים פרטיים צריך להתרחש באופן אוטומטי כאשר הם משתמשים במערכות מקוונות. השימוש בנתונים אמיתיים צריך להיות מוגבל לתהליך הרכישה בלבד, ולהבטיח שהוא תמיד נפרד לחלוטין ממאגר השירותים.

הכרת הטעמים וההעדפות של הנבדק מבלי לאפשר לשיוך שם או פנים לפרופיל זה, תתפקד כצורה של אנונימיזציה המתבצעת במעלה הזרם, אשר תאפשר אוטומטית איסוף נתונים ושימוש בהם בתוך מערכות אוטומציה כגון בינה מלאכותית.

ארטיקולו די Gianfranco Fedele