អត្ថបទ

រង្វិលជុំឯកជនភាព៖ បញ្ញាសិប្បនិមិត្តនៅក្នុងលំហនៃភាពឯកជន និងការរក្សាសិទ្ធិ

នេះគឺជាអត្ថបទដំបូងក្នុងចំណោមអត្ថបទពីរដែលខ្ញុំនិយាយអំពីទំនាក់ទំនងដ៏ឆ្ងាញ់រវាងភាពឯកជន និងកម្មសិទ្ធិបញ្ញានៅលើដៃម្ខាង និងបញ្ញាសិប្បនិម្មិតនៅលើដៃម្ខាងទៀត។

ទំនាក់ទំនងដែលមានបញ្ហាដែលការវិវត្តនៃបច្ចេកវិទ្យាកំពុងបង្ហាញឱ្យឃើញពីភាពរហ័សរហួនក្នុងការធ្វើឱ្យការកែតម្រូវបទប្បញ្ញត្តិណាមួយលែងប្រើពីកម្មវិធីដំបូងរបស់វា។

ការដោះស្រាយបញ្ហាបន្លាដែលពាក់ព័ន្ធនឹងសិទ្ធិរបស់មនុស្ស និងទិន្នន័យផ្ទាល់ខ្លួន តម្រូវឱ្យមានការយកចិត្តទុកដាក់ សមត្ថភាព និងការពិភាក្សាដែលមិនអាចខ្វះបានរវាងបញ្ញវន្ត និងអ្នកឯកទេសនៃសម័យកាលរបស់យើង។ យើងកំពុងរកឃើញថាយើងមិនទាន់គ្រប់គ្រាន់ក្នុងការសម្របតាមច្បាប់សង្គមចំពោះបញ្ហាប្រឈមដែលការបង្កើតថ្មីខាងបច្ចេកវិទ្យាបង្កឱ្យយើងមាន។ បច្ចេកវិជ្ជាដែលកំពុងរីកចម្រើនកាន់តែខ្លាំងឡើងរកឃើញថាខ្លួនគេប្រតិបត្តិការក្នុងវិស័យបើកចំហ ក្នុងករណីអវត្តមានទាំងស្រុងនៃបទប្បញ្ញត្តិដែលកំណត់ការដាក់ពាក្យរបស់ពួកគេដោយមិនគិតថ្លៃក្នុងការបង្កការខូចខាត ហើយដូច្នេះដើម្បីធ្វើដូច្នេះដោយនិទណ្ឌភាពទាំងស្រុង។

តើវាអាចទៅរួចទេក្នុងការស្រមៃមើលការគ្រប់គ្រងដែលត្រឡប់ខ្សែសង្វាក់នៃការអភិវឌ្ឍន៍បច្ចេកវិទ្យាទៅកាន់ការស្រាវជ្រាវវិទ្យាសាស្ត្រ និងគោលបំណងយុទ្ធសាស្ត្ររបស់វា?

តើវាអាចទៅរួចទេក្នុងការគ្រប់គ្រងការវិវត្តនៃប្រភេទសត្វរបស់យើង ខណៈពេលដែលរក្សាការគោរពយ៉ាងម៉ឺងម៉ាត់ចំពោះសេរីភាពបុគ្គល?

ឯកជនភាព?

“នៅពេលដែលអ្នកព្យាយាមលាក់កាន់តែច្រើន អ្នកកាន់តែទាក់ទាញការចាប់អារម្មណ៍។ ហេតុអ្វីបានជាវាសំខាន់ខ្លាំងដែលគ្មានអ្នកណាដឹងអំពីអ្នក?» - ពីខ្សែភាពយន្ត "Anon" និពន្ធនិងដឹកនាំដោយ Andrew Niccol - 2018

នៅក្នុងខ្សែភាពយន្ត "Anonនៅឆ្នាំ 2018 សង្គមនៃអនាគតគឺជាកន្លែងងងឹត ក្រោមការគ្រប់គ្រងផ្ទាល់នៃប្រព័ន្ធកុំព្យូទ័រដ៏ធំសម្បើមមួយហៅថា Ether ដែលមានសមត្ថភាពត្រួតពិនិត្យគ្រប់ជ្រុងនៃប្រទេសដោយសង្កេតតាមរយៈភ្នែករបស់មនុស្សដូចគ្នាដែលរស់នៅ។ មនុស្សគ្រប់រូបគឺជាអ្នកមើលការខុសត្រូវក្នុងនាមអេធើរ ហើយជាការពិតណាស់ ទំនួលខុសត្រូវដំបូងរបស់ពួកគេគឺត្រូវត្រួតពិនិត្យខ្លួនឯង និងអាកប្បកិរិយារបស់ពួកគេ។

អេធើរគឺជាសម្ព័ន្ធមិត្តដ៏ល្អបំផុតរបស់កងកម្លាំងប៉ូលីស៖ តាមរយៈអេធើរ ភ្នាក់ងារអាចតាមដានបទពិសោធន៍របស់បុគ្គលណាម្នាក់ដោយបង្ហាញវាដោយភ្នែករបស់ពួកគេផ្ទាល់ និងដោះស្រាយបញ្ហាឧក្រិដ្ឋកម្មគ្រប់ប្រភេទ។

មន្ត្រីប៉ូលីស Sal ឆ្ងល់ថាហេតុអ្វីបានជាអ្នកគួរប្រយុទ្ធដើម្បីការពារឯកជនភាពរបស់អ្នក: អ្វីដែលអ្នកគ្មានហេតុផលដើម្បីលាក់? យ៉ាងណាមិញ នៅក្នុងយុគសម័យមួយ ដែលបច្ចេកវិទ្យាដែលយើងបង្កើតដើម្បីបង្កើនសុវត្ថិភាពផ្ទះ និងផ្លូវរបស់យើង ទាមទារឱ្យមានការកត់ត្រា ការត្រួតពិនិត្យ និងផ្ទៀងផ្ទាត់ព័ត៌មានទាំងនោះ ដើម្បីផលប្រយោជន៍ប្រជាពលរដ្ឋខ្លួនឯង ដែលស្នើសុំការការពារ តើយើងអាចរំពឹងថានឹងធានាបានដោយរបៀបណា? ឯកជនភាពរបស់ពួកគេ?

ដើម្បីបង្ហាញថាវាមានគ្រោះថ្នាក់ប៉ុនណាក្នុងការចូលទៅកាន់ជីវិតរបស់អ្នកដទៃ ហេកឃឺនឹងគ្រប់គ្រងអេធើរ ហើយសុបិន្តអាក្រក់ដ៏អាក្រក់នឹងធ្លាក់មកលើជីវិតរបស់មនុស្សរាប់លាននាក់៖ ការគំរាមកំហែងនៃការមើលរូបភាពនៃអ្នកទស្សនាដោយអស់សង្ឃឹម។ ពេលវេលាដ៏ឈឺចាប់នៃជីវិតរបស់ពួកគេ ចាក់ផ្សាយដោយផ្ទាល់ទៅក្នុងរីទីណារបស់ពួកគេ។

រង្វិលជុំ

Le បណ្តាញសរសៃប្រសាទសិប្បនិម្មិត ដែលបង្កប់នូវមុខងារនៃបញ្ញាសិប្បនិម្មិតទំនើប វិលជុំវិញធាតុសំខាន់ៗចំនួនបី៖ ព័ត៌មានមូលដ្ឋានគេហៅថា កម្រងដែលជា ក្បួនដោះស្រាយ សម្រាប់ assimilation នៃព័ត៌មាននិងមួយ។ ចងចាំ សម្រាប់ការទន្ទេញចាំរបស់ពួកគេ។

ក្បួនដោះស្រាយមិនត្រូវបានកំណត់ចំពោះការផ្ទុកព័ត៌មានទៅក្នុងអង្គចងចាំនោះទេ វាស្កែនវាដើម្បីស្វែងរកធាតុដែលទាក់ទងគ្នាទៅវិញទៅមក។ ការលាយបញ្ចូលគ្នានៃទិន្នន័យ និងទំនាក់ទំនងនឹងត្រូវបានផ្ទេរទៅអង្គចងចាំដែលនឹងបង្កើតបានជា a ពុម្ព.

នៅក្នុងគំរូមួយ ទិន្នន័យ និងទំនាក់ទំនងគឺមិនអាចបែងចែកដាច់ពីគ្នាបានទាំងស្រុង ដែលនេះជាមូលហេតុដែលការបង្កើតសារឡើងវិញនៃព័ត៌មានបណ្តុះបណ្តាលដើមពីបណ្តាញសរសៃប្រសាទដែលត្រូវបានបណ្តុះបណ្តាលគឺស្ទើរតែមិនអាចទៅរួចទេ។

នេះជាការពិតជាពិសេសនៅពេលដែលសាកសពផ្ទុកទិន្នន័យយ៉ាងច្រើន។ នេះជាករណីនៃប្រព័ន្ធភាសាធំៗដែលគេស្គាល់ថាជា Large Language Models (LLM សម្រាប់រយៈពេលខ្លី) រួមទាំង ChatGpt ដ៏ល្បីល្បាញ។ ពួកគេជំពាក់ប្រសិទ្ធភាពរបស់ពួកគេចំពោះចំនួនដ៏ច្រើននៃព័ត៌មានដែលបានប្រើក្នុងការបណ្តុះបណ្តាល៖ ការបណ្តុះបណ្តាលល្អបច្ចុប្បន្នត្រូវការទិន្នន័យយ៉ាងហោចណាស់ពីរបី terabytes ហើយផ្តល់ឱ្យថា 90 terabyte ត្រូវគ្នាទៅនឹង 75 ពាន់លានតួអក្សរ ប្រហែល XNUMX លានទំព័រនៃអត្ថបទ វាងាយស្រួលយល់ថាមាន ព័ត៌មានជាច្រើនដែលត្រូវការ។

ប៉ុន្តែប្រសិនបើម៉ូដែលមិនអាចដកវិស្វកម្មបានទេ ហេតុអ្វីបានជាយើងគួរសួរខ្លួនយើងអំពីបញ្ហានៃការរំលោភឯកជនភាព?

ការគ្រប់គ្រងទិន្នន័យ

"អ្នកណាដែលឆ្កួតអាចសុំឱ្យរួចពីបេសកកម្មហោះហើរ ប៉ុន្តែអ្នកណាដែលសុំឱ្យរួចពីបេសកកម្មហោះហើរគឺមិនឆ្កួតទេ"។ - ផ្អែកលើប្រលោមលោក "Catch 22" ដោយ Joseph Heller ។

ព្រឹត្តិប័ត្រព័ត៌មានច្នៃប្រឌិត
កុំខកខានព័ត៌មានសំខាន់បំផុតស្តីពីការច្នៃប្រឌិត។ ចុះឈ្មោះដើម្បីទទួលបានពួកគេតាមអ៊ីមែល។

ការប្រមូលទិន្នន័យដែលមានទំហំប៉ុននេះ ដើម្បីអនុញ្ញាតឱ្យបង្កើតគម្រោងដូចជា ChatGpt ឬគម្រោងស្រដៀងគ្នាផ្សេងទៀត សព្វថ្ងៃនេះ គឺជាសិទ្ធិរបស់ក្រុមហ៊ុនពហុជាតិធំៗ ដែលជាមួយនឹងសកម្មភាពឌីជីថលរបស់ពួកគេ អាចទទួលបានដៃរបស់ពួកគេនៅលើឃ្លាំងផ្ទុកព័ត៌មានដ៏ធំបំផុត។ នៅលើពិភពលោក៖ គេហទំព័រ។

Google និង Microsoft ដែលអស់រយៈពេលជាច្រើនឆ្នាំបានគ្រប់គ្រងម៉ាស៊ីនស្វែងរកដែលស្កែនគេហទំព័រ និងបន្ថែមបរិមាណព័ត៌មានដ៏ធំសម្បើម គឺជាបេក្ខជនដំបូងសម្រាប់ការបង្កើត LLM ដែលជាគំរូ AI តែមួយគត់ដែលមានសមត្ថភាពរំលាយបរិមាណព័ត៌មានដូចដែលបានពិពណ៌នាខាងលើ។

វាពិបាកក្នុងការជឿថា Google ឬ Microsoft នឹងអាចបិទបាំងព័ត៌មានផ្ទាល់ខ្លួននៅក្នុងទិន្នន័យរបស់ពួកគេ មុនពេលប្រើវាជាសាកសពក្នុងការបណ្តុះបណ្តាលបណ្តាញសរសៃប្រសាទ។ ការផ្តល់ព័ត៌មានអនាមិកនៅក្នុងករណីនៃប្រព័ន្ធភាសាបកប្រែទៅជាការកំណត់អត្តសញ្ញាណទិន្នន័យផ្ទាល់ខ្លួននៅក្នុងសាកសព និងការជំនួសរបស់វាជាមួយនឹងទិន្នន័យក្លែងក្លាយ។ តោះស្រមៃមើល corpus ទំហំប៉ុន្មាន terabytes ដែលយើងចង់បណ្តុះបណ្តាលគំរូ ហើយយើងព្យាយាមស្រមៃមើលថាតើការងារប៉ុន្មាននឹងចាំបាច់ក្នុងការធ្វើអនាមិកទិន្នន័យដែលវាមានដោយដៃ៖ វាមិនអាចទៅរួចនោះទេ។ ប៉ុន្តែប្រសិនបើយើងចង់ពឹងផ្អែកលើ algorithm ដើម្បីធ្វើវាដោយស្វ័យប្រវត្តិនោះ ប្រព័ន្ធតែមួយគត់ដែលមានសមត្ថភាពធ្វើការងារនេះនឹងក្លាយជាគំរូដ៏ធំ និងទំនើបដូចគ្នា។

យើងស្ថិតនៅក្នុងវត្តមាននៃបញ្ហា Catch-22 បុរាណ៖ "ដើម្បីបណ្តុះបណ្តាល LLM ជាមួយទិន្នន័យអនាមិក យើងត្រូវការ LLM ដែលមានសមត្ថភាពធ្វើអនាមិក ប៉ុន្តែប្រសិនបើយើងមាន LLM ដែលមានសមត្ថភាពធ្វើទិន្នន័យអនាមិក ការបណ្តុះបណ្តាលរបស់វាមិនត្រូវបានធ្វើដោយទិន្នន័យអនាមិកទេ។ .”

GDPR គឺលែងប្រើហើយ។

GDPR ដែលកំណត់ (ស្ទើរតែ) ជាសកលនូវច្បាប់សម្រាប់ការគោរពឯកជនភាពរបស់មនុស្ស ដោយគិតពីប្រធានបទទាំងនេះគឺជាព័ត៌មានចាស់រួចទៅហើយ ហើយការការពារទិន្នន័យផ្ទាល់ខ្លួនដែលពាក់ព័ន្ធនឹងសំណុំបណ្តុះបណ្តាលមិនត្រូវបានគេគិតគូរនោះទេ។

នៅក្នុង GDPR ការដំណើរការទិន្នន័យផ្ទាល់ខ្លួនសម្រាប់គោលបំណងសិក្សាទំនាក់ទំនងទូទៅ និងការតភ្ជាប់គឺត្រូវបានគ្រប់គ្រងដោយផ្នែកប៉ុណ្ណោះដោយមាត្រា 22 ដែលចែងថា: "ប្រធានបទទិន្នន័យមានសិទ្ធិមិនទទួលរងនូវការសម្រេចចិត្តដោយផ្អែកលើដំណើរការដោយស្វ័យប្រវត្តិ រួមទាំងការបញ្ចូលទម្រង់ដែល បង្កើតផលប៉ះពាល់ផ្លូវច្បាប់លើគាត់ ឬដែលប៉ះពាល់គាត់ក្នុងវិធីស្រដៀងគ្នានិងសំខាន់»។

អត្ថបទនេះណែនាំការហាមឃាត់សម្រាប់អ្នកត្រួតពិនិត្យទិន្នន័យក្នុងការប្រើប្រាស់ទិន្នន័យផ្ទាល់ខ្លួនរបស់ប្រធានបទដែលជាផ្នែកមួយនៃដំណើរការធ្វើការសម្រេចចិត្តដោយស្វ័យប្រវត្តិពេញលេញដែលមានឥទ្ធិពលផ្លូវច្បាប់ដោយផ្ទាល់លើប្រធានបទនេះ។ ប៉ុន្តែបណ្តាញសរសៃប្រសាទ ដែលអាចបង្រួមបានយ៉ាងងាយស្រួលទៅនឹងដំណើរការធ្វើការសម្រេចចិត្តដោយស្វ័យប្រវត្តិ នៅពេលដែលបានទទួលការបណ្តុះបណ្តាល ទទួលបានសមត្ថភាពក្នុងការធ្វើការសម្រេចចិត្តដោយស្វ័យប្រវត្តិដែលអាចប៉ះពាល់ដល់ជីវិតរបស់មនុស្ស។ ប៉ុន្តែការសម្រេចចិត្តទាំងនេះមិនតែងតែ "ឡូជីខល" ទេ។ ក្នុងពេលបណ្តុះបណ្តាល តាមពិតបណ្តាញសរសៃប្រសាទនីមួយៗរៀនភ្ជាប់ព័ត៌មានជាមួយគ្នា ជារឿយៗទាក់ទងពួកគេទៅគ្នាទៅវិញទៅមកក្នុងលក្ខណៈមិនលីនេអ៊ែរ។ ហើយអវត្តមាននៃ "តក្កវិជ្ជា" មិនធ្វើឱ្យការងារកាន់តែងាយស្រួលសម្រាប់សមាជិកសភាដែលចង់លើកខែលការពារភាពឯកជនរបស់មនុស្សនោះទេ។

ប្រសិនបើនរណាម្នាក់ក៏បានជ្រើសរើសអនុវត្តគោលការណ៍រឹតត្បិតខ្លាំងផងដែរ ឧទាហរណ៍ ការហាមឃាត់ការប្រើប្រាស់ទិន្នន័យរសើបណាមួយ លុះត្រាតែមានការអនុញ្ញាតពីម្ចាស់យ៉ាងច្បាស់ នោះការប្រើប្រាស់បណ្តាញសរសៃប្រសាទស្របច្បាប់នឹងមិនអាចអនុវត្តបាន។ ហើយការបោះបង់បច្ចេកវិទ្យាបណ្តាញប្រសាទនឹងជាការខាតបង់ដ៏ធំមួយ ដោយគ្រាន់តែគិតពីគំរូការវិភាគដែលត្រូវបានបណ្តុះបណ្តាលជាមួយនឹងទិន្នន័យគ្លីនិកនៃចំនួនប្រជាជនដែលត្រូវបានប៉ះពាល់ដោយផ្នែកដោយជំងឺជាក់លាក់មួយ។ គំរូទាំងនេះជួយកែលម្អគោលនយោបាយបង្ការដោយកំណត់អត្តសញ្ញាណទំនាក់ទំនងរវាងធាតុដែលមាននៅក្នុងទិន្នន័យ និងជំងឺខ្លួនវា ទំនាក់ទំនងដែលមិននឹកស្មានដល់ដែលនៅក្នុងក្រសែភ្នែករបស់គ្រូពេទ្យអាចហាក់ដូចជាមិនសមហេតុផលទាំងស្រុង។

ការគ្រប់គ្រងតម្រូវការ

ការបង្កបញ្ហានៃការគោរពឯកជនភាពរបស់មនុស្សបន្ទាប់ពីការអនុញ្ញាតដោយមិនរើសអើងការប្រមូលរបស់វាអស់រយៈពេលជាច្រើនឆ្នាំគឺជាការលាក់ពុតក្នុងការនិយាយតិចតួចបំផុត។ GDPR ខ្លួនវាជាមួយនឹងភាពស្មុគស្មាញរបស់វាទទួលខុសត្រូវចំពោះឧបាយកលជាច្រើនដែលអនុញ្ញាតឱ្យទទួលបានការអនុញ្ញាតដើម្បីដំណើរការទិន្នន័យផ្ទាល់ខ្លួនដោយទាញយកភាពមិនច្បាស់លាស់នៃឃ្លា និងការលំបាកក្នុងការយល់ដឹង។

យើងពិតជាត្រូវការភាពសាមញ្ញនៃច្បាប់ដែលអនុញ្ញាតឱ្យការអនុវត្តរបស់វា និងការអប់រំពិតប្រាកដក្នុងការប្រើប្រាស់ព័ត៌មានផ្ទាល់ខ្លួនដោយដឹងខ្លួន។

សំណើរបស់ខ្ញុំគឺមិនអនុញ្ញាតឱ្យក្រុមហ៊ុនដឹងពីទិន្នន័យផ្ទាល់ខ្លួនរបស់អ្នកប្រើប្រាស់ដែលចុះឈ្មោះសម្រាប់សេវាកម្មរបស់ពួកគេទេ បើទោះបីជាពួកគេត្រូវបានបង់ថ្លៃសេវាក៏ដោយ។ ការប្រើប្រាស់ទិន្នន័យផ្ទាល់ខ្លួនក្លែងក្លាយដោយបុគ្គលឯកជនគួរតែកើតឡើងដោយស្វ័យប្រវត្តិនៅពេលពួកគេប្រើប្រាស់ប្រព័ន្ធអនឡាញ។ ការប្រើប្រាស់ទិន្នន័យពិតប្រាកដគួរតែត្រូវបានបង្ខាំងនៅក្នុងដំណើរការទិញតែម្នាក់ឯង ដោយធានាថាវាតែងតែដាច់ដោយឡែកពីមូលដ្ឋានទិន្នន័យសេវាកម្ម។

ការដឹងពីរសជាតិ និងចំណូលចិត្តនៃប្រធានបទដោយមិនអនុញ្ញាតឱ្យឈ្មោះ ឬមុខត្រូវបានផ្សារភ្ជាប់ជាមួយនឹងទម្រង់នេះ នឹងដំណើរការជាទម្រង់នៃភាពអនាមិកដែលបានធ្វើឡើងដែលនឹងអនុញ្ញាតឱ្យមានការប្រមូលទិន្នន័យដោយស្វ័យប្រវត្តិ និងការប្រើប្រាស់របស់ពួកគេនៅក្នុងប្រព័ន្ធស្វ័យប្រវត្តិកម្ម ដូចជា បញ្ញាសិប្បនិម្មិតជាដើម។

អាតកូឡូឌី Gianfranco Fedele