Հոդվածներ

Որոնք են վեկտորային տվյալների բազաները, ինչպես են դրանք աշխատում և հնարավոր շուկան

Վեկտորային տվյալների բազան տվյալների բազայի մի տեսակ է, որը պահպանում է տվյալները որպես բարձրաչափ վեկտորներ, որոնք հատկանիշների կամ ատրիբուտների մաթեմատիկական ներկայացումներ են: 

Այս վեկտորները սովորաբար ստեղծվում են հում տվյալների վրա, ինչպիսիք են տեքստը, պատկերները, աուդիո, վիդեո և այլն, ներկառուցման գործառույթ կիրառելով:

Վեկտորային տվյալների բազաները կարող են լինել definite-ը որպես գործիք, որը ինդեքսավորում և պահպանում է վեկտորային ներկառուցվածները արագ որոնման և նմանությունների որոնման համար՝ մետատվյալների զտման և հորիզոնական մասշտաբի գործառույթներով:

Ընթերցանության գնահատված ժամանակը. 9 արձանագրություն

Աճող ներդրողների հետաքրքրությունը

Վերջին շաբաթների ընթացքում աճում է ներդրողների հետաքրքրությունը վեկտորային տվյալների բազաների նկատմամբ: 2023 թվականի սկզբից մենք նկատել ենք, որ.

Եկեք ավելի մանրամասն տեսնենք, թե ինչ են վեկտորային տվյալների բազաները:

Վեկտորները որպես տվյալների ներկայացում

Վեկտորային տվյալների բազաները մեծապես հիմնված են վեկտորային ներկառուցման վրա, տվյալների ներկայացման մի տեսակ, որն իր մեջ կրում է իմաստային տեղեկատվությունը, որը կարևոր է AI-ի համար հասկանալու և երկարաժամկետ հիշողություն պահպանելու համար, որը պետք է օգտագործվի բարդ գործողություններ կատարելիս: 

Վեկտորային ներկառուցումներ

Վեկտորային ներկառուցումները նման են քարտեզի, բայց մեզ ցույց տալու փոխարեն, թե որտեղ են գտնվում իրերը աշխարհում, նրանք ցույց են տալիս, թե որտեղ են գտնվում իրերը մի բանում, որը կոչվում է. վեկտորային տարածություն. Վեկտորային տարածությունը մի տեսակ մեծ խաղահրապարակ է, որտեղ ամեն ինչ իր տեղն ունի խաղալու համար: Պատկերացրեք, որ ունեք կենդանիների խումբ՝ կատու, շուն, թռչուն և ձուկ: Մենք կարող ենք ստեղծել վեկտորային ներկառուցում յուրաքանչյուր պատկերի համար՝ նրան հատուկ դիրք տալով խաղահրապարակում: Կատուն կարող է լինել մի անկյունում, շունը՝ մյուս կողմում։ Թռչունը կարող էր լինել երկնքում, իսկ ձուկը՝ լճակում: Այս վայրը բազմաչափ տարածություն է։ Յուրաքանչյուր հարթություն համապատասխանում է դրանց տարբեր կողմերին, օրինակ՝ ձկներն ունեն լողակներ, թռչունները՝ թեւեր, կատուներն ու շները՝ ոտքեր։ Դրանց մյուս կողմը կարող է լինել այն, որ ձկները պատկանում են ջրին, թռչունները՝ հիմնականում երկնքին, իսկ կատուներն ու շները՝ գետնին։ Երբ մենք ունենանք այս վեկտորները, մենք կարող ենք օգտագործել մաթեմատիկական տեխնիկա՝ դրանք խմբավորելու համար՝ հիմնվելով դրանց նմանության վրա: Հիմնվելով մեր ունեցած տեղեկատվության վրա՝

Այսպիսով, վեկտորային ներկառուցումները նման են քարտեզի, որն օգնում է մեզ գտնել վեկտորային տարածության իրերի միջև նմանություն: Ինչպես քարտեզն է օգնում մեզ նավարկելու աշխարհը, այնպես էլ վեկտորային ներկառուցումները օգնում են նավարկելու վեկտորային խաղահրապարակում:

Հիմնական գաղափարն այն է, որ ներկառուցվածները, որոնք իմաստաբանորեն նման են միմյանց, ունեն ավելի փոքր հեռավորություն նրանց միջև: Պարզելու համար, թե որքանով են դրանք նման, մենք կարող ենք օգտագործել վեկտորային հեռավորության գործառույթները, ինչպիսիք են Էվկլիդյան հեռավորությունը, կոսինուսային հեռավորությունը և այլն:

Վեկտորային տվյալների բազաներ ընդդեմ վեկտոր գրադարանների

Վեկտորային գրադարաններ պահել վեկտորների ներկառուցումները ինդեքսներում հիշողության մեջ՝ նմանության որոնումներ կատարելու համար: Վեկտորային գրադարաններն ունեն հետևյալ բնութագրերը/սահմանափակումները.

  1. Պահպանեք միայն վեկտորները Վեկտորային գրադարանները պահում են միայն վեկտորների ներկառուցումները, և ոչ այն առնչվող օբյեկտները, որոնցից դրանք ստեղծվել են: Սա նշանակում է, որ երբ մենք հարցում ենք անում, վեկտորային գրադարանը կպատասխանի համապատասխան վեկտորներով և օբյեկտների ID-ներով: Սա սահմանափակում է, քանի որ իրական տեղեկատվությունը պահվում է օբյեկտում և ոչ թե id-ում: Այս խնդիրը լուծելու համար մենք պետք է օբյեկտները պահենք երկրորդական պահեստում: Այնուհետև մենք կարող ենք օգտագործել հարցումով վերադարձված ID-ները և դրանք համապատասխանեցնել օբյեկտներին՝ արդյունքները հասկանալու համար:
  2. Ինդեքսային տվյալները անփոփոխ են Վեկտորային գրադարանների կողմից ստեղծված ինդեքսներն անփոփոխ են: Սա նշանակում է, որ մեր տվյալները ներմուծելուց և ինդեքսը կառուցելուց հետո մենք չենք կարող որևէ փոփոխություն կատարել (ոչ մի նոր ներդիր, ջնջում կամ փոփոխություն): Մեր ինդեքսում փոփոխություններ կատարելու համար մենք ստիպված կլինենք վերակառուցել այն զրոյից
  3. Հարցում ներմուծումը սահմանափակելիս Վեկտոր գրադարաններից շատերը չեն կարող հարցվել տվյալներ ներմուծելիս: Մենք նախ պետք է ներմուծենք մեր բոլոր տվյալների օբյեկտները: Այսպիսով, ինդեքսը ստեղծվում է օբյեկտների ներմուծումից հետո: Սա կարող է խնդիր լինել այն հավելվածների համար, որոնք պահանջում են միլիոնավոր կամ նույնիսկ միլիարդավոր օբյեկտների ներմուծում:

Կան բազմաթիվ վեկտորային որոնման գրադարաններ. Ֆեյսբուքի ՖԱԻՍՍ, զայրացնել Spotify-ի կողմից և ScanNN Google-ի կողմից։ FAISS-ն օգտագործում է կլաստերավորման մեթոդ, Annoy-ն՝ ծառեր, իսկ ScanNN-ը՝ վեկտորային սեղմում։ Յուրաքանչյուրի համար կա կատարողականի փոխզիջում, որը մենք կարող ենք ընտրել՝ ելնելով մեր հավելվածից և կատարողական ցուցանիշներից:

CRUD

Հիմնական առանձնահատկությունը, որը տարբերում է վեկտորային տվյալների բազաները վեկտորային գրադարաններից, տվյալների արխիվացման, թարմացման և ջնջման հնարավորությունն է: Վեկտորային տվյալների բազաները ունեն CRUD աջակցություն ամբողջական (ստեղծել, կարդալ, թարմացնել և ջնջել), որը լուծում է վեկտորային գրադարանի սահմանափակումները:

  1. Արխիվային վեկտորներ և առարկաներ Տվյալների բազաները կարող են պահել և՛ տվյալների օբյեկտները, և՛ վեկտորները: Քանի որ երկուսն էլ պահվում են, մենք կարող ենք համատեղել վեկտորային որոնումը կառուցվածքային զտիչների հետ: Զտիչները թույլ են տալիս համոզվել, որ ամենամոտ հարեւանները համապատասխանում են մետատվյալների ֆիլտրին:
  2. Փոփոխականություն քանի որ վեկտորային տվյալների բազաները լիովին աջակցում են հում, մենք կարող ենք հեշտությամբ ավելացնել, հեռացնել կամ թարմացնել գրառումները մեր ինդեքսում այն ​​ստեղծելուց հետո: Սա հատկապես օգտակար է անընդհատ փոփոխվող տվյալների հետ աշխատելիս:
  3. Իրական ժամանակի որոնում Ի տարբերություն վեկտորային գրադարանների, տվյալների բազաները մեզ թույլ են տալիս հարցումներ կատարել և փոփոխել մեր տվյալները ներմուծման գործընթացում: Քանի որ մենք բեռնում ենք միլիոնավոր օբյեկտներ, ներմուծված տվյալները մնում են լիովին հասանելի և գործառնական, այնպես որ դուք ստիպված չեք լինի սպասել ներմուծման ավարտին, որպեսզի սկսեք աշխատել արդեն իսկ եղածի վրա:

Կարճ ասած, վեկտորային տվյալների բազան ապահովում է վեկտորային ներկառուցվածությունների կառավարման գերազանց լուծում՝ անդրադառնալով ինքնամփոփ վեկտորային ինդեքսների սահմանափակումներին, ինչպես քննարկվել է նախորդ կետերում:

Բայց ի՞նչն է վեկտորային տվյալների բազաները գերազանցում ավանդական տվյալների բազաներին:

Վեկտորային տվյալների բազաներ ընդդեմ ավանդական տվյալների բազաների

Ավանդական տվյալների բազաները նախատեսված են կառուցվածքային տվյալներ պահելու և առբերելու համար՝ օգտագործելով հարաբերական մոդելներ, ինչը նշանակում է, որ դրանք օպտիմիզացված են հարցումների համար՝ հիմնված տվյալների սյունակների և տողերի վրա: Թեև հնարավոր է ավանդական տվյալների շտեմարաններում պահել վեկտորային ներկառուցումները, այդ տվյալների բազաները օպտիմիզացված չեն վեկտորային գործողությունների համար և չեն կարող արդյունավետորեն կատարել նմանության որոնումներ կամ այլ բարդ գործողություններ մեծ տվյալների բազաներում:

Դա պայմանավորված է նրանով, որ ավանդական տվյալների բազաները օգտագործում են ինդեքսավորման մեթոդներ՝ հիմնված տվյալների պարզ տեսակների վրա, ինչպիսիք են տողերը կամ թվերը: Այս ինդեքսավորման մեթոդները հարմար չեն վեկտորային տվյալների համար, որոնք ունեն բարձր հարթություն և պահանջում են մասնագիտացված ինդեքսավորման մեթոդներ, ինչպիսիք են շրջված ինդեքսները կամ տարածական ծառերը:

Բացի այդ, ավանդական տվյալների շտեմարանները նախատեսված չեն մեծ քանակությամբ չկառուցված կամ կիսակառույց տվյալների մշակման համար, որոնք հաճախ կապված են վեկտորների ներկառուցման հետ: Օրինակ, պատկերը կամ աուդիո ֆայլը կարող է պարունակել միլիոնավոր տվյալների կետեր, որոնք ավանդական տվյալների բազաները չեն կարող արդյունավետ կերպով կարգավորել:

Մյուս կողմից, վեկտորային տվյալների բազաները հատուկ նախագծված են վեկտորային տվյալներ պահելու և առբերելու համար և օպտիմիզացված են նմանության որոնումների և այլ բարդ գործողությունների համար մեծ տվյալների հավաքածուներում: Նրանք օգտագործում են մասնագիտացված ինդեքսավորման տեխնիկա և ալգորիթմներ, որոնք նախատեսված են մեծ չափերի տվյալների հետ աշխատելու համար՝ դրանք դարձնելով շատ ավելի արդյունավետ, քան ավանդական տվյալների բազաները՝ վեկտորային ներկառուցվածները պահելու և առբերելու համար:

Այժմ, երբ դուք այդքան շատ եք կարդացել վեկտորային տվյալների բազաների մասին, կարող եք մտածել, թե ինչպես են դրանք աշխատում: Եկեք նայենք:

Ինչպե՞ս է աշխատում վեկտորային տվյալների բազան:

Մենք բոլորս գիտենք, թե ինչպես են աշխատում հարաբերական տվյալների բազաները. դրանք պահպանում են տողեր, թվեր և այլ տեսակի սկալային տվյալներ տողերում և սյունակներում: Մյուս կողմից, վեկտորային տվյալների բազան գործում է վեկտորների վրա, ուստի դրա օպտիմալացման և հարցումների ձևը միանգամայն տարբեր է:

Ավանդական տվյալների բազաներում մենք սովորաբար հարցում ենք անում տվյալների բազայի տողերի համար, որտեղ արժեքը սովորաբար ճշգրիտ համապատասխանում է մեր հարցմանը: Վեկտորային տվյալների բազաներում մենք կիրառում ենք նմանության չափիչ՝ գտնելու վեկտոր, որն առավել նման է մեր հարցմանը:

Վեկտորային տվյալների բազան օգտագործում է մի քանի ալգորիթմների համադրություն, որոնք բոլորը մասնակցում են մոտակա հարևանների որոնմանը (ANN): Այս ալգորիթմները օպտիմալացնում են որոնումը հեշավորման, քվանտացման կամ գրաֆիկի վրա հիմնված որոնման միջոցով:

Այս ալգորիթմները հավաքվում են խողովակաշարի մեջ, որն ապահովում է հարցվող վեկտորի հարևանների արագ և ճշգրիտ հայտնաբերում: Քանի որ վեկտորային տվյալների բազան տրամադրում է մոտավոր արդյունքներ, հիմնական փոխզիջումները, որոնք մենք համարում ենք, ճշգրտության և արագության միջև են: Որքան ճշգրիտ լինի արդյունքը, այնքան ավելի դանդաղ կլինի հարցումը: Այնուամենայնիվ, լավ համակարգը կարող է ապահովել ծայրահեղ արագ որոնում գրեթե կատարյալ ճշգրտությամբ:

  • Ինդեքսավորում Վեկտորային տվյալների բազան ինդեքսավորում է վեկտորները՝ օգտագործելով ալգորիթմ, ինչպիսիք են PQ, LSH կամ HNSW: Այս քայլը վեկտորները կապում է տվյալների կառուցվածքի հետ, որը թույլ կտա ավելի արագ որոնել:
  • Query Վեկտորային տվյալների բազան համեմատում է ինդեքսավորված հարցման վեկտորը տվյալների հավաքածուի ինդեքսավորված վեկտորների հետ՝ գտնելու ամենամոտ հարևանները (կիրառելով այդ ինդեքսի կողմից օգտագործվող նմանության չափանիշը)
  • Հետմշակում Որոշ դեպքերում, վեկտորային տվյալների բազան վերցնում է վերջին մոտակա հարևանները տվյալների բազայից և հետմշակում դրանք՝ վերջնական արդյունքները վերադարձնելու համար: Այս քայլը կարող է ներառել ամենամոտ հարևանների վերադասակարգումը՝ օգտագործելով տարբեր նմանության չափումներ:

Առավելությունները

Վեկտորային տվյալների բազաները հզոր գործիք են նմանության որոնումների և այլ բարդ գործողությունների համար մեծ տվյալների հավաքածուների վրա, որոնք չեն կարող արդյունավետ կերպով իրականացվել՝ օգտագործելով ավանդական տվյալների բազաները: Ֆունկցիոնալ վեկտորային տվյալների շտեմարան կառուցելու համար ներկառուցումները կարևոր են, քանի որ դրանք ֆիքսում են տվյալների իմաստային նշանակությունը և հնարավորություն են տալիս ճշգրիտ նմանությունների որոնումներ: Ի տարբերություն վեկտորային գրադարանների, վեկտորային տվյալների բազաները նախագծված են մեր օգտագործման դեպքերին համապատասխանելու համար՝ դրանք դարձնելով իդեալական այն ծրագրերի համար, որտեղ կատարողականությունը և մասշտաբայնությունը կարևոր են: Մեքենայական ուսուցման և արհեստական ​​ինտելեկտի աճով, վեկտորային տվյալների բազաները դառնում են ավելի ու ավելի կարևոր հավելվածների լայն շրջանակի համար, ներառյալ առաջարկող համակարգերը, պատկերների որոնումը, իմաստային նմանությունը և ցանկը շարունակվում է: Քանի որ ոլորտը շարունակում է զարգանալ, մենք կարող ենք ակնկալել, որ ապագայում կտեսնենք վեկտորային տվյալների բազաների էլ ավելի նորարարական կիրառություններ:

Ercole Palmeri

Նորարարության տեղեկագիր
Բաց մի թողեք նորարարության մասին ամենակարևոր նորությունները: Գրանցվեք դրանք էլփոստով ստանալու համար:

Վերջին հոդվածները

Veeam-ն ունի ամենաընդգրկուն աջակցություն փրկագինին՝ պաշտպանությունից մինչև պատասխան և վերականգնում

Veeam-ի Coveware-ը կշարունակի տրամադրել կիբեր շորթման միջադեպերի արձագանքման ծառայություններ: Coveware-ը կառաջարկի դատաբժշկական և վերականգնման հնարավորություններ…

23 Ապրիլ 2024

Կանաչ և թվային հեղափոխություն. Ինչպես է կանխատեսելի սպասարկումը փոխակերպում նավթի և գազի արդյունաբերությունը

Կանխատեսելի սպասարկումը հեղափոխություն է անում նավթի և գազի ոլորտում՝ կայանի կառավարման նորարարական և ակտիվ մոտեցմամբ:…

22 Ապրիլ 2024

Մեծ Բրիտանիայի հակամենաշնորհային կարգավորիչը բարձրացնում է BigTech-ի ահազանգը GenAI-ի վերաբերյալ

Մեծ Բրիտանիայի CMA-ն նախազգուշացում է տարածել արհեստական ​​ինտելեկտի շուկայում Big Tech-ի վարքագծի վերաբերյալ: Այնտեղ…

18 Ապրիլ 2024

Casa Green. էներգետիկ հեղափոխություն կայուն ապագայի համար Իտալիայում

Շենքերի էներգաարդյունավետության բարձրացման նպատակով Եվրոպական միության կողմից ձևակերպված «Քեյս Գրին» հրամանագիրը իր օրենսդրական գործընթացն ավարտել է…

18 Ապրիլ 2024

Կարդացեք նորարարությունը ձեր լեզվով

Նորարարության տեղեկագիր
Բաց մի թողեք նորարարության մասին ամենակարևոր նորությունները: Գրանցվեք դրանք էլփոստով ստանալու համար:

Հետեւեք մեզ