Artikoli

X'inhuma l-vector databases, kif jaħdmu u s-suq potenzjali

Database ta' vettur hija tip ta' database li taħżen data bħala vettori ta' dimensjoni għolja, li huma rappreżentazzjonijiet matematiċi ta' karatteristiċi jew attributi. 

Dawn il-vettori huma ġeneralment iġġenerati billi tiġi applikata xi tip ta 'funzjoni ta' inkorporazzjoni għal data mhux ipproċessata, bħal test, stampi, awdjo, vidjo, u oħrajn.

Databases tal-vettur jistgħu jkunu definite bħala għodda li tindika u taħżen inkorporati ta' vettori għal irkupru rapidu u tfittxija ta' xebh, b'karatteristiċi bħall-iffiltrar tal-metadejta u l-iskala orizzontali.

Ħin tal-qari stmat: 9 minuta

Interess tal-Investitur li qed jikber

Fl-aħħar ġimgħat, kien hemm żieda fl-interess tal-investituri fil-vector databases. Mill-bidu tal-2023 aħna ndunajna li:

Ejja naraw f'aktar dettall x'inhuma l-vector databases.

Vettori bħala rappreżentazzjoni tad-dejta

Id-databases tal-vector jiddependu ħafna fuq l-inkorporazzjoni tal-vettur, tip ta’ rappreżentazzjoni tad-dejta li ġġorr fiha l-informazzjoni semantika kritika għall-AI biex tikseb fehim u żżomm memorja fit-tul biex tibbaża fuqha meta tesegwixxi attivitajiet kumplessi. 

Inkorporati tal-vettur

L-inkorporazzjonijiet tal-vector huma bħal mappa, iżda minflok juruna fejn jinsabu l-affarijiet fid-dinja, juruna fejn qegħdin l-affarijiet f'xi ħaġa msejħa spazju vettur. L-ispazju tal-vettur huwa tip ta’ bitħa kbira fejn kollox għandu l-post fejn jilgħab. Immaġina li għandek grupp ta’ annimali: qattus, kelb, għasfur u ħuta. Nistgħu noħolqu vector embed għal kull immaġini billi nagħtuha pożizzjoni speċjali fuq il-bitħa. Il-qattus jista 'jkun f'rokna waħda, il-kelb fuq in-naħa l-oħra. L-għasfur jista 'jkun fis-sema u l-ħut jista' jkun fl-għadira. Dan il-post huwa spazju multidimensjonali. Kull dimensjoni tikkorrispondi għal aspetti differenti tagħhom, pereżempju, il-ħut għandhom xewk, l-għasafar għandhom ġwienaħ, il-qtates u l-klieb għandhom saqajn. Aspett ieħor minnhom jista 'jkun li l-ħut jappartjeni għall-ilma, l-għasafar prinċipalment għas-sema, u l-qtates u l-klieb għall-art. Ladarba jkollna dawn il-vettori, nistgħu nużaw tekniki matematiċi biex niġbruhom ibbażati fuq ix-xebh tagħhom. Ibbażat fuq l-informazzjoni li nżommu,

Allura, l-inkorporazzjonijiet tal-vettur huma bħal mappa li tgħinna nsibu xebh bejn l-affarijiet fl-ispazju tal-vettur. Hekk kif mappa tgħinna nnavigaw fid-dinja, l-inkorporazzjonijiet tal-vectors jgħinu biex jinnavigaw il-bitħa tal-vettur.

L-idea ewlenija hija li l-embeds li huma semantikament simili għal xulxin għandhom distanza iżgħar bejniethom. Biex insiru nafu kemm huma simili, nistgħu nużaw funzjonijiet tad-distanza tal-vettur bħad-distanza Ewklidjana, id-distanza tal-cosine, eċċ.

Databases vector vs libreriji vector

Il-libreriji tal-vettur jaħżnu inkorporazzjonijiet ta 'vettori f'indiċi fil-memorja, sabiex iwettqu tfittxijiet ta' xebh. Il-libreriji tal-vettorjali għandhom il-karatteristiċi/limitazzjonijiet li ġejjin:

  1. Aħżen vettori biss : Il-libreriji tal-vector jaħżnu biss inkorporazzjonijiet ta' vettori u mhux l-oġġetti assoċjati li minnhom ġew iġġenerati. Dan ifisser li meta nistaqsu, librerija tal-vettur tirrispondi bil-vettori rilevanti u l-IDs tal-oġġetti. Dan huwa limitat peress li l-informazzjoni attwali hija maħżuna fl-oġġett u mhux l-id. Biex issolvi din il-problema, għandna naħżnu l-oġġetti f'ħażna sekondarja. Imbagħad nistgħu nużaw l-IDs ritornati mill-mistoqsija u nqabbluhom ma 'oġġetti biex nifhmu r-riżultati.
  2. Id-dejta tal-indiċi hija immutabbli : L-indiċi prodotti minn libreriji ta' vettur huma immutabbli. Dan ifisser li ladarba importajna d-dejta tagħna u bnejna l-indiċi, ma nistgħux nagħmlu l-ebda tibdil (l-ebda inserzjonijiet, tħassir jew bidliet ġodda). Biex nagħmlu bidliet fl-indiċi tagħna, ikollna nibnuha mill-ġdid mill-bidu
  3. Mistoqsija filwaqt li tirrestrinġi l-importazzjoni : Il-biċċa l-kbira tal-libreriji tal-vector ma jistgħux jiġu mistoqsija waqt l-importazzjoni tad-dejta. Jeħtieġ li l-ewwel nimportaw l-oġġetti kollha tad-dejta tagħna. Allura l-indiċi jinħoloq wara li l-oġġetti jiġu importati. Dan jista 'jkun problema għal applikazzjonijiet li jeħtieġu miljuni jew saħansitra biljuni ta' oġġetti biex jiġu importati.

Hemm ħafna libreriji ta' tiftix ta' vettori disponibbli: FAISS ta' Facebook, Iddejjaq minn Spotify u ScanNN minn Google. FAISS juża metodu ta 'clustering, Annoy juża siġar u ScanNN juża kompressjoni tal-vettur. Hemm kompromess tal-prestazzjoni għal kull wieħed, li nistgħu nagħżlu abbażi tal-metriċi tal-applikazzjoni u l-prestazzjoni tagħna.

CRUD

Il-karatteristika ewlenija li tiddistingwi databases tal-vettur minn libreriji tal-vettur hija l-abbiltà li arkivja, taġġorna u tħassar id-dejta. Id-databases tal-vettur għandhom appoġġ CRUD kompluta (oħloq, aqra, taġġorna u ħassar) li ssolvi l-limitazzjonijiet ta 'librerija ta' vettur.

  1. Vetturi tal-arkivji u oġġetti : Il-bażijiet tad-dejta jistgħu jaħżnu kemm oġġetti tad-dejta kif ukoll vettori. Peress li t-tnejn huma maħżuna, nistgħu ngħaqqdu t-tfittxija tal-vettur ma 'filtri strutturati. Il-filtri jippermettulna niżguraw li l-eqreb ġirien jaqblu mal-filtru tal-metadata.
  2. Mutabbiltà : bħala databases tal-vettur jappoġġjaw bis-sħiħ krud, nistgħu faċilment inżidu, ineħħu jew naġġornaw l-entrati fl-indiċi tagħna wara li jkun inħoloq. Dan huwa speċjalment utli meta taħdem b'dejta li tinbidel kontinwament.
  3. Tfittxija f'ħin reali : B'differenza mill-libreriji tal-vector, id-databases jippermettulna nistaqsu u timmodifika d-dejta tagħna matul il-proċess tal-importazzjoni. Hekk kif aħna tagħbija miljuni ta 'oġġetti, id-dejta importata tibqa' kompletament aċċessibbli u operattiva, sabiex ma jkollokx għalfejn tistenna li l-importazzjoni titlesta biex tibda taħdem fuq dak li diġà hemm.

Fil-qosor, database tal-vettur tipprovdi soluzzjoni superjuri għall-immaniġġjar tal-vector embeds billi tindirizza l-limitazzjonijiet tal-indiċijiet tal-vettur awtonomi kif diskuss fil-punti preċedenti.

Imma x'jagħmel il-vector databases superjuri għal databases tradizzjonali?

Databases vector vs databases tradizzjonali

Id-databases tradizzjonali huma ddisinjati biex jaħżnu u jirkupraw data strutturata bl-użu ta’ mudelli relazzjonali, li jfisser li huma ottimizzati għal mistoqsijiet ibbażati fuq kolonni u ringieli ta’ data. Filwaqt li huwa possibbli li jinħażnu inkorporazzjonijiet ta 'vettur f'databases tradizzjonali, dawn id-databases mhumiex ottimizzati għal operazzjonijiet ta' vettur u ma jistgħux iwettqu tfittxijiet ta 'xebh jew operazzjonijiet kumplessi oħra fuq settijiet ta' data kbar b'mod effiċjenti.

Dan għaliex id-databases tradizzjonali jużaw tekniki ta’ indiċjar ibbażati fuq tipi ta’ data sempliċi, bħal kordi jew numri. Dawn it-tekniki ta 'indiċjar mhumiex adattati għal data tal-vettur, li għandha dimensjonalità għolja u teħtieġ tekniki ta' indiċjar speċjalizzati bħal indiċijiet invertiti jew siġar spazjali.

Ukoll, id-databases tradizzjonali mhumiex iddisinjati biex jimmaniġġjaw l-ammonti kbar ta 'dejta mhux strutturata jew semi-strutturata ta' spiss assoċjata ma 'vector embeds. Pereżempju, fajl ta 'immaġni jew awdjo jista' jkun fih miljuni ta 'punti ta' dejta, li databases tradizzjonali ma jistgħux jimmaniġġjaw b'mod effiċjenti.

Id-databases tal-vettur, min-naħa l-oħra, huma ddisinjati speċifikament biex jaħżnu u jirkupraw data tal-vettur u huma ottimizzati għal tfittxijiet ta 'xebh u operazzjonijiet kumplessi oħra fuq settijiet ta' data kbar. Huma jużaw tekniki speċjalizzati ta 'indiċjar u algoritmi ddisinjati biex jaħdmu b'dejta ta' dimensjoni għolja, li jagħmluhom ħafna aktar effiċjenti minn databases tradizzjonali għall-ħażna u l-irkupru ta 'vector embeds.

Issa li qrajt ħafna dwar il-vector databases, tista' tkun qed tistaqsi, kif jaħdmu? Ejja nagħtu ħarsa.

Kif taħdem database tal-vettur?

Ilkoll nafu kif jaħdmu d-databases relazzjonali: jaħżnu strings, numri, u tipi oħra ta’ data skalari f’ringieli u kolonni. Min-naħa l-oħra, database tal-vettur topera fuq vettori, għalhekk il-mod kif tiġi ottimizzata u mistoqsija hija pjuttost differenti.

F'databases tradizzjonali, aħna normalment nistaqsu għal ringieli fid-database fejn il-valur normalment jaqbel mal-mistoqsija tagħna eżattament. Fil-vector databases, aħna napplikaw metrika ta’ xebh biex insibu vettur li huwa l-aktar simili għall-mistoqsija tagħna.

Database ta' vettur juża taħlita ta' diversi algoritmi li kollha jipparteċipaw fit-tfittxija tal-eqreb ġar (ANN). Dawn l-algoritmi jottimizzaw it-tfittxija permezz ta' hashing, kwantizzazzjoni jew tfittxija bbażata fuq graff.

Dawn l-algoritmi huma mmuntati f'pipeline li jipprovdi rkupru mgħaġġel u preċiż tal-ġirien ta 'vettur mistoqsi. Peress li d-database tal-vettur tipprovdi riżultati approssimattivi, il-kompromessi ewlenin li nikkunsidraw huma bejn l-eżattezza u l-veloċità. Aktar ma jkun preċiż ir-riżultat, iktar tkun bil-mod il-mistoqsija. Madankollu, sistema tajba tista 'tipprovdi tiftix ultra-veloċi bi preċiżjoni kważi perfetta.

  • Indiċjar : Id-database tal-vettur tindika vettori bl-użu ta' algoritmu bħal PQ, LSH jew HNSW. Dan il-pass jassoċja l-vettori ma' struttura tad-dejta li tippermetti tiftix aktar mgħaġġel.
  • Mistoqsija : database tal-vettur tqabbel il-vettur ta' mistoqsija indiċjat ma' vectors indiċjati fis-sett tad-dejta biex issib l-eqreb ġirien (bl-applikazzjoni ta' metrika ta' xebh użata minn dak l-indiċi)
  • Post-ipproċessar : F'xi każijiet, il-vector database iġib l-eqreb ġirien finali mis-sett tad-dejta u tipproċessahom wara biex tirritorna r-riżultati finali. Dan il-pass jista' jinkludi klassifikazzjoni mill-ġdid tal-eqreb ġirien bl-użu ta' miżura ta' xebh differenti.

benefiċċji

Id-databases tal-vettur huma għodda qawwija għal tfittxijiet ta’ xebh u operazzjonijiet kumplessi oħra fuq settijiet kbar ta’ data, li ma jistgħux jitwettqu b’mod effettiv bl-użu ta’ databases tradizzjonali. Biex tinbena database ta 'vettur funzjonali, l-inkorporazzjonijiet huma essenzjali, peress li jaqbdu t-tifsira semantika tad-dejta u jippermettu tfittxijiet preċiżi ta' xebh. B'differenza mill-libreriji tal-vector, il-vector databases huma ddisinjati biex jaqblu mal-każ tal-użu tagħna, u jagħmluhom ideali għal applikazzjonijiet fejn il-prestazzjoni u l-iskalabbiltà huma kritiċi. Biż-żieda tat-tagħlim tal-magni u l-intelliġenza artifiċjali, id-databases tal-vettur qed isiru dejjem aktar importanti għal firxa wiesgħa ta 'applikazzjonijiet inklużi sistemi ta' rakkomandazzjoni, tfittxija ta 'immaġni, xebh semantiku u l-lista tkompli. Hekk kif il-qasam ikompli jevolvi, nistgħu nistennew li naraw applikazzjonijiet saħansitra aktar innovattivi ta 'databases ta' vettur fil-futur.

Ercole Palmeri

Newsletter dwar l-innovazzjoni
Titlifx l-aktar aħbarijiet importanti dwar l-innovazzjoni. Irreġistra biex tirċevihom bl-email.

Artikoli riċenti

Il-pubblikaturi u l-OpenAI jiffirmaw ftehimiet biex jirregolaw il-fluss tal-informazzjoni pproċessata mill-Intelliġenza Artifiċjali

It-Tnejn li għadda, il-Financial Times ħabbret ftehim mal-OpenAI. FT tagħti liċenzja għall-ġurnaliżmu ta’ klassi dinjija tagħha...

April 30 2024

Ħlasijiet Online: Hawn Kif Is-Servizzi ta' Streaming Jagħmel Inti Tħallas Għal Dejjem

Miljuni ta 'nies iħallsu għal servizzi ta' streaming, iħallsu miżati ta 'abbonament ta' kull xahar. Hija opinjoni komuni li inti...

April 29 2024

Veeam għandu l-aktar appoġġ komprensiv għar-ransomware, mill-protezzjoni għar-rispons u l-irkupru

Coveware minn Veeam se jkompli jipprovdi servizzi ta' rispons għal inċidenti ta' estorsjoni ċibernetika. Coveware se joffri forensiċi u kapaċitajiet ta' rimedju...

April 23 2024

Rivoluzzjoni Ekoloġika u Diġitali: Kif il-Manutenzjoni Predittiva qed tittrasforma l-Industrija taż-Żejt u l-Gass

Il-manutenzjoni ta’ tbassir qed tirrivoluzzjona s-settur taż-żejt u l-gass, b’approċċ innovattiv u proattiv għall-ġestjoni tal-impjant...

April 22 2024