Ħin tal-qari stmat: 9 minuta
Fl-aħħar ġimgħat, kien hemm żieda fl-interess tal-investituri fil-vector databases. Mill-bidu tal-2023 aħna ndunajna li:
Ejja naraw f'aktar dettall x'inhuma l-vector databases.
Id-databases tal-vector jiddependu ħafna fuq l-inkorporazzjoni tal-vettur, tip ta’ rappreżentazzjoni tad-dejta li ġġorr fiha l-informazzjoni semantika kritika għall-AI biex tikseb fehim u żżomm memorja fit-tul biex tibbaża fuqha meta tesegwixxi attivitajiet kumplessi.
L-inkorporazzjonijiet tal-vector huma bħal mappa, iżda minflok juruna fejn jinsabu l-affarijiet fid-dinja, juruna fejn qegħdin l-affarijiet f'xi ħaġa msejħa spazju vettur. L-ispazju tal-vettur huwa tip ta’ bitħa kbira fejn kollox għandu l-post fejn jilgħab. Immaġina li għandek grupp ta’ annimali: qattus, kelb, għasfur u ħuta. Nistgħu noħolqu vector embed għal kull immaġini billi nagħtuha pożizzjoni speċjali fuq il-bitħa. Il-qattus jista 'jkun f'rokna waħda, il-kelb fuq in-naħa l-oħra. L-għasfur jista 'jkun fis-sema u l-ħut jista' jkun fl-għadira. Dan il-post huwa spazju multidimensjonali. Kull dimensjoni tikkorrispondi għal aspetti differenti tagħhom, pereżempju, il-ħut għandhom xewk, l-għasafar għandhom ġwienaħ, il-qtates u l-klieb għandhom saqajn. Aspett ieħor minnhom jista 'jkun li l-ħut jappartjeni għall-ilma, l-għasafar prinċipalment għas-sema, u l-qtates u l-klieb għall-art. Ladarba jkollna dawn il-vettori, nistgħu nużaw tekniki matematiċi biex niġbruhom ibbażati fuq ix-xebh tagħhom. Ibbażat fuq l-informazzjoni li nżommu,
Allura, l-inkorporazzjonijiet tal-vettur huma bħal mappa li tgħinna nsibu xebh bejn l-affarijiet fl-ispazju tal-vettur. Hekk kif mappa tgħinna nnavigaw fid-dinja, l-inkorporazzjonijiet tal-vectors jgħinu biex jinnavigaw il-bitħa tal-vettur.
L-idea ewlenija hija li l-embeds li huma semantikament simili għal xulxin għandhom distanza iżgħar bejniethom. Biex insiru nafu kemm huma simili, nistgħu nużaw funzjonijiet tad-distanza tal-vettur bħad-distanza Ewklidjana, id-distanza tal-cosine, eċċ.
Il-libreriji tal-vettur jaħżnu inkorporazzjonijiet ta 'vettori f'indiċi fil-memorja, sabiex iwettqu tfittxijiet ta' xebh. Il-libreriji tal-vettorjali għandhom il-karatteristiċi/limitazzjonijiet li ġejjin:
Hemm ħafna libreriji ta' tiftix ta' vettori disponibbli: FAISS ta' Facebook, Iddejjaq minn Spotify u ScanNN minn Google. FAISS juża metodu ta 'clustering, Annoy juża siġar u ScanNN juża kompressjoni tal-vettur. Hemm kompromess tal-prestazzjoni għal kull wieħed, li nistgħu nagħżlu abbażi tal-metriċi tal-applikazzjoni u l-prestazzjoni tagħna.
Il-karatteristika ewlenija li tiddistingwi databases tal-vettur minn libreriji tal-vettur hija l-abbiltà li arkivja, taġġorna u tħassar id-dejta. Id-databases tal-vettur għandhom appoġġ CRUD kompluta (oħloq, aqra, taġġorna u ħassar) li ssolvi l-limitazzjonijiet ta 'librerija ta' vettur.
Fil-qosor, database tal-vettur tipprovdi soluzzjoni superjuri għall-immaniġġjar tal-vector embeds billi tindirizza l-limitazzjonijiet tal-indiċijiet tal-vettur awtonomi kif diskuss fil-punti preċedenti.
Imma x'jagħmel il-vector databases superjuri għal databases tradizzjonali?
Id-databases tradizzjonali huma ddisinjati biex jaħżnu u jirkupraw data strutturata bl-użu ta’ mudelli relazzjonali, li jfisser li huma ottimizzati għal mistoqsijiet ibbażati fuq kolonni u ringieli ta’ data. Filwaqt li huwa possibbli li jinħażnu inkorporazzjonijiet ta 'vettur f'databases tradizzjonali, dawn id-databases mhumiex ottimizzati għal operazzjonijiet ta' vettur u ma jistgħux iwettqu tfittxijiet ta 'xebh jew operazzjonijiet kumplessi oħra fuq settijiet ta' data kbar b'mod effiċjenti.
Dan għaliex id-databases tradizzjonali jużaw tekniki ta’ indiċjar ibbażati fuq tipi ta’ data sempliċi, bħal kordi jew numri. Dawn it-tekniki ta 'indiċjar mhumiex adattati għal data tal-vettur, li għandha dimensjonalità għolja u teħtieġ tekniki ta' indiċjar speċjalizzati bħal indiċijiet invertiti jew siġar spazjali.
Ukoll, id-databases tradizzjonali mhumiex iddisinjati biex jimmaniġġjaw l-ammonti kbar ta 'dejta mhux strutturata jew semi-strutturata ta' spiss assoċjata ma 'vector embeds. Pereżempju, fajl ta 'immaġni jew awdjo jista' jkun fih miljuni ta 'punti ta' dejta, li databases tradizzjonali ma jistgħux jimmaniġġjaw b'mod effiċjenti.
Id-databases tal-vettur, min-naħa l-oħra, huma ddisinjati speċifikament biex jaħżnu u jirkupraw data tal-vettur u huma ottimizzati għal tfittxijiet ta 'xebh u operazzjonijiet kumplessi oħra fuq settijiet ta' data kbar. Huma jużaw tekniki speċjalizzati ta 'indiċjar u algoritmi ddisinjati biex jaħdmu b'dejta ta' dimensjoni għolja, li jagħmluhom ħafna aktar effiċjenti minn databases tradizzjonali għall-ħażna u l-irkupru ta 'vector embeds.
Issa li qrajt ħafna dwar il-vector databases, tista' tkun qed tistaqsi, kif jaħdmu? Ejja nagħtu ħarsa.
Ilkoll nafu kif jaħdmu d-databases relazzjonali: jaħżnu strings, numri, u tipi oħra ta’ data skalari f’ringieli u kolonni. Min-naħa l-oħra, database tal-vettur topera fuq vettori, għalhekk il-mod kif tiġi ottimizzata u mistoqsija hija pjuttost differenti.
F'databases tradizzjonali, aħna normalment nistaqsu għal ringieli fid-database fejn il-valur normalment jaqbel mal-mistoqsija tagħna eżattament. Fil-vector databases, aħna napplikaw metrika ta’ xebh biex insibu vettur li huwa l-aktar simili għall-mistoqsija tagħna.
Database ta' vettur juża taħlita ta' diversi algoritmi li kollha jipparteċipaw fit-tfittxija tal-eqreb ġar (ANN). Dawn l-algoritmi jottimizzaw it-tfittxija permezz ta' hashing, kwantizzazzjoni jew tfittxija bbażata fuq graff.
Dawn l-algoritmi huma mmuntati f'pipeline li jipprovdi rkupru mgħaġġel u preċiż tal-ġirien ta 'vettur mistoqsi. Peress li d-database tal-vettur tipprovdi riżultati approssimattivi, il-kompromessi ewlenin li nikkunsidraw huma bejn l-eżattezza u l-veloċità. Aktar ma jkun preċiż ir-riżultat, iktar tkun bil-mod il-mistoqsija. Madankollu, sistema tajba tista 'tipprovdi tiftix ultra-veloċi bi preċiżjoni kważi perfetta.
Id-databases tal-vettur huma għodda qawwija għal tfittxijiet ta’ xebh u operazzjonijiet kumplessi oħra fuq settijiet kbar ta’ data, li ma jistgħux jitwettqu b’mod effettiv bl-użu ta’ databases tradizzjonali. Biex tinbena database ta 'vettur funzjonali, l-inkorporazzjonijiet huma essenzjali, peress li jaqbdu t-tifsira semantika tad-dejta u jippermettu tfittxijiet preċiżi ta' xebh. B'differenza mill-libreriji tal-vector, il-vector databases huma ddisinjati biex jaqblu mal-każ tal-użu tagħna, u jagħmluhom ideali għal applikazzjonijiet fejn il-prestazzjoni u l-iskalabbiltà huma kritiċi. Biż-żieda tat-tagħlim tal-magni u l-intelliġenza artifiċjali, id-databases tal-vettur qed isiru dejjem aktar importanti għal firxa wiesgħa ta 'applikazzjonijiet inklużi sistemi ta' rakkomandazzjoni, tfittxija ta 'immaġni, xebh semantiku u l-lista tkompli. Hekk kif il-qasam ikompli jevolvi, nistgħu nistennew li naraw applikazzjonijiet saħansitra aktar innovattivi ta 'databases ta' vettur fil-futur.
Ercole Palmeri
It-Tnejn li għadda, il-Financial Times ħabbret ftehim mal-OpenAI. FT tagħti liċenzja għall-ġurnaliżmu ta’ klassi dinjija tagħha...
Miljuni ta 'nies iħallsu għal servizzi ta' streaming, iħallsu miżati ta 'abbonament ta' kull xahar. Hija opinjoni komuni li inti...
Coveware minn Veeam se jkompli jipprovdi servizzi ta' rispons għal inċidenti ta' estorsjoni ċibernetika. Coveware se joffri forensiċi u kapaċitajiet ta' rimedju...
Il-manutenzjoni ta’ tbassir qed tirrivoluzzjona s-settur taż-żejt u l-gass, b’approċċ innovattiv u proattiv għall-ġestjoni tal-impjant...