makala

Je, hifadhidata za vekta ni nini, jinsi zinavyofanya kazi na soko linalowezekana

Hifadhidata ya vekta ni aina ya hifadhidata inayohifadhi data kama vekta za hali ya juu, ambazo ni uwakilishi wa hisabati wa vipengele au sifa.

Vekta hizi kwa kawaida huzalishwa kwa kutumia aina fulani ya utendakazi wa kupachika kwa data ghafi, kama vile maandishi, picha, sauti, video na nyinginezo.

Hifadhidata za Vector zinaweza kuwa definite kama zana inayoonyesha na kuhifadhi vipachiko vya vekta kwa urejeshaji wa haraka na utafutaji wa kufanana, na vipengele kama vile uchujaji wa metadata na kuongeza mlalo.

Jedwali la yaliyomo

Muda uliokadiriwa wa kusoma: 9 minuti

Kukua kwa Maslahi ya Wawekezaji

Katika wiki za hivi karibuni, kumekuwa na ongezeko la maslahi ya wawekezaji katika hifadhidata za vekta. Tangu mwanzoni mwa 2023 tumegundua kuwa:

uanzishaji wa hifadhidata ya vekta Punguza Alipata $50 milioni katika ufadhili wa Series B;
Pinekoni ilikusanya dola milioni 100 katika ufadhili wa Series B kwa tathmini ya dola milioni 750;
chroma , mradi wa chanzo huria, ulichangisha dola milioni 18 kwa hifadhidata yake ya upachikaji;

Wacha tuone kwa undani zaidi hifadhidata za vekta ni nini.

Vekta kama uwakilishi wa data

Hifadhidata za vekta hutegemea sana upachikaji wa vekta, aina ya uwakilishi wa data ambayo hubeba ndani yake maelezo ya kisemantiki muhimu kwa AI kupata uelewa na kudumisha kumbukumbu ya muda mrefu ya kutumia wakati wa kutekeleza shughuli ngumu.

Vipandikizi vya vekta

Vipandikizi vya vekta ni kama ramani, lakini badala ya kutuonyesha mahali vitu viko ulimwenguni, hutuonyesha mahali vitu viko kwenye kitu kinachoitwa. nafasi ya vekta. Nafasi ya Vector ni aina ya uwanja mkubwa wa michezo ambapo kila kitu kina nafasi yake ya kucheza. Fikiria kuwa una kundi la wanyama: paka, mbwa, ndege na samaki. Tunaweza kuunda upachikaji wa vekta kwa kila picha kwa kuipa nafasi maalum kwenye uwanja wa michezo. Paka inaweza kuwa katika kona moja, mbwa kwa upande mwingine. Ndege inaweza kuwa angani na samaki wanaweza kuwa katika bwawa. Mahali hapa ni nafasi ya multidimensional. Kila mwelekeo unafanana na vipengele tofauti vyao, kwa mfano, samaki wana mapezi, ndege wana mbawa, paka na mbwa wana miguu. Kipengele kingine chao kinaweza kuwa kwamba samaki ni wa maji, ndege hasa wa angani, na paka na mbwa chini. Mara tu tunapokuwa na vekta hizi, tunaweza kutumia mbinu za hisabati kuziweka katika vikundi kulingana na mfanano wao. Kulingana na habari tunayoshikilia,

Kwa hivyo, upachikaji wa vekta ni kama ramani inayotusaidia kupata mfanano kati ya vitu vilivyo katika nafasi ya vekta. Kama vile ramani hutusaidia kuabiri ulimwengu, upachikaji wa vekta hutusaidia kusogeza kwenye uwanja wa michezo wa vekta.

Wazo kuu ni kwamba upachikaji ambao unafanana kisemantiki kwa kila mmoja una umbali mdogo kati yao. Ili kujua jinsi zinavyofanana, tunaweza kutumia vitendaji vya umbali wa vekta kama vile umbali wa Euclidean, umbali wa cosine, n.k.

Hifadhidata za Vekta dhidi ya Maktaba za Vekta

Maktaba za vekta kuhifadhi upachikaji wa vekta katika faharisi kwenye kumbukumbu, ili kufanya utafutaji wa kufanana. Maktaba za Vekta zina sifa/vizuizi vifuatavyo:

Hifadhi vekta pekee : Maktaba za vekta huhifadhi upachikaji wa vidhibiti pekee na si vitu vinavyohusishwa ambavyo vilitolewa. Hii ina maana kwamba tunapouliza, maktaba ya vekta itajibu kwa vekta husika na vitambulisho vya kifaa. Hii ni kikwazo kwani habari halisi huhifadhiwa kwenye kitu na sio kitambulisho. Ili kutatua tatizo hili, tunapaswa kuhifadhi vitu katika hifadhi ya sekondari. Kisha tunaweza kutumia vitambulisho vilivyoletwa na hoja na kuvilinganisha na vitu ili kuelewa matokeo.
Data ya kielezo haiwezi kubadilika : Fahirisi zinazozalishwa na maktaba za vekta hazibadiliki. Hii ina maana kwamba mara tu tumeingiza data yetu na kuunda faharasa, hatuwezi kufanya mabadiliko yoyote (hakuna viingilio vipya, ufutaji au mabadiliko). Ili kufanya mabadiliko kwenye faharasa yetu, itabidi tuijenge upya kuanzia mwanzo
Hoja huku ikizuia uingizaji : Maktaba nyingi za vekta haziwezi kuulizwa wakati wa kuleta data. Tunahitaji kuagiza vitu vyetu vyote vya data kwanza. Kwa hivyo faharisi huundwa baada ya vitu kuingizwa. Hili linaweza kuwa tatizo kwa programu zinazohitaji mamilioni au hata mabilioni ya vitu kuagizwa kutoka nje.

Kuna maktaba nyingi za utaftaji wa vekta zinazopatikana: FAISS wa Facebook, Annoy na Spotify na ScanNN na Google. FAISS hutumia njia ya kuunganisha, Annoy hutumia miti na ScanNN hutumia mgandamizo wa vekta. Kuna mabadiliko ya utendaji kwa kila moja, ambayo tunaweza kuchagua kulingana na vipimo vyetu vya utendakazi.

CRUD

Kipengele kikuu kinachotofautisha hifadhidata za vekta kutoka kwa maktaba za vekta ni uwezo wa kuhifadhi, kusasisha na kufuta data. Hifadhidata za Vekta zina msaada wa CRUD kamili (unda, soma, sasisha na ufute) ambayo hutatua mapungufu ya maktaba ya vekta.

Hifadhi vekta na vitu : Hifadhidata inaweza kuhifadhi vitu vyote vya data na vekta. Kwa kuwa zote zimehifadhiwa, tunaweza kuchanganya utafutaji wa vekta na vichujio vilivyoundwa. Vichujio huturuhusu kuhakikisha kuwa majirani wa karibu zaidi wanalingana na kichujio cha metadata.
Kubadilika : kama hifadhidata za vekta inasaidia kikamilifu ghafi, tunaweza kuongeza, kuondoa au kusasisha kwa urahisi maingizo katika faharasa yetu baada ya kuundwa. Hii ni muhimu sana wakati wa kufanya kazi na data inayobadilika kila wakati.
Utafutaji wa wakati halisi : Tofauti na maktaba za vekta, hifadhidata huturuhusu kuuliza na kurekebisha data yetu wakati wa mchakato wa kuagiza. Tunapopakia mamilioni ya vitu, data iliyoagizwa husalia kufikiwa kikamilifu na kufanya kazi, kwa hivyo huhitaji kusubiri uletaji ukamilike ili kuanza kufanyia kazi kile ambacho tayari kipo.

Kwa kifupi, hifadhidata ya vekta hutoa suluhisho bora zaidi la kushughulikia upachikaji wa vekta kwa kushughulikia mapungufu ya fahirisi za vekta zinazojitosheleza kama ilivyojadiliwa katika vidokezo vilivyotangulia.

Lakini ni nini hufanya hifadhidata za vekta kuwa bora kuliko hifadhidata za jadi?

Hifadhidata za Vekta dhidi ya hifadhidata za jadi

Hifadhidata za kitamaduni zimeundwa kuhifadhi na kuepua data iliyopangwa kwa kutumia miundo inayohusiana, ambayo ina maana kwamba imeboreshwa kwa hoja kulingana na safu wima na safu mlalo za data. Ingawa inawezekana kuhifadhi upachikaji wa vekta katika hifadhidata za kitamaduni, hifadhidata hizi hazijaboreshwa kwa shughuli za vekta na haziwezi kufanya utafutaji wa mfanano au shughuli nyingine changamano kwenye hifadhidata kubwa kwa ufanisi.

Hii ni kwa sababu hifadhidata za kitamaduni hutumia mbinu za kuorodhesha kulingana na aina rahisi za data, kama vile mifuatano au nambari. Mbinu hizi za kuorodhesha hazifai data ya vekta, ambayo ina mwelekeo wa juu na inahitaji mbinu maalum za kuorodhesha kama vile faharasa zilizogeuzwa au miti ya anga.

Pia, hifadhidata za kitamaduni hazijaundwa kushughulikia idadi kubwa ya data isiyo na muundo au nusu ambayo mara nyingi huhusishwa na upachikaji wa vekta. Kwa mfano, picha au faili ya sauti inaweza kuwa na mamilioni ya pointi za data, ambazo hifadhidata za jadi haziwezi kushughulikia kwa ufanisi.

Hifadhidata za Vekta, kwa upande mwingine, zimeundwa mahsusi kuhifadhi na kupata data ya vekta na zimeboreshwa kwa utafutaji wa kufanana na shughuli zingine ngumu kwenye hifadhidata kubwa. Wanatumia mbinu maalum za kuorodhesha na algoriti iliyoundwa kufanya kazi na data ya hali ya juu, na kuzifanya ziwe bora zaidi kuliko hifadhidata za jadi za kuhifadhi na kupata vipachiko vya vekta.

Sasa kwa kuwa umesoma sana juu ya hifadhidata za vekta, unaweza kuwa unajiuliza, zinafanyaje kazi? Hebu tuangalie.

Je, hifadhidata ya vekta inafanyaje kazi?

Sote tunajua jinsi hifadhidata za uhusiano zinavyofanya kazi: huhifadhi mifuatano, nambari, na aina zingine za data ya kiwango katika safu mlalo na safu wima. Kwa upande mwingine, hifadhidata ya vekta inafanya kazi kwenye viveta, kwa hivyo jinsi inavyoboreshwa na kuulizwa ni tofauti kabisa.

Katika hifadhidata za kitamaduni, kwa kawaida tunaulizia safumlalo katika hifadhidata ambapo thamani kwa kawaida inalingana na hoja yetu haswa. Katika hifadhidata za vekta, tunatumia kipimo cha mfanano ili kupata vekta ambayo inafanana zaidi na hoja yetu.

Hifadhidata ya vekta hutumia mseto wa algoriti kadhaa ambazo zote hushiriki katika utafutaji wa karibu wa jirani (ANN). Kanuni hizi huboresha utafutaji kwa hashing, quantization, au utafutaji unaotegemea grafu.

Algoriti hizi zimekusanywa katika bomba ambalo hutoa urejeshaji wa haraka na sahihi wa majirani wa vekta iliyoulizwa. Kwa kuwa hifadhidata ya vekta hutoa takriban matokeo, biashara kuu tunazozingatia ni kati ya usahihi na kasi. Kadiri matokeo yalivyo sahihi zaidi, ndivyo swala litakavyokuwa polepole. Hata hivyo, mfumo mzuri unaweza kutoa utafutaji wa haraka sana kwa usahihi wa karibu kabisa.

Kuweka faharasa : Hifadhidata ya vekta huashiria vekta kwa kutumia algoriti kama vile PQ, LSH au HNSW. Hatua hii inahusisha vekta na muundo wa data ambao utaruhusu utafutaji wa haraka.
Query : hifadhidata ya vekta inalinganisha vekta ya hoja iliyoorodheshwa dhidi ya vekta zilizoorodheshwa kwenye hifadhidata ili kupata majirani wa karibu zaidi (kwa kutumia kipimo cha mfanano kinachotumiwa na faharisi hiyo)
Baada ya usindikaji : Katika baadhi ya matukio, hifadhidata ya vekta huchota majirani wa karibu wa mwisho kutoka kwa mkusanyiko wa data na kuwachakata ili kurudisha matokeo ya mwisho. Hatua hii inaweza kujumuisha kupanga upya majirani wa karibu kwa kutumia kipimo tofauti cha mfanano.

faida

Hifadhidata za Vekta ni zana yenye nguvu ya utafutaji wa kufanana na shughuli nyingine ngumu kwenye seti kubwa za data, ambazo haziwezi kufanywa kwa ufanisi kwa kutumia hifadhidata za jadi. Ili kuunda hifadhidata ya vekta inayofanya kazi, upachikaji ni muhimu, kwani zinanasa maana ya kisemantiki ya data na kuwezesha utafutaji sahihi wa mfanano. Tofauti na maktaba za vekta, hifadhidata za vekta zimeundwa kutoshea kesi yetu ya utumiaji, na kuzifanya ziwe bora kwa programu ambapo utendakazi na ukubwa ni muhimu. Kwa kuongezeka kwa kujifunza kwa mashine na akili bandia, hifadhidata za vekta zinazidi kuwa muhimu kwa anuwai ya programu ikijumuisha mifumo ya wapendekezaji, utaftaji wa picha, ufanano wa kisemantiki na orodha inaendelea. Kadiri uga unavyoendelea kubadilika, tunaweza kutarajia kuona utumizi bora zaidi wa hifadhidata za vekta katika siku zijazo.

Ercole Palmeri