Greinar

Hvað eru vektorgagnagrunnar, hvernig þeir virka og hugsanlegur markaður

Vigurgagnagrunnur er tegund gagnagrunns sem geymir gögn sem hávíddarvigrar, sem eru stærðfræðilegar framsetningar á eiginleikum eða eiginleikum. 

Þessir vektorar eru venjulega búnir til með því að beita einhvers konar innfellingaraðgerð á hrá gögn, svo sem texta, myndir, hljóð, myndband og fleira.

Vector gagnagrunna getur verið definite sem tól sem skráir og geymir vektorinnfellingar til að ná fljótt og leita líkt, með eiginleikum eins og lýsigagnasíun og láréttri stærðarstærð.

Áætlaður lestrartími: 9 minuti

Vaxandi áhugi fjárfesta

Undanfarnar vikur hefur áhugi fjárfesta á vektorgagnagrunnum aukist. Frá ársbyrjun 2023 höfum við tekið eftir því að:

Við skulum sjá nánar hvað vektorgagnagrunnar eru.

Vektorar sem framsetning gagna

Vektorgagnagrunnar reiða sig að miklu leyti á vektorinnfellingu, tegund gagnaframsetningar sem ber í sér þær merkingarfræðilegu upplýsingar sem eru mikilvægar fyrir gervigreind til að öðlast skilning og viðhalda langtímaminni til að styðjast við þegar flóknar aðgerðir eru framkvæmdar. 

Vector embeds

Vektorinnfellingar eru eins og kort, en í stað þess að sýna okkur hvar hlutirnir eru í heiminum, sýna þeir okkur hvar hlutirnir eru í einhverju sem kallast vektorrými. Vector space er eins konar stór leikvöllur þar sem allt á sinn stað til að leika sér. Ímyndaðu þér að þú sért með hóp af dýrum: kött, hund, fugl og fisk. Við getum búið til vektorinnfellingu fyrir hverja mynd með því að gefa henni sérstaka stöðu á leikvellinum. Kötturinn getur verið í einu horninu, hundurinn hinum megin. Fuglinn gæti verið á himni og fiskurinn gæti verið í tjörninni. Þessi staður er fjölvítt rými. Hver vídd samsvarar mismunandi þáttum þeirra, til dæmis hafa fiskar ugga, fuglar með vængi, kettir og hundar með fætur. Annar þáttur þeirra getur verið sá að fiskar tilheyra vatni, fuglar aðallega til himins og kettir og hundar til jarðar. Þegar við höfum þessa vektora getum við notað stærðfræðitækni til að flokka þá út frá líkt þeirra. Byggt á þeim upplýsingum sem við höfum,

Svo, vektorinnfellingar eru eins og kort sem hjálpar okkur að finna líkindi milli hluta í vektorrými. Rétt eins og kort hjálpar okkur að sigla um heiminn, hjálpa vektorinnfellingar að sigla um vektorleikvöllinn.

Lykilhugmyndin er sú að innfellingar sem eru merkingarlega svipaðar hver öðrum hafa minni fjarlægð á milli þeirra. Til að komast að því hversu lík þau eru getum við notað vektorfjarlægðaraðgerðir eins og Evklíðska fjarlægð, kósínusfjarlægð o.s.frv.

Vektorgagnasöfn vs vektorbókasöfn

Vektorsöfnin geyma innfellingar vigra í vísitölum í minni, til að framkvæma líkindaleit. Vektorsöfn hafa eftirfarandi eiginleika/takmarkanir:

  1. Geymdu aðeins vektora : Vigursöfn geyma aðeins innfellingar vigra en ekki tengda hluti sem þeir voru búnir til úr. Þetta þýðir að þegar við gerum fyrirspurnir mun vektorsafn bregðast við með viðeigandi vigra og auðkenni hluta. Þetta er takmarkandi þar sem raunverulegar upplýsingar eru geymdar í hlutnum en ekki auðkenninu. Til að leysa þetta vandamál ættum við að geyma hlutina í aukageymslu. Við getum síðan notað auðkennin sem fyrirspurnin skilar og passað þau við hluti til að skilja niðurstöðurnar.
  2. Vísitölugögn eru óumbreytanleg : Vísitölur framleiddar af vektorsöfnum eru óbreytanlegar. Þetta þýðir að þegar við höfum flutt inn gögnin okkar og byggt upp vísitöluna getum við ekki gert neinar breytingar (engar nýjar innsetningar, eyðingar eða breytingar). Til að gera breytingar á vísitölunni okkar verðum við að endurbyggja hana frá grunni
  3. Fyrirspurn meðan innflutningur er takmarkaður : Ekki er hægt að spyrjast fyrir um flest vektorsöfn meðan gögn eru flutt inn. Við þurfum að flytja inn alla gagnahluti okkar fyrst. Svo er vísitalan búin til eftir að hlutirnir eru fluttir inn. Þetta getur verið vandamál fyrir forrit sem þurfa að flytja inn milljónir eða jafnvel milljarða hluta.

Það eru mörg vektorleitarsöfn í boði: FAISS á Facebook, Anoy af Spotify og SkannaNN af Google. FAISS notar klasaaðferð, Annoy notar tré og ScanNN notar vektorþjöppun. Það er frammistöðuskipti fyrir hvern, sem við getum valið út frá umsókn okkar og frammistöðumælingum.

CRUD

Helsti eiginleikinn sem aðgreinir vektorgagnagrunna frá vektorsöfnum er hæfileikinn til að geyma, uppfæra og eyða gögnum. Vektorgagnagrunnar eru með CRUD stuðning klára (búa til, lesa, uppfæra og eyða) sem leysir takmarkanir á vektorsafni.

  1. Geymdu vektora og hluti : Gagnasöfn geta geymt bæði gagnahluti og vektora. Þar sem bæði eru geymd, getum við sameinað vektorleit með skipulögðum síum. Síur gera okkur kleift að ganga úr skugga um að næstu nágrannar passi við lýsigagnasíuna.
  2. Breytileiki : sem vektorgagnagrunnar styðja að fullu gróft, við getum auðveldlega bætt við, fjarlægt eða uppfært færslur í skránni okkar eftir að hún hefur verið búin til. Þetta er sérstaklega gagnlegt þegar unnið er með síbreytileg gögn.
  3. Rauntíma leit : Ólíkt vektorsöfnum leyfa gagnagrunnar okkur að spyrjast fyrir um og breyta gögnum okkar meðan á innflutningi stendur. Þegar við hleðum inn milljónum hluta eru innfluttu gögnin áfram aðgengileg og starfhæf, svo þú þarft ekki að bíða eftir að innflutningnum lýkur til að byrja að vinna í því sem þegar er til staðar.

Í stuttu máli, vigurgagnagrunnur veitir betri lausn til að meðhöndla vigurinnfellingar með því að takast á við takmarkanir á sjálfstættum vigurvísitölum eins og fjallað var um í fyrri liðum.

En hvað gerir vektorgagnagrunna betri en hefðbundna gagnagrunna?

Vektorgagnagrunnar vs hefðbundnir gagnagrunnar

Hefðbundnir gagnagrunnar eru hannaðir til að geyma og sækja skipulögð gögn með því að nota venslalíkön, sem þýðir að þeir eru fínstilltir fyrir fyrirspurnir byggðar á dálkum og raðir gagna. Þó að það sé hægt að geyma vektorinnfellingar í hefðbundnum gagnagrunnum eru þessir gagnagrunnar ekki fínstilltir fyrir vektoraðgerðir og geta ekki framkvæmt líkindaleit eða aðrar flóknar aðgerðir á stórum gagnasöfnum á skilvirkan hátt.

Þetta er vegna þess að hefðbundnir gagnagrunnar nota flokkunartækni sem byggir á einföldum gagnagerðum, eins og strengjum eða tölum. Þessar flokkunaraðferðir henta ekki fyrir vektorgögn, sem hafa mikla vídd og krefjast sérhæfðrar flokkunartækni eins og öfugvísisvísitölur eða staðbundin tré.

Einnig eru hefðbundnir gagnagrunnar ekki hannaðir til að takast á við mikið magn af óskipulögðum eða hálfuppbyggðum gögnum sem oft tengjast vektorinnfellingum. Til dæmis getur mynd- eða hljóðskrá innihaldið milljónir gagnapunkta sem hefðbundnir gagnagrunnar geta ekki sinnt á skilvirkan hátt.

Vektorgagnagrunnar eru aftur á móti sérstaklega hannaðir til að geyma og sækja vektorgögn og eru fínstilltir fyrir líkindaleit og aðrar flóknar aðgerðir á stórum gagnasöfnum. Þeir nota sérhæfða flokkunartækni og reiknirit sem eru hönnuð til að vinna með hávíddargögn, sem gerir þau mun skilvirkari en hefðbundin gagnagrunna til að geyma og sækja vektorinnfellingar.

Nú þegar þú hefur lesið svo mikið um vektorgagnagrunna gætirðu verið að velta fyrir þér, hvernig virka þeir? Við skulum skoða.

Hvernig virkar vektorgagnagrunnur?

Við vitum öll hvernig venslagagnagrunnar virka: þeir geyma strengi, tölur og aðrar gerðir mælikvarðagagna í röðum og dálkum. Aftur á móti starfar vektorgagnagrunnur á vektorum, þannig að hvernig hann er fínstilltur og spurt er töluvert öðruvísi.

Í hefðbundnum gagnagrunnum leitum við venjulega að línum í gagnagrunninum þar sem gildið passar venjulega nákvæmlega við fyrirspurn okkar. Í vektorgagnagrunnum notum við líkindamælikvarða til að finna vektor sem er líkastur fyrirspurninni okkar.

Vigurgagnagrunnur notar blöndu af nokkrum reikniritum sem allir taka þátt í næstu nágrannaleit (ANN). Þessi reiknirit hámarka leitina með því að hashing, magngreiningu eða grafatengda leit.

Þessar reiknirit eru settar saman í leiðslu sem veitir hraða og nákvæma endurheimt nágranna vigurs sem spurt er um. Þar sem vektorgagnagrunnurinn gefur áætlaðar niðurstöður eru helstu málamiðlanir sem við teljum á milli nákvæmni og hraða. Því nákvæmari sem niðurstaðan er, því hægari verður fyrirspurnin. Hins vegar getur gott kerfi veitt ofurhraða leit með næstum fullkominni nákvæmni.

  • Verðtrygging : Vigurgagnagrunnurinn skráir vigra með því að nota reiknirit eins og PQ, LSH eða HNSW. Þetta skref tengir vektorana við gagnaskipulag sem gerir kleift að leita hraðar.
  • fyrirspurn : vektorgagnagrunnur ber saman verðtryggða fyrirspurnarvigurinn við verðtryggða vektora í gagnasafninu til að finna nánustu nágranna (með því að nota líkindamæligildi sem sú vísitala notar)
  • Eftirvinnsla : Í sumum tilfellum sækir vektorgagnagrunnurinn síðustu næstu nágranna úr gagnasafninu og eftirvinnir þá til að skila endanlegum niðurstöðum. Þetta skref getur falið í sér að endurflokka næstu nágranna með því að nota annan líkindamælikvarða.

Hagur

Vektorgagnagrunnar eru öflugt tæki fyrir líkindaleit og aðrar flóknar aðgerðir á stórum gagnasöfnum, sem ekki er hægt að framkvæma á áhrifaríkan hátt með hefðbundnum gagnagrunnum. Til að byggja upp virkan vektorgagnagrunn eru innfellingar nauðsynlegar þar sem þær fanga merkingarlega merkingu gagnanna og gera nákvæma líkindaleit kleift. Ólíkt vektorsöfnum eru vektorgagnagrunnar hannaðir til að passa við notkunartilvik okkar, sem gerir þá tilvalin fyrir forrit þar sem frammistaða og sveigjanleiki eru mikilvæg. Með aukningu vélanáms og gervigreindar verða vektorgagnagrunnar sífellt mikilvægari fyrir fjölbreytt úrval forrita, þar á meðal meðmælakerfi, myndaleit, merkingarfræðilega líkt og listinn heldur áfram. Eftir því sem sviðið heldur áfram að þróast getum við búist við að sjá enn nýstárlegri notkun vektorgagnagrunna í framtíðinni.

Ercole Palmeri

Nýsköpunarfréttabréf
Ekki missa af mikilvægustu fréttunum um nýsköpun. Skráðu þig til að fá þau með tölvupósti.

Nýlegar greinar

Útgefendur og OpenAI skrifa undir samninga um að stjórna flæði upplýsinga sem unnið er með gervigreind

Síðasta mánudag tilkynnti Financial Times um samning við OpenAI. FT leyfir heimsklassa blaðamennsku…

30 Apríl 2024

Greiðslur á netinu: Hér er hvernig streymisþjónusta gerir þér kleift að borga að eilífu

Milljónir manna borga fyrir streymisþjónustu og greiða mánaðarlega áskriftargjöld. Það er almenn skoðun að þú…

29 Apríl 2024

Veeam býður upp á umfangsmesta stuðninginn fyrir lausnarhugbúnað, allt frá vernd til viðbragða og bata

Coveware frá Veeam mun halda áfram að veita viðbragðsþjónustu fyrir tölvukúgun. Coveware mun bjóða upp á réttar- og úrbótamöguleika ...

23 Apríl 2024

Græn og stafræn bylting: Hvernig forspárviðhald er að umbreyta olíu- og gasiðnaðinum

Forspárviðhald er að gjörbylta olíu- og gasgeiranum, með nýstárlegri og fyrirbyggjandi nálgun við verksmiðjustjórnun.…

22 Apríl 2024