ארטיקלען

וואָס זענען וועקטאָר דאַטאַבייסיז, ווי זיי אַרבעט און פּאָטענציעל מאַרק

א וועקטאָר דאַטאַבייס איז אַ טיפּ פון דאַטאַבייס וואָס סטאָרז דאַטן ווי הויך-דימענשאַנאַל וועקטאָרס, וואָס זענען מאַטאַמאַטיקאַל רעפּראַזאַנטיישאַנז פון פֿעיִקייטן אָדער אַטריביוץ. 

די וועקטאָרס זענען יוזשאַוואַלי דזשענערייטאַד דורך אַפּלייינג עטלעכע סאָרט פון עמבעדדינג פונקציע צו רוי דאַטן, אַזאַ ווי טעקסט, בילדער, אַודיאָ, ווידעא און אנדערע.

וועקטאָר דאַטאַבייסיז קענען זיין defiניט ווי אַ געצייַג וואָס ינדעקסיז און סטאָרז וועקטאָר עמבעדז פֿאַר שנעל ריטריוואַל און ענלעכקייט זוכן, מיט פֿעיִקייטן ווי מעטאַדאַטאַ פֿילטרירונג און האָריזאָנטאַל סקיילינג.

עסטימאַטעד לייענען צייט: 9 minuti

גראָוינג ינוועסטער אינטערעס

אין די לעצטע וואָכן, עס איז געווען אַ סערדזש אין ינוועסטער אינטערעס אין וועקטאָר דאַטאַבייסיז. זינט די אָנהייב פון 2023 מיר האָבן באמערקט אַז:

לאָמיר זען אין מער דעטאַל וואָס וועקטאָר דאַטאַבייסיז זענען.

וועקטאָרס ווי דאַטן פאַרטרעטונג

וועקטאָר דאַטאַבייסיז פאַרלאָזנ זיך שווער אויף וועקטאָר עמבעדדינג, אַ טיפּ פון דאַטן פאַרטרעטונג וואָס קאַריז אין עס די סעמאַנטיק אינפֿאָרמאַציע קריטיש פֿאַר אַי צו באַקומען פארשטאנד און טייַנען לאַנג-טערמין זכּרון צו ציען אויף ווען עקסאַקיוטינג קאָמפּלעקס אַקטיוויטעטן. 

וועקטאָר עמבעדז

וועקטאָר עמבעדז זענען ווי אַ מאַפּע, אָבער אַנשטאָט פון ווייַזן אונדז ווו זאכן זענען אין דער וועלט, זיי ווייַזן אונדז ווו זאכן זענען אין עפּעס גערופן וועקטאָר פּלאַץ. וועקטאָר פּלאַץ איז מין פון אַ גרויס שפּילפּלאַץ ווו אַלץ האט זיין אָרט צו שפּילן. ימאַדזשאַן אַז איר האָבן אַ גרופּע פון ​​אַנימאַלס: אַ קאַץ, אַ הונט, אַ פויגל און אַ פיש. מיר קענען מאַכן אַ וועקטאָר ימבעד פֿאַר יעדער בילד דורך געבן עס אַ ספּעציעל שטעלע אויף די שפּילפּלאַץ. דער קאַץ קען זיין אין איין ווינקל, דער הונט אויף די אנדערע זייַט. דער פויגל קען זיין אין די הימל און די פיש קען זיין אין די סטאַוו. דעם אָרט איז אַ מולטידימענסיאָנאַל פּלאַץ. יעדער ויסמעסטונג קאָראַספּאַנדז צו פאַרשידענע אַספּעקץ פון זיי, למשל, פיש האָבן פינס, פייגל האָבן פליגל, קאַץ און הינט האָבן לעגס. אן אנדער אַספּעקט פון זיי קען זיין אַז פיש געהערן צו וואַסער, פייגל דער הויפּט צו די הימל, און קאַץ און הינט צו דער ערד. אַמאָל מיר האָבן די וועקטאָרס, מיר קענען נוצן מאַטאַמאַטיקאַל טעקניקס צו גרופּע זיי באזירט אויף זייער ענלעכקייט. באַזירט אויף די אינפֿאָרמאַציע מיר האַלטן,

אַזוי, וועקטאָר עמבעדדינגז זענען ווי אַ מאַפּע וואָס העלפּס אונדז געפֿינען ענלעכקייט צווישן זאכן אין וועקטאָר פּלאַץ. פּונקט ווי אַ מאַפּע העלפּס אונדז נאַוויגירן די וועלט, וועקטאָר עמבעדז העלפֿן נאַוויגירן די וועקטאָר שפּילפּלאַץ.

דער שליסל געדאַנק איז אַז עמבעדז וואָס זענען סעמאַנטיקאַללי ענלעך צו יעדער אנדערער האָבן אַ קלענערער ווייַטקייט צווישן זיי. צו געפינען אויס ווי ענלעך זיי זענען, מיר קענען נוצן וועקטאָר דיסטאַנסע פאַנגקשאַנז אַזאַ ווי עוקלידיאַן דיסטאַנסע, קאָסינע דיסטאַנסע, עטק.

וועקטאָר דאַטאַבייסיז ווס וועקטאָר לייברעריז

די וועקטאָר לייברעריז קראָם עמבעדדינגס פון וועקטאָרס אין ינדעקסיז אין זכּרון, אין סדר צו דורכפירן ענלעכקייט אָנפֿרעגן. וועקטאָר לייברעריז האָבן די פאלגענדע קעראַקטעריסטיקס / לימיטיישאַנז:

  1. סטאָר וועקטאָרס בלויז : וועקטאָר ביבליאָטעק בלויז קראָם עמבעדינגז פון וועקטאָרס און נישט די פארבונדן אַבדזשעקץ פון וואָס זיי זענען דזשענערייטאַד. דעם מיטל אַז ווען מיר אָנפֿרעג, אַ וועקטאָר ביבליאָטעק וועט ריספּאַנד מיט די באַטייַטיק וועקטאָרס און כייפעץ IDs. דאָס איז לימאַטינג זינט די פאַקטיש אינפֿאָרמאַציע איז סטאָרד אין די כייפעץ און נישט די שייַן. צו סאָלווע דעם פּראָבלעם, מיר זאָל קראָם די אַבדזשעקץ אין צווייטיק סטאָרידזש. מיר קענען דעריבער נוצן די IDs אומגעקערט דורך די אָנפֿרעג און גלייַכן זיי צו אַבדזשעקץ צו פֿאַרשטיין די רעזולטאַטן.
  2. אינדעקס דאַטן איז ימיוטאַבאַל : ינדעקסיז געשאפן דורך וועקטאָר לייברעריז זענען ימיוטאַבאַל. דאָס מיינט אַז אַמאָל מיר האָבן ימפּאָרטיד אונדזער דאַטן און געבויט דעם אינדעקס, מיר קענען נישט מאַכן קיין ענדערונגען (קיין נייַ ינסערץ, דילישאַנז אָדער ענדערונגען). צו מאַכן ענדערונגען צו אונדזער אינדעקס, מיר וועלן האָבן צו ריבילד עס פֿון קראַצן
  3. אָנפֿרעג בשעת באַגרענעצן אַרייַנפיר : רובֿ וועקטאָר לייברעריז קענען ניט זיין קווערד בשעת ימפּאָרטינג דאַטן. מיר דאַרפֿן צו אַרייַנפיר אַלע אונדזער דאַטן אַבדזשעקץ ערשטער. אַזוי דער אינדעקס איז באשאפן נאָך ימפּאָרטיד די אַבדזשעקץ. דאָס קען זיין אַ פּראָבלעם פֿאַר אַפּלאַקיישאַנז וואָס דאַרפן ימפּאָרטיד מיליאַנז אָדער אפילו ביליאַנז פון אַבדזשעקץ.

עס זענען פילע וועקטאָר זוכן לייברעריז בנימצא: FAISS פון פאַסעבאָאָק, אַנוי דורך Spotify און ScanNN דורך Google. FAISS ניצט אַ קלאַסטערינג אופֿן, אַנוי ניצט ביימער און ScanNN ניצט וועקטאָר קאַמפּרעשאַן. עס איז אַ פאָרשטעלונג האַנדל-אַוועק פֿאַר יעדער, וואָס מיר קענען קלייַבן באזירט אויף אונדזער אַפּלאַקיישאַן און פאָרשטעלונג מעטריקס.

CRUD

די הויפּט שטריך וואָס דיסטינגגווישיז וועקטאָר דאַטאַבייסיז פון וועקטאָר לייברעריז איז די פיייקייט צו אַרקייוו, דערהייַנטיקן און ויסמעקן דאַטן. וועקטאָר דאַטאַבייסיז האָבן CRUD שטיצן גאַנץ (שאַפֿן, לייענען, דערהייַנטיקן און ויסמעקן) וואָס סאַלווז די לימיטיישאַנז פון אַ וועקטאָר ביבליאָטעק.

  1. אַרטשיווע וועקטאָרס און אַבדזשעקץ : דאַטאַבייסיז קענען קראָם ביידע דאַטן אַבדזשעקץ און וועקטאָרס. זינט ביידע זענען סטאָרד, מיר קענען פאַרבינדן וועקטאָר זוכן מיט סטראַקטשערד פילטערס. פילטערס לאָזן אונדז צו מאַכן זיכער אַז די קלאָוסאַסט שכנים גלייַכן די מעטאַדאַטאַ פילטער.
  2. מיוטאַביליטי : ווי וועקטאָר דאַטאַבייסיז גאָר שטיצן גרויםע, מיר קענען לייכט לייגן, אַראָפּנעמען אָדער דערהייַנטיקן איינסן אין אונדזער אינדעקס נאָך עס איז באשאפן. דאָס איז ספּעציעל נוציק ווען ארבעטן מיט קעסיידער טשאַנגינג דאַטן.
  3. פאַקטיש-צייט זוכן : ניט ענלעך וועקטאָר לייברעריז, דאַטאַבייסיז לאָזן אונדז צו אָנפֿרעג און מאָדיפיצירן אונדזער דאַטן בעשאַס די אַרייַנפיר פּראָצעס. ווען מיר לאָדן מיליאַנז פון אַבדזשעקץ, די ימפּאָרטיד דאַטן בלייבן גאָר צוטריטלעך און אַפּעריישאַנאַל, אַזוי איר טאָן ניט האָבן צו וואַרטן ביז די ימפּאָרט איז געענדיקט צו אָנהייבן ארבעטן אויף וואָס איז שוין דאָרט.

אין קורץ, אַ וועקטאָר דאַטאַבייס גיט אַ העכער לייזונג פֿאַר האַנדלינג וועקטאָר עמבעדז דורך אַדרעסינג די לימיטיישאַנז פון זיך-קאַנטיינד וועקטאָר ינדיסיז ווי דיסקאַסט אין די פריערדיקע פונקטן.

אָבער וואָס מאכט וועקטאָר דאַטאַבייסיז העכער צו טראדיציאנעלן דאַטאַבייסיז?

וועקטאָר דאַטאַבייסיז קעגן טראדיציאנעלן דאַטאַבייסיז

טראַדיציאָנעל דאַטאַבייסיז זענען דיזיינד צו קראָם און צוריקקריגן סטראַקטשערד דאַטן ניצן ריליישאַנאַל מאָדעלס, וואָס מיטל אַז זיי זענען אָפּטימיזעד פֿאַר פֿראגן באזירט אויף שפאלטן און ראָוז פון דאַטן. כאָטש עס איז מעגלעך צו קראָם וועקטאָר עמבעדינגז אין טראדיציאנעלן דאַטאַבייסיז, די דאַטאַבייסיז זענען נישט אָפּטימיזעד פֿאַר וועקטאָר אַפּעריישאַנז און קענען נישט דורכפירן ענלעכקייט אָנפֿרעגן אָדער אנדערע קאָמפּלעקס אַפּעריישאַנז אויף גרויס דאַטאַסעץ יפישאַנטלי.

דאָס איז ווייַל טראדיציאנעלן דאַטאַבייסיז נוצן ינדעקסינג טעקניקס באזירט אויף פּשוט דאַטן טייפּס, אַזאַ ווי סטרינגס אָדער נומערן. די ינדעקסינג טעקניקס זענען נישט פּאַסיק פֿאַר וועקטאָר דאַטן, וואָס האָבן הויך דימענשאַנאַליטי און ריקווייערז ספּעשאַלייזד ינדעקסינג טעקניקס אַזאַ ווי ינווערטיד ינדעקסיז אָדער ספּיישאַל ביימער.

אויך, טראדיציאנעלן דאַטאַבייסיז זענען נישט דיזיינד צו שעפּן די גרויס אַמאַונץ פון אַנסטראַקטשערד אָדער האַלב-סטראַקטשערד דאַטן אָפט פארבונדן מיט וועקטאָר עמבעדז. פֿאַר בייַשפּיל, אַ בילד אָדער אַודיאָ טעקע קענען אַנטהאַלטן מיליאַנז פון דאַטן פונקטן, וואָס טראדיציאנעלן דאַטאַבייסיז קענען נישט שעפּן יפישאַנטלי.

וועקטאָר דאַטאַבייסיז, אויף די אנדערע האַנט, זענען ספּאַסיפיקלי דיזיינד צו קראָם און צוריקקריגן וועקטאָר דאַטן און זענען אָפּטימיזעד פֿאַר ענלעכקייט אָנפֿרעגן און אנדערע קאָמפּלעקס אַפּעריישאַנז אויף גרויס דאַטאַסעץ. זיי נוצן ספּעשאַלייזד ינדעקסינג טעקניקס און אַלגערידאַמז דיזיינד צו אַרבעטן מיט הויך-דימענשאַנאַל דאַטן, מאכן זיי פיל מער עפעקטיוו ווי טראדיציאנעלן דאַטאַבייסיז פֿאַר סטאָרינג און ריטריווינג וועקטאָר עמבעדז.

איצט אַז איר האָט לייענען אַזוי פיל וועגן וועקטאָר דאַטאַבייסיז, איר קען זיין וואַנדערינג, ווי טאָן זיי אַרבעט? זאל ס נעמען אַ קוק.

ווי אַזוי אַרבעט אַ וועקטאָר דאַטאַבייס?

מיר אַלע וויסן ווי ריליישאַנאַל דאַטאַבייסיז אַרבעט: זיי קראָם סטרינגס, נומערן און אנדערע טייפּס פון סקאַלאַר דאַטן אין ראָוז און שפאלטן. אויף די אנדערע האַנט, אַ וועקטאָר דאַטאַבייס אַפּערייץ אויף וועקטאָרס, אַזוי די וועג עס איז אָפּטימיזעד און קווערד איז גאַנץ אַנדערש.

אין בעקאַבאָלעדיק דאַטאַבייסיז, מיר יוזשאַוואַלי אָנפֿרעג פֿאַר ראָוז אין די דאַטאַבייס, ווו די ווערט יוזשאַוואַלי גלייַכן אונדזער אָנפֿרעג פּונקט. אין וועקטאָר דאַטאַבייסיז, מיר צולייגן אַ ענלעכקייט מעטריק צו געפֿינען אַ וועקטאָר וואָס איז מערסט ענלעך צו אונדזער אָנפֿרעג.

א וועקטאָר דאַטאַבייס ניצט אַ קאָמבינאַציע פון ​​עטלעכע אַלגערידאַמז וואָס אַלע אָנטייל נעמען אין ניראַסט חבר זוכן (ANN). די אַלגערידאַמז אַפּטאַמייז זוכן דורך כאַשינג, קוואַנטיזאַטיאָן אָדער גראַפיק-באזירט זוכן.

די אַלגערידאַמז זענען פארזאמלט אין אַ רערנ - ליניע וואָס גיט שנעל און פּינטלעך ריטריוואַל פון די שכנים פון אַ קווערד וועקטאָר. זינט די וועקטאָר דאַטאַבייס גיט דערנענטערנ רעזולטאַטן, די הויפּט טריידאָפפס וואָס מיר באַטראַכטן זענען צווישן אַקיעראַסי און גיכקייַט. די מער גענוי די רעזולטאַט, די סלאָוער די אָנפֿרעג וועט זיין. אָבער, אַ גוט סיסטעם קענען צושטעלן הינטער-שנעל זוכן מיט כּמעט שליימעסדיק אַקיעראַסי.

  • ינדעקסינג : די וועקטאָר דאַטאַבייס ינדעקסיז וועקטאָרס ניצן אַ אַלגערידאַם אַזאַ ווי PQ, LSH אָדער HNSW. דער שריט אַססאָסיאַטעס די וועקטאָרס מיט אַ דאַטן סטרוקטור וואָס וועט לאָזן פאַסטער זוכן.
  • אָנפֿרעג : וועקטאָר דאַטאַבייס קאַמפּערז די ינדעקסט אָנפֿרעג וועקטאָר קעגן ינדעקסט וועקטאָרס אין די דאַטאַסעט צו געפֿינען די קלאָוסאַסט שכנים (אַפּפּלייינג אַ ענלעכקייט מעטריק געניצט דורך דעם אינדעקס)
  • פּאָסטן-פּראַסעסינג : אין עטלעכע קאַסעס, די וועקטאָר דאַטאַבייס נעמט די לעצט ניראַסט שכנים פון די דאַטאַסעט און פּאָסטן-פּראַסעסאַז זיי צו צוריקקומען די לעצט רעזולטאַטן. דער שריט קען אַרייַננעמען רעקלאַסאַפייינג די קלאָוסאַסט שכנים מיט אַ אַנדערש ענלעכקייט מאָס.

Benefits

וועקטאָר דאַטאַבייסיז זענען אַ שטאַרק געצייַג פֿאַר ענלעכקייט אָנפֿרעגן און אנדערע קאָמפּלעקס אַפּעריישאַנז אויף גרויס דאַטן שטעלט, וואָס קענען ניט זיין יפעקטיוולי דורכגעקאָכט מיט טראדיציאנעלן דאַטאַבייסיז. צו בויען אַ פאַנגקשאַנאַל וועקטאָר דאַטאַבייס, עמבעדז זענען יקערדיק, ווייַל זיי כאַפּן די סעמאַנטיק טייַטש פון די דאַטן און געבן פּינטלעך ענלעכקייט אָנפֿרעגן. ניט ענלעך וועקטאָר לייברעריז, וועקטאָר דאַטאַבייסיז זענען דיזיינד צו פּאַסיק אונדזער נוצן פאַל, מאכן זיי ידעאַל פֿאַר אַפּלאַקיישאַנז ווו פאָרשטעלונג און סקאַלאַביליטי זענען קריטיש. מיט די העכערונג פון מאַשין לערנען און קינסטלעך סייכל, וועקטאָר דאַטאַבייסיז ווערן ינקריסינגלי וויכטיק פֿאַר אַ ברייט קייט פון אַפּלאַקיישאַנז אַרייַנגערעכנט רעקאָממענדאַטאָר סיסטעמען, בילד זוכן, סעמאַנטיק ענלעכקייט און די רשימה גייט אויף. ווי די פעלד האלט צו יוואַלוו, מיר קענען דערוואַרטן צו זען אפילו מער ינאַווייטיוו אַפּלאַקיישאַנז פון וועקטאָר דאַטאַבייסיז אין דער צוקונפֿט.

Ercole Palmeri

כידעש נוזלעטער
דו זאלסט נישט פאַרפירן די מערסט וויכטיק נייַעס וועגן כידעש. צייכן אַרויף צו באַקומען זיי דורך E- בריוו.

לעצטע ארטיקלען

Veeam פֿעיִקייטן די מערסט פולשטענדיק שטיצן פֿאַר ראַנסאָמוואַרע, פֿון שוץ צו ענטפער און אָפּזוך

Coveware דורך Veeam וועט פאָרזעצן צו צושטעלן ענטפער באַדינונגס פֿאַר סייבער יקסטאָרשאַן אינצידענט. קאָוועוואַרע וועט פאָרשלאָגן פאָרענסיקס און רימעדייישאַן קייפּאַבילאַטיז ...

קסנומקס אפריל קסנומקס

גרין און דיגיטאַל רעוואלוציע: ווי פּרידיקטיוו וישאַלט איז טראַנספאָרמינג די אָיל און גאַז אינדוסטריע

פּרידיקטיוו וישאַלט איז רעוואַלושאַנייזינג די ייל & גאַז סעקטאָר, מיט אַן ינאַווייטיוו און פּראָואַקטיוו צוגאַנג צו פאַבריק פאַרוואַלטונג.…

קסנומקס אפריל קסנומקס

וק אַנטיטראַסט רעגולאַטאָר רייזאַז ביגטעטש שרעק איבער GenAI

די UK CMA האט ארויס אַ ווארענונג וועגן ביג טעק ס נאַטור אין די קינסטלעך סייכל מאַרק. דאָרט…

קסנומקס אפריל קסנומקס

Casa Green: ענערגיע רעוואָלוציע פֿאַר אַ סאַסטיינאַבאַל צוקונפֿט אין איטאליע

די "קאַסע גרין" דעקרעט, פארמולירט דורך די אייראפעישע יוניאַן צו פאַרבעסערן די ענערגיע עפעקטיווקייַט פון בנינים, האט פארענדיקט זיין לעגיסלאַטיווע פּראָצעס מיט ...

קסנומקס אפריל קסנומקס

לייענען כידעש אין דיין שפּראַך

כידעש נוזלעטער
דו זאלסט נישט פאַרפירן די מערסט וויכטיק נייַעס וועגן כידעש. צייכן אַרויף צו באַקומען זיי דורך E- בריוו.

גיי אונדז