लेख

वेक्टर डेटाबेस क्या हैं, वे कैसे काम करते हैं और संभावित बाजार

एक वेक्टर डेटाबेस एक प्रकार का डेटाबेस है जो डेटा को उच्च-आयामी वैक्टर के रूप में संग्रहीत करता है, जो सुविधाओं या विशेषताओं का गणितीय प्रतिनिधित्व है।

ये वैक्टर आमतौर पर कच्चे डेटा, जैसे पाठ, चित्र, ऑडियो, वीडियो और अन्य में किसी प्रकार के एम्बेडिंग फ़ंक्शन को लागू करके उत्पन्न होते हैं।

वेक्टर डेटाबेस हो सकते हैं defiनाइट एक ऐसे उपकरण के रूप में है जो मेटाडेटा फ़िल्टरिंग और क्षैतिज स्केलिंग जैसी सुविधाओं के साथ त्वरित पुनर्प्राप्ति और समानता खोज के लिए वेक्टर एम्बेड को अनुक्रमित और संग्रहीत करता है।

तबेला देई कॉन्टेनुटि

अनुमानित पढ़ने का समय: 9 मिनट

बढ़ती निवेशक रुचि

हाल के सप्ताहों में वेक्टर डेटाबेस में निवेशकों की दिलचस्पी बढ़ी है। 2023 की शुरुआत से हमने देखा है कि:

वेक्टर डेटाबेस स्टार्टअप बुनना उसने प्राप्त किया सीरीज़ बी फंडिंग में $50 मिलियन;
सनोबर की चिलग़ोज़ा $100 मिलियन के मूल्यांकन पर सीरीज बी फंडिंग में $750 मिलियन जुटाए;
क्रोमा , एक ओपन सोर्स प्रोजेक्ट, ने अपने एम्बेडिंग डेटाबेस के लिए $18 मिलियन जुटाए;

आइए अधिक विस्तार से देखें कि वेक्टर डेटाबेस क्या हैं।

डेटा प्रतिनिधित्व के रूप में वेक्टर

वेक्टर डेटाबेस वेक्टर एम्बेडिंग पर बहुत अधिक निर्भर करते हैं, एक प्रकार का डेटा प्रतिनिधित्व जो जटिल गतिविधियों को निष्पादित करते समय आकर्षित करने के लिए एआई को समझने और दीर्घकालिक स्मृति को बनाए रखने के लिए महत्वपूर्ण सिमेंटिक जानकारी रखता है।

वेक्टर एम्बेड

वेक्टर एम्बेड एक मानचित्र की तरह हैं, लेकिन हमें यह दिखाने के बजाय कि दुनिया में चीजें कहां हैं, वे हमें दिखाते हैं कि चीजें कहां हैं सदिश स्थल। वेक्टर स्पेस एक तरह का बड़ा खेल का मैदान है जहां हर चीज के खेलने की जगह होती है। कल्पना कीजिए कि आपके पास जानवरों का एक समूह है: एक बिल्ली, एक कुत्ता, एक पक्षी और एक मछली। हम प्रत्येक छवि को खेल के मैदान पर एक विशेष स्थान देकर एक वेक्टर एम्बेड बना सकते हैं। एक कोने में बिल्ली हो सकती है, दूसरी तरफ कुत्ता। पक्षी आकाश में हो सकता है और मछली तालाब में। यह स्थान एक बहुआयामी स्थान है। प्रत्येक आयाम उनके विभिन्न पहलुओं से मेल खाता है, उदाहरण के लिए, मछली के पंख होते हैं, पक्षियों के पंख होते हैं, बिल्लियों और कुत्तों के पैर होते हैं। उनमें से एक और पहलू यह हो सकता है कि मछली पानी से, पक्षी मुख्य रूप से आकाश से, और बिल्लियाँ और कुत्ते जमीन से संबंधित हैं। एक बार हमारे पास ये वैक्टर हो जाने के बाद, हम गणितीय तकनीकों का उपयोग उनकी समानता के आधार पर उन्हें समूहित करने के लिए कर सकते हैं। हमारे पास मौजूद जानकारी के आधार पर,

तो, वेक्टर एम्बेडिंग एक मानचित्र की तरह है जो हमें वेक्टर स्पेस में चीजों के बीच समानता खोजने में मदद करता है। जिस तरह एक नक्शा हमें दुनिया को नेविगेट करने में मदद करता है, वेक्टर एम्बेड वेक्टर खेल के मैदान को नेविगेट करने में मदद करता है।

मुख्य विचार यह है कि एक दूसरे के समान शब्दार्थ वाले एम्बेडों के बीच की दूरी कम होती है। यह पता लगाने के लिए कि वे कितने समान हैं, हम यूक्लिडियन दूरी, कोसाइन दूरी आदि जैसे सदिश दूरी कार्यों का उपयोग कर सकते हैं।

वेक्टर डेटाबेस बनाम वेक्टर लाइब्रेरी

वेक्टर पुस्तकालय समानता खोज करने के लिए मेमोरी में इंडेक्स में वैक्टर के एम्बेडिंग स्टोर करें। वेक्टर पुस्तकालयों की निम्नलिखित विशेषताएँ/सीमाएँ हैं:

केवल वेक्टर स्टोर करें : वेक्टर पुस्तकालय केवल वैक्टर के एम्बेडिंग को संग्रहीत करते हैं, न कि संबंधित वस्तुओं को जिससे वे उत्पन्न हुए थे। इसका मतलब यह है कि जब हम क्वेरी करते हैं, तो वेक्टर लाइब्रेरी प्रासंगिक वैक्टर और ऑब्जेक्ट आईडी के साथ प्रतिक्रिया देगी। यह सीमित है क्योंकि वास्तविक जानकारी वस्तु में संग्रहीत है न कि आईडी में। इस समस्या को हल करने के लिए, हमें वस्तुओं को द्वितीयक भंडारण में संग्रहित करना चाहिए। हम तब क्वेरी द्वारा लौटाई गई आईडी का उपयोग कर सकते हैं और परिणामों को समझने के लिए उन्हें वस्तुओं से मिला सकते हैं।
सूचकांक डेटा अपरिवर्तनीय है : सदिश पुस्तकालयों द्वारा निर्मित सूचकांक अपरिवर्तनीय हैं। इसका मतलब यह है कि एक बार जब हम अपना डेटा आयात कर लेते हैं और इंडेक्स बना लेते हैं, तो हम कोई बदलाव नहीं कर सकते (कोई नया इंसर्ट, डिलीट या बदलाव नहीं)। अपनी अनुक्रमणिका में परिवर्तन करने के लिए, हमें इसे बिल्कुल नए सिरे से बनाना होगा
आयात प्रतिबंधित करते समय क्वेरी : डेटा आयात करते समय अधिकांश वेक्टर पुस्तकालयों से पूछताछ नहीं की जा सकती। हमें पहले अपनी सभी डेटा वस्तुओं को आयात करने की आवश्यकता है। इसलिए वस्तुओं के आयात के बाद इंडेक्स बनाया जाता है। यह उन अनुप्रयोगों के लिए एक समस्या हो सकती है जिन्हें आयात करने के लिए लाखों या अरबों वस्तुओं की आवश्यकता होती है।

कई सदिश खोज लाइब्रेरी उपलब्ध हैं: फेसबुक का FAISS, नाराज़ Spotify द्वारा और स्कैनएनएन गूगल द्वारा। FAISS क्लस्टरिंग विधि का उपयोग करता है, एनॉय पेड़ों का उपयोग करता है और स्कैनएनएन वेक्टर संपीड़न का उपयोग करता है। प्रत्येक के लिए एक प्रदर्शन समझौता है, जिसे हम अपने आवेदन और प्रदर्शन मेट्रिक्स के आधार पर चुन सकते हैं।

CRUD

सदिश डेटाबेस को सदिश पुस्तकालयों से अलग करने वाली मुख्य विशेषता डेटा को संग्रह करने, अद्यतन करने और हटाने की क्षमता है। वेक्टर डेटाबेस में CRUD सपोर्ट होता है पूरा (बनाएं, पढ़ें, अपडेट करें और हटाएं) जो वेक्टर लाइब्रेरी की सीमाओं को हल करता है।

पुरालेख वैक्टर और वस्तुओं : डेटाबेस डेटा ऑब्जेक्ट और वैक्टर दोनों को स्टोर कर सकते हैं। चूंकि दोनों संग्रहीत हैं, हम वेक्टर खोज को संरचित फ़िल्टर के साथ जोड़ सकते हैं। फ़िल्टर हमें यह सुनिश्चित करने की अनुमति देते हैं कि निकटतम पड़ोसी मेटाडेटा फ़िल्टर से मेल खाते हैं।
अस्थिरता : वेक्टर डेटाबेस पूरी तरह से समर्थन करते हैं क्रूड, हम अपनी अनुक्रमणिका के बनने के बाद उसमें प्रविष्टियों को आसानी से जोड़, हटा या अद्यतन कर सकते हैं। लगातार बदलते डेटा के साथ काम करते समय यह विशेष रूप से उपयोगी होता है।
रीयल-टाइम खोज : वेक्टर पुस्तकालयों के विपरीत, डेटाबेस हमें आयात प्रक्रिया के दौरान अपने डेटा को क्वेरी और संशोधित करने की अनुमति देते हैं। जैसे ही हम लाखों वस्तुओं को लोड करते हैं, आयातित डेटा पूरी तरह से सुलभ और परिचालन में रहता है, इसलिए आपको पहले से मौजूद डेटा पर काम करना शुरू करने के लिए आयात के पूरा होने की प्रतीक्षा करने की आवश्यकता नहीं है।

संक्षेप में, एक वेक्टर डेटाबेस पिछले बिंदुओं में चर्चा के अनुसार स्व-निहित वेक्टर सूचकांकों की सीमाओं को संबोधित करते हुए वेक्टर एम्बेड को संभालने के लिए एक बेहतर समाधान प्रदान करता है।

लेकिन वेक्टर डेटाबेस को पारंपरिक डेटाबेस से बेहतर क्या बनाता है?

वेक्टर डेटाबेस बनाम पारंपरिक डेटाबेस

पारंपरिक डेटाबेस को संबंधपरक मॉडल का उपयोग करके संरचित डेटा को संग्रहीत और पुनर्प्राप्त करने के लिए डिज़ाइन किया गया है, जिसका अर्थ है कि वे डेटा के कॉलम और पंक्तियों के आधार पर प्रश्नों के लिए अनुकूलित हैं। जबकि वेक्टर एम्बेडिंग को पारंपरिक डेटाबेस में संग्रहीत करना संभव है, ये डेटाबेस वेक्टर संचालन के लिए अनुकूलित नहीं हैं और बड़े डेटासेट पर समानता खोज या अन्य जटिल संचालन कुशलता से नहीं कर सकते हैं।

ऐसा इसलिए है क्योंकि पारंपरिक डेटाबेस सरल डेटा प्रकारों, जैसे स्ट्रिंग्स या संख्याओं के आधार पर अनुक्रमण तकनीकों का उपयोग करते हैं। ये इंडेक्सिंग तकनीक वेक्टर डेटा के लिए उपयुक्त नहीं हैं, जिसमें उच्च डायमेंशन होता है और विशेष इंडेक्सिंग तकनीकों की आवश्यकता होती है जैसे कि इनवर्टेड इंडेक्स या स्पेसियल ट्री।

साथ ही, पारंपरिक डेटाबेस को बड़ी मात्रा में असंरचित या अर्ध-संरचित डेटा को संभालने के लिए डिज़ाइन नहीं किया जाता है जो अक्सर वेक्टर एम्बेड से जुड़ा होता है। उदाहरण के लिए, एक छवि या ऑडियो फ़ाइल में लाखों डेटा बिंदु हो सकते हैं, जिन्हें पारंपरिक डेटाबेस कुशलता से संभाल नहीं सकते।

दूसरी ओर, वेक्टर डेटाबेस, विशेष रूप से वेक्टर डेटा को संग्रहीत करने और पुनः प्राप्त करने के लिए डिज़ाइन किए गए हैं और बड़े डेटासेट पर समानता खोजों और अन्य जटिल संचालन के लिए अनुकूलित हैं। वे उच्च-आयामी डेटा के साथ काम करने के लिए डिज़ाइन की गई विशेष अनुक्रमण तकनीकों और एल्गोरिदम का उपयोग करते हैं, जिससे वे वेक्टर एम्बेड को संग्रहीत करने और पुनः प्राप्त करने के लिए पारंपरिक डेटाबेस की तुलना में अधिक कुशल बन जाते हैं।

अब जब आपने वेक्टर डेटाबेस के बारे में इतना कुछ पढ़ लिया है, तो आप सोच रहे होंगे कि वे कैसे काम करते हैं? चलो एक नज़र मारें।

वेक्टर डेटाबेस कैसे काम करता है?

हम सभी जानते हैं कि रिलेशनल डेटाबेस कैसे काम करते हैं: वे स्ट्रिंग्स, नंबर्स और अन्य प्रकार के स्केलर डेटा को रो और कॉलम में स्टोर करते हैं। दूसरी ओर, वेक्टर डेटाबेस वैक्टर पर काम करता है, इसलिए जिस तरह से इसे अनुकूलित और पूछताछ की जाती है वह काफी अलग है।

पारंपरिक डेटाबेस में, हम आमतौर पर डेटाबेस में उन पंक्तियों के लिए क्वेरी करते हैं जहाँ मान आमतौर पर हमारी क्वेरी से बिल्कुल मेल खाते हैं। वेक्टर डेटाबेस में, हम एक वेक्टर खोजने के लिए एक समानता मीट्रिक लागू करते हैं जो हमारी क्वेरी के समान है।

वेक्टर डेटाबेस कई एल्गोरिदम के संयोजन का उपयोग करता है जो सभी निकटतम पड़ोसी खोज (एएनएन) में भाग लेते हैं। ये एल्गोरिदम हैशिंग, परिमाणीकरण या ग्राफ़-आधारित खोज द्वारा खोज को अनुकूलित करते हैं।

इन एल्गोरिदम को एक पाइपलाइन में इकट्ठा किया जाता है जो एक क्वेरी वेक्टर के पड़ोसियों की तेज़ और सटीक पुनर्प्राप्ति प्रदान करता है। चूंकि वेक्टर डेटाबेस अनुमानित परिणाम प्रदान करता है, हम जिन मुख्य ट्रेडऑफ़ पर विचार करते हैं वे सटीकता और गति के बीच हैं। परिणाम जितना सटीक होगा, क्वेरी उतनी ही धीमी होगी। हालांकि, एक अच्छी प्रणाली निकट-पूर्ण सटीकता के साथ अल्ट्रा-फास्ट खोज प्रदान कर सकती है।

इंडेक्सिंग : वेक्टर डेटाबेस पीक्यू, एलएसएच या एचएनएसडब्ल्यू जैसे एल्गोरिदम का उपयोग करके वैक्टर को अनुक्रमित करता है। यह कदम वैक्टर को डेटा संरचना से जोड़ता है जो तेजी से खोज की अनुमति देगा।
प्रश्न : वेक्टर डेटाबेस निकटतम पड़ोसियों को खोजने के लिए डेटासेट में अनुक्रमित वैक्टर के खिलाफ अनुक्रमित क्वेरी वेक्टर की तुलना करता है (उस इंडेक्स द्वारा उपयोग की जाने वाली समानता मीट्रिक लागू करना)
प्रोसेसिंग के बाद : कुछ मामलों में, वेक्टर डेटाबेस अंतिम निकटतम पड़ोसियों को डेटासेट से प्राप्त करता है और अंतिम परिणाम वापस करने के लिए उन्हें पोस्ट-प्रोसेस करता है। इस कदम में एक अलग समानता माप का उपयोग करके निकटतम पड़ोसियों को पुनर्वर्गीकृत करना शामिल हो सकता है।

लाभ

सदिश डेटाबेस बड़े डेटा सेट पर समानता खोज और अन्य जटिल संचालन के लिए एक शक्तिशाली उपकरण है, जिसे पारंपरिक डेटाबेस का उपयोग करके प्रभावी ढंग से नहीं किया जा सकता है। एक कार्यात्मक वेक्टर डेटाबेस बनाने के लिए, एम्बेड आवश्यक हैं, क्योंकि वे डेटा के सिमेंटिक अर्थ को कैप्चर करते हैं और सटीक समानता खोजों को सक्षम करते हैं। वेक्टर पुस्तकालयों के विपरीत, वेक्टर डेटाबेस को हमारे उपयोग के मामले में फिट करने के लिए डिज़ाइन किया गया है, जिससे वे उन अनुप्रयोगों के लिए आदर्श बन जाते हैं जहाँ प्रदर्शन और मापनीयता महत्वपूर्ण होती है। मशीन लर्निंग और आर्टिफिशियल इंटेलिजेंस के उदय के साथ, सदिश डेटाबेस अनुप्रयोगों की एक विस्तृत श्रृंखला के लिए तेजी से महत्वपूर्ण होते जा रहे हैं, जिसमें अनुशंसा प्रणाली, छवि खोज, सिमेंटिक समानता और सूची शामिल है। जैसे-जैसे क्षेत्र विकसित होता जा रहा है, हम भविष्य में वेक्टर डेटाबेस के और भी नवीन अनुप्रयोगों को देखने की उम्मीद कर सकते हैं।

Ercole Palmeri