மதிப்பிடப்பட்ட வாசிப்பு நேரம்: 9 நிமிடங்கள்
சமீபத்திய வாரங்களில், திசையன் தரவுத்தளங்களில் முதலீட்டாளர் ஆர்வம் அதிகரித்துள்ளது. 2023 ஆம் ஆண்டின் தொடக்கத்தில் இருந்து நாம் கவனித்தோம்:
திசையன் தரவுத்தளங்கள் என்ன என்பதை இன்னும் விரிவாகப் பார்ப்போம்.
திசையன் தரவுத்தளங்கள் வெக்டார் உட்பொதிப்பை பெரிதும் நம்பியுள்ளன, இது ஒரு வகையான தரவு பிரதிநிதித்துவம் ஆகும், இது AI க்கு முக்கியமான சொற்பொருள் தகவலை எடுத்துச் செல்கிறது மற்றும் சிக்கலான செயல்பாடுகளைச் செய்யும்போது நீண்ட கால நினைவாற்றலைப் பெறுகிறது.
திசையன் உட்பொதிப்புகள் ஒரு வரைபடத்தைப் போன்றது, ஆனால் உலகில் விஷயங்கள் எங்கே உள்ளன என்பதைக் காட்டுவதற்குப் பதிலாக, அவை ஏதோவொன்றில் விஷயங்கள் எங்குள்ளன என்பதைக் காட்டுகின்றன. திசையன் இடம். வெக்டர் ஸ்பேஸ் என்பது ஒரு பெரிய விளையாட்டு மைதானமாகும், அங்கு எல்லாம் விளையாட இடம் உள்ளது. உங்களிடம் விலங்குகளின் குழு இருப்பதாக கற்பனை செய்து பாருங்கள்: ஒரு பூனை, ஒரு நாய், ஒரு பறவை மற்றும் ஒரு மீன். விளையாட்டு மைதானத்தில் ஒரு சிறப்பு நிலையைக் கொடுத்து ஒவ்வொரு படத்திற்கும் ஒரு வெக்டார் உட்பொதியை உருவாக்கலாம். பூனை ஒரு மூலையில் இருக்கலாம், நாய் மறுபுறம். பறவை வானில் இருக்கலாம், மீன் குளத்தில் இருக்கலாம். இந்த இடம் பல பரிமாண வெளி. ஒவ்வொரு பரிமாணமும் அவற்றின் வெவ்வேறு அம்சங்களுக்கு ஒத்திருக்கிறது, எடுத்துக்காட்டாக, மீன்களுக்கு துடுப்புகள் உள்ளன, பறவைகளுக்கு இறக்கைகள் உள்ளன, பூனைகள் மற்றும் நாய்களுக்கு கால்கள் உள்ளன. அவற்றில் மற்றொரு அம்சம் என்னவென்றால், மீன் தண்ணீருக்கும், பறவைகள் முக்கியமாக வானத்திற்கும், பூனைகள் மற்றும் நாய்கள் தரைக்கும் சொந்தமானது. இந்த திசையன்களை நாம் பெற்றவுடன், அவற்றின் ஒற்றுமையின் அடிப்படையில் அவற்றைக் குழுவாக்க கணித நுட்பங்களைப் பயன்படுத்தலாம். நாங்கள் வைத்திருக்கும் தகவல்களின் அடிப்படையில்,
எனவே, திசையன் உட்பொதிப்புகள் ஒரு வரைபடம் போன்றது, இது திசையன் இடத்தில் உள்ள விஷயங்களுக்கு இடையே ஒற்றுமையைக் கண்டறிய உதவுகிறது. ஒரு வரைபடம் உலகிற்கு செல்ல உதவுவது போல், திசையன் உட்பொதிகள் திசையன் விளையாட்டு மைதானத்திற்கு செல்ல உதவுகின்றன.
முக்கிய யோசனை என்னவென்றால், சொற்பொருள் ரீதியாக ஒருவருக்கொருவர் ஒத்த உட்பொதிகள் அவற்றுக்கிடையே சிறிய தூரத்தைக் கொண்டுள்ளன. அவை எவ்வளவு ஒத்தவை என்பதைக் கண்டறிய, யூக்ளிடியன் தூரம், கொசைன் தூரம் போன்ற திசையன் தூர செயல்பாடுகளைப் பயன்படுத்தலாம்.
திசையன் நூலகங்கள் ஒற்றுமைத் தேடல்களைச் செய்வதற்காக, நினைவகத்தில் உள்ள குறியீடுகளில் திசையன்களின் உட்பொதிவுகளை சேமிக்கவும். திசையன் நூலகங்கள் பின்வரும் பண்புகள்/வரம்புகளைக் கொண்டுள்ளன:
பல திசையன் தேடல் நூலகங்கள் உள்ளன: ஃபேஸ்புக்கின் ஃபாஸ், அன்னோய் மூலம் Spotify மற்றும் ஸ்கேன்என்என் Google மூலம். FAISS கிளஸ்டரிங் முறையைப் பயன்படுத்துகிறது, Annoy மரங்களைப் பயன்படுத்துகிறது மற்றும் ScanNN திசையன் சுருக்கத்தைப் பயன்படுத்துகிறது. ஒவ்வொன்றிற்கும் ஒரு செயல்திறன் வர்த்தகம் உள்ளது, அதை நாங்கள் எங்கள் பயன்பாடு மற்றும் செயல்திறன் அளவீடுகளின் அடிப்படையில் தேர்வு செய்யலாம்.
திசையன் நூலகங்களிலிருந்து திசையன் தரவுத்தளங்களை வேறுபடுத்தும் முக்கிய அம்சம், தரவை காப்பகப்படுத்துதல், புதுப்பித்தல் மற்றும் நீக்குதல். திசையன் தரவுத்தளங்கள் CRUD ஆதரவைக் கொண்டுள்ளன வெக்டார் லைப்ரரியின் வரம்புகளைத் தீர்க்கும் (உருவாக்கு, படிக்க, புதுப்பிக்க மற்றும் நீக்க).
சுருக்கமாக, ஒரு திசையன் தரவுத்தளம் முந்தைய புள்ளிகளில் விவாதிக்கப்பட்ட தன்னிறைவான திசையன் குறியீடுகளின் வரம்புகளை நிவர்த்தி செய்வதன் மூலம் திசையன் உட்பொதிகளைக் கையாள்வதற்கான சிறந்த தீர்வை வழங்குகிறது.
ஆனால் வெக்டர் தரவுத்தளங்களை பாரம்பரிய தரவுத்தளங்களை விட உயர்ந்ததாக ஆக்குவது எது?
பாரம்பரிய தரவுத்தளங்கள் தொடர்புடைய மாதிரிகளைப் பயன்படுத்தி கட்டமைக்கப்பட்ட தரவைச் சேமிக்கவும் மீட்டெடுக்கவும் வடிவமைக்கப்பட்டுள்ளன, அதாவது அவை நெடுவரிசைகள் மற்றும் தரவின் வரிசைகளின் அடிப்படையில் வினவல்களுக்கு உகந்ததாக இருக்கும். பாரம்பரிய தரவுத்தளங்களில் திசையன் உட்பொதிவுகளை சேமிக்க முடியும் என்றாலும், இந்த தரவுத்தளங்கள் திசையன் செயல்பாடுகளுக்கு உகந்ததாக இல்லை மற்றும் பெரிய தரவுத்தொகுப்புகளில் ஒற்றுமை தேடல்கள் அல்லது பிற சிக்கலான செயல்பாடுகளை திறமையாக செய்ய முடியாது.
ஏனென்றால், பாரம்பரிய தரவுத்தளங்கள் சரங்கள் அல்லது எண்கள் போன்ற எளிய தரவு வகைகளின் அடிப்படையில் குறியீட்டு நுட்பங்களைப் பயன்படுத்துகின்றன. இந்த அட்டவணைப்படுத்தல் நுட்பங்கள் வெக்டார் தரவுகளுக்குப் பொருத்தமானவை அல்ல, இது அதிக பரிமாணத்தைக் கொண்டுள்ளது மற்றும் தலைகீழ் குறியீடுகள் அல்லது இடஞ்சார்ந்த மரங்கள் போன்ற சிறப்பு அட்டவணைப்படுத்தல் நுட்பங்கள் தேவைப்படுகின்றன.
மேலும், பாரம்பரிய தரவுத்தளங்கள் பெரும்பாலும் திசையன் உட்பொதிகளுடன் தொடர்புடைய பெரிய அளவிலான கட்டமைக்கப்படாத அல்லது அரை-கட்டமைக்கப்பட்ட தரவைக் கையாள வடிவமைக்கப்படவில்லை. எடுத்துக்காட்டாக, ஒரு படம் அல்லது ஆடியோ கோப்பு மில்லியன் கணக்கான தரவு புள்ளிகளைக் கொண்டிருக்கலாம், பாரம்பரிய தரவுத்தளங்கள் திறமையாக கையாள முடியாது.
மறுபுறம், திசையன் தரவுத்தளங்கள் குறிப்பாக திசையன் தரவைச் சேமிக்கவும் மீட்டெடுக்கவும் வடிவமைக்கப்பட்டுள்ளன, மேலும் அவை பெரிய தரவுத்தொகுப்புகளில் ஒற்றுமை தேடல்கள் மற்றும் பிற சிக்கலான செயல்பாடுகளுக்கு உகந்ததாக இருக்கும். அவை உயர் பரிமாண தரவுகளுடன் பணிபுரிய வடிவமைக்கப்பட்ட சிறப்பு அட்டவணைப்படுத்தல் நுட்பங்கள் மற்றும் வழிமுறைகளைப் பயன்படுத்துகின்றன, அவை வெக்டார் உட்பொதிகளை சேமிப்பதற்கும் மீட்டெடுப்பதற்கும் பாரம்பரிய தரவுத்தளங்களை விட மிகவும் திறமையானவை.
திசையன் தரவுத்தளங்களைப் பற்றி நீங்கள் இப்போது அதிகம் படித்திருக்கிறீர்கள், அவை எப்படி வேலை செய்கின்றன என்று நீங்கள் யோசித்துக்கொண்டிருக்கலாம். பார்க்கலாம்.
தொடர்புடைய தரவுத்தளங்கள் எவ்வாறு செயல்படுகின்றன என்பதை நாம் அனைவரும் அறிவோம்: அவை சரங்கள், எண்கள் மற்றும் பிற அளவுகோல் தரவை வரிசைகள் மற்றும் நெடுவரிசைகளில் சேமிக்கின்றன. மறுபுறம், ஒரு திசையன் தரவுத்தளம் திசையன்களில் இயங்குகிறது, எனவே அது உகந்ததாக்கப்பட்ட மற்றும் வினவப்படும் விதம் முற்றிலும் வேறுபட்டது.
பாரம்பரிய தரவுத்தளங்களில், பொதுவாக தரவுத்தளத்தில் உள்ள வரிசைகளை வினவுகிறோம், அங்கு மதிப்பு பொதுவாக நமது வினவலுடன் சரியாகப் பொருந்தும். திசையன் தரவுத்தளங்களில், எங்கள் வினவலுக்கு மிகவும் ஒத்த ஒரு திசையனைக் கண்டறிய ஒற்றுமை மெட்ரிக்கைப் பயன்படுத்துகிறோம்.
ஒரு திசையன் தரவுத்தளம் பல அல்காரிதம்களின் கலவையைப் பயன்படுத்துகிறது, அவை அனைத்தும் அருகிலுள்ள அண்டை தேடலில் (ANN) பங்கேற்கின்றன. இந்த அல்காரிதம்கள் ஹாஷிங், குவாண்டிசேஷன் அல்லது வரைபட அடிப்படையிலான தேடலின் மூலம் தேடலை மேம்படுத்துகின்றன.
இந்த வழிமுறைகள் வினவப்பட்ட திசையன்களின் அண்டை நாடுகளை விரைவாகவும் துல்லியமாகவும் மீட்டெடுக்கும் பைப்லைனில் இணைக்கப்பட்டுள்ளன. திசையன் தரவுத்தளமானது தோராயமான முடிவுகளை வழங்குவதால், துல்லியம் மற்றும் வேகம் ஆகியவற்றுக்கு இடையேயான முக்கிய பரிமாற்றங்களை நாங்கள் கருதுகிறோம். எவ்வளவு துல்லியமான முடிவு, வினவல் மெதுவாக இருக்கும். இருப்பினும், ஒரு நல்ல அமைப்பு, மிக விரைவான தேடலை கிட்டத்தட்ட சரியான துல்லியத்துடன் வழங்க முடியும்.
வெக்டர் தரவுத்தளங்கள் பெரிய தரவுத் தொகுப்புகளில் ஒற்றுமை தேடல்கள் மற்றும் பிற சிக்கலான செயல்பாடுகளுக்கான சக்திவாய்ந்த கருவியாகும், இவை பாரம்பரிய தரவுத்தளங்களைப் பயன்படுத்தி திறம்படச் செய்ய முடியாது. ஒரு செயல்பாட்டு திசையன் தரவுத்தளத்தை உருவாக்க, உட்பொதிப்புகள் அவசியம், ஏனெனில் அவை தரவின் சொற்பொருள் அர்த்தத்தைப் படம்பிடித்து துல்லியமான ஒற்றுமை தேடல்களை செயல்படுத்துகின்றன. வெக்டர் லைப்ரரிகளைப் போலல்லாமல், வெக்டர் தரவுத்தளங்கள் எங்கள் பயன்பாட்டுக்கு ஏற்றவாறு வடிவமைக்கப்பட்டுள்ளன, செயல்திறன் மற்றும் அளவிடுதல் ஆகியவை முக்கியமான பயன்பாடுகளுக்கு ஏற்றதாக அமைகின்றன. இயந்திர கற்றல் மற்றும் செயற்கை நுண்ணறிவின் வளர்ச்சியுடன், வெக்டர் தரவுத்தளங்கள் பரிந்துரை அமைப்புகள், படத் தேடல், சொற்பொருள் ஒற்றுமை மற்றும் பட்டியல் நீண்டு கொண்டே செல்லும் பயன்பாடுகளின் பரந்த அளவிலான பயன்பாடுகளுக்கு அதிக முக்கியத்துவம் பெறுகிறது. புலம் தொடர்ந்து உருவாகி வருவதால், எதிர்காலத்தில் திசையன் தரவுத்தளங்களின் இன்னும் புதுமையான பயன்பாடுகளைப் பார்க்கலாம்.
Ercole Palmeri
கடந்த திங்கட்கிழமை, பைனான்சியல் டைம்ஸ் OpenAI உடன் ஒரு ஒப்பந்தத்தை அறிவித்தது. FT அதன் உலகத் தரம் வாய்ந்த பத்திரிகைக்கு உரிமம் அளிக்கிறது…
மில்லியன் கணக்கான மக்கள் ஸ்ட்ரீமிங் சேவைகளுக்கு பணம் செலுத்துகிறார்கள், மாதாந்திர சந்தா கட்டணத்தை செலுத்துகிறார்கள். நீங்கள் என்பது பொதுவான கருத்து...
Veeam வழங்கும் Coveware இணைய மிரட்டி பணம் பறித்தல் சம்பவத்தின் பதில் சேவைகளை தொடர்ந்து வழங்கும். Coveware தடயவியல் மற்றும் சரிசெய்தல் திறன்களை வழங்கும்…
முன்கணிப்பு பராமரிப்பு எண்ணெய் மற்றும் எரிவாயு துறையில் புரட்சியை ஏற்படுத்துகிறது, ஆலை மேலாண்மைக்கு ஒரு புதுமையான மற்றும் செயல்திறன் மிக்க அணுகுமுறையுடன்.…