เวลาในการอ่านโดยประมาณ: 9 นาที
ในช่วงไม่กี่สัปดาห์ที่ผ่านมา นักลงทุนสนใจฐานข้อมูลเวกเตอร์เพิ่มขึ้น ตั้งแต่ต้นปี 2023 เราสังเกตเห็นว่า:
เรามาดูรายละเอียดเพิ่มเติมว่าฐานข้อมูลเวกเตอร์คืออะไร
ฐานข้อมูลเวกเตอร์พึ่งพาการฝังเวกเตอร์อย่างมาก ซึ่งเป็นการแสดงข้อมูลประเภทหนึ่งที่มีข้อมูลเชิงความหมายที่สำคัญสำหรับ AI ในการทำความเข้าใจและรักษาหน่วยความจำระยะยาวเพื่อใช้เมื่อดำเนินกิจกรรมที่ซับซ้อน
การฝังเวกเตอร์เป็นเหมือนแผนที่ แต่แทนที่จะแสดงให้เราเห็นว่าสิ่งต่าง ๆ อยู่ที่ไหนในโลก พวกมันแสดงให้เราเห็นว่าสิ่งต่าง ๆ อยู่ที่ไหนในสิ่งที่เรียกว่า พื้นที่เวกเตอร์ สเปซเวกเตอร์เป็นเหมือนสนามเด็กเล่นขนาดใหญ่ที่ทุกอย่างมีที่ให้เล่น ลองนึกภาพว่าคุณมีสัตว์อยู่กลุ่มหนึ่ง: แมว สุนัข นก และปลา เราสามารถสร้างเวกเตอร์แบบฝังสำหรับแต่ละภาพโดยกำหนดตำแหน่งพิเศษในสนามเด็กเล่น แมวอาจอยู่มุมหนึ่ง สุนัขอยู่อีกด้าน นกอาจอยู่บนฟ้า ปลาอาจอยู่ในสระน้ำ สถานที่นี้เป็นพื้นที่หลายมิติ แต่ละมิติจะสอดคล้องกับลักษณะต่างๆ กัน เช่น ปลามีครีบ นกมีปีก แมวหมามีขา เป็นต้น อีกแง่มุมหนึ่งของพวกเขาอาจเป็นได้ว่าปลาเป็นของน้ำ นกส่วนใหญ่อยู่บนท้องฟ้า และแมวกับสุนัขอยู่บนพื้นดิน เมื่อเรามีเวกเตอร์เหล่านี้แล้ว เราสามารถใช้เทคนิคทางคณิตศาสตร์เพื่อจัดกลุ่มตามความคล้ายคลึงกันได้ จากข้อมูลที่เรามี
ดังนั้น การฝังเวกเตอร์จึงเหมือนแผนที่ที่ช่วยเราค้นหาความคล้ายคลึงกันระหว่างสิ่งต่างๆ ในปริภูมิเวกเตอร์ เช่นเดียวกับที่แผนที่ช่วยให้เราสำรวจโลก การฝังเวกเตอร์ช่วยนำทางสนามเด็กเล่นเวกเตอร์
แนวคิดหลักคือการฝังที่มีความหมายคล้ายกันมีระยะห่างระหว่างกันน้อยกว่า หากต้องการทราบว่ามีความคล้ายคลึงกันเพียงใด เราสามารถใช้ฟังก์ชันระยะทางเวกเตอร์ เช่น ระยะทางแบบยุคลิด ระยะทางโคไซน์ เป็นต้น
ห้องสมุดเวกเตอร์ จัดเก็บการฝังเวกเตอร์ในดัชนีในหน่วยความจำ เพื่อทำการค้นหาความคล้ายคลึงกัน ไลบรารีเวกเตอร์มีลักษณะ/ข้อจำกัดดังต่อไปนี้:
มีไลบรารีการค้นหาเวกเตอร์มากมาย: FAISS ของเฟสบุ๊ค รบกวนด้วยนะครับ โดย Spotify และ สแกนเอ็น โดย Google FAISS ใช้วิธีการจัดกลุ่ม Annoy ใช้ต้นไม้ และ ScanNN ใช้การบีบอัดเวกเตอร์ มีการแลกเปลี่ยนประสิทธิภาพสำหรับแต่ละรายการ ซึ่งเราสามารถเลือกได้ตามแอปพลิเคชันและเมตริกประสิทธิภาพของเรา
คุณสมบัติหลักที่ทำให้ฐานข้อมูลเวกเตอร์แตกต่างจากไลบรารีเวกเตอร์คือความสามารถในการเก็บถาวร อัปเดตและลบข้อมูล ฐานข้อมูลเวกเตอร์รองรับ CRUD เสร็จสมบูรณ์ (สร้าง อ่าน อัปเดต และลบ) ที่แก้ไขข้อจำกัดของไลบรารีเวกเตอร์
กล่าวโดยย่อ ฐานข้อมูลเวกเตอร์ให้โซลูชันที่เหนือกว่าสำหรับการจัดการการฝังเวกเตอร์โดยจัดการกับข้อจำกัดของดัชนีเวกเตอร์ในตัวตามที่กล่าวไว้ในประเด็นก่อนหน้า
แต่อะไรทำให้ฐานข้อมูลเวกเตอร์เหนือกว่าฐานข้อมูลแบบเดิม
ฐานข้อมูลแบบดั้งเดิมได้รับการออกแบบมาเพื่อจัดเก็บและดึงข้อมูลที่มีโครงสร้างโดยใช้แบบจำลองเชิงสัมพันธ์ ซึ่งหมายความว่าฐานข้อมูลเหล่านี้ได้รับการปรับให้เหมาะสมสำหรับการสืบค้นตามคอลัมน์และแถวของข้อมูล แม้ว่าจะสามารถจัดเก็บการฝังเวกเตอร์ในฐานข้อมูลแบบดั้งเดิมได้ แต่ฐานข้อมูลเหล่านี้ไม่ได้รับการปรับให้เหมาะสมสำหรับการดำเนินการเวกเตอร์ และไม่สามารถดำเนินการค้นหาความคล้ายคลึงกันหรือการดำเนินการที่ซับซ้อนอื่นๆ ในชุดข้อมูลขนาดใหญ่ได้อย่างมีประสิทธิภาพ
เนื่องจากฐานข้อมูลแบบดั้งเดิมใช้เทคนิคการจัดทำดัชนีตามประเภทข้อมูลอย่างง่าย เช่น สตริงหรือตัวเลข เทคนิคการจัดทำดัชนีเหล่านี้ไม่เหมาะสำหรับข้อมูลเวกเตอร์ซึ่งมีมิติข้อมูลสูง และต้องใช้เทคนิคการจัดทำดัชนีเฉพาะ เช่น ดัชนีกลับหัวหรือต้นไม้เชิงพื้นที่
นอกจากนี้ ฐานข้อมูลแบบดั้งเดิมไม่ได้ออกแบบมาเพื่อจัดการกับข้อมูลที่ไม่มีโครงสร้างหรือกึ่งโครงสร้างจำนวนมากที่มักเกี่ยวข้องกับการฝังเวกเตอร์ ตัวอย่างเช่น ไฟล์รูปภาพหรือไฟล์เสียงสามารถมีจุดข้อมูลหลายล้านจุด ซึ่งฐานข้อมูลแบบดั้งเดิมไม่สามารถจัดการได้อย่างมีประสิทธิภาพ
ในทางกลับกัน ฐานข้อมูลเวกเตอร์ได้รับการออกแบบมาโดยเฉพาะเพื่อจัดเก็บและดึงข้อมูลเวกเตอร์ และปรับให้เหมาะสมสำหรับการค้นหาความคล้ายคลึงกันและการดำเนินการที่ซับซ้อนอื่นๆ ในชุดข้อมูลขนาดใหญ่ พวกเขาใช้เทคนิคการจัดทำดัชนีพิเศษและอัลกอริทึมที่ออกแบบมาเพื่อทำงานกับข้อมูลที่มีมิติสูง ทำให้มีประสิทธิภาพมากกว่าฐานข้อมูลแบบดั้งเดิมในการจัดเก็บและเรียกข้อมูลเวกเตอร์ฝังตัว
ตอนนี้คุณได้อ่านเกี่ยวกับฐานข้อมูลเวกเตอร์มามากแล้ว คุณอาจสงสัยว่ามันทำงานอย่างไร ลองมาดูกัน
เราทุกคนทราบดีว่าฐานข้อมูลเชิงสัมพันธ์ทำงานอย่างไร โดยจัดเก็บสตริง ตัวเลข และข้อมูลประเภทสเกลาร์อื่นๆ ในแถวและคอลัมน์ ในทางกลับกัน ฐานข้อมูลเวกเตอร์ทำงานบนเวกเตอร์ ดังนั้นวิธีเพิ่มประสิทธิภาพและการสืบค้นจึงแตกต่างกันมาก
ในฐานข้อมูลแบบดั้งเดิม เรามักจะค้นหาแถวในฐานข้อมูลซึ่งค่ามักจะตรงกับการค้นหาของเราทุกประการ ในฐานข้อมูลเวกเตอร์ เราใช้เมตริกความคล้ายคลึงกันเพื่อค้นหาเวกเตอร์ที่คล้ายกับข้อความค้นหาของเรามากที่สุด
ฐานข้อมูลเวกเตอร์ใช้การรวมกันของอัลกอริทึมหลายอย่างที่ทั้งหมดมีส่วนร่วมในการค้นหาเพื่อนบ้านที่ใกล้ที่สุด (ANN) อัลกอริทึมเหล่านี้เพิ่มประสิทธิภาพการค้นหาด้วยการแฮช การหาปริมาณ หรือการค้นหาตามกราฟ
อัลกอริธึมเหล่านี้ประกอบกันเป็นไปป์ไลน์ที่ให้การเรียกข้อมูลเพื่อนบ้านของเวกเตอร์ที่สอบถามได้อย่างรวดเร็วและแม่นยำ เนื่องจากฐานข้อมูลเวกเตอร์ให้ผลลัพธ์โดยประมาณ การแลกเปลี่ยนหลักที่เราพิจารณาคือระหว่างความแม่นยำและความเร็ว ยิ่งผลลัพธ์แม่นยำมากเท่าใด ข้อความค้นหาก็จะยิ่งช้าลงเท่านั้น อย่างไรก็ตาม ระบบที่ดีสามารถค้นหาได้อย่างรวดเร็วด้วยความแม่นยำเกือบสมบูรณ์แบบ
ฐานข้อมูลเวกเตอร์เป็นเครื่องมือที่มีประสิทธิภาพสำหรับการค้นหาความคล้ายคลึงกันและการดำเนินการที่ซับซ้อนอื่นๆ ในชุดข้อมูลขนาดใหญ่ ซึ่งไม่สามารถทำได้อย่างมีประสิทธิภาพโดยใช้ฐานข้อมูลแบบดั้งเดิม ในการสร้างฐานข้อมูลเวกเตอร์ที่ใช้งานได้ การฝังมีความสำคัญ เนื่องจากสามารถจับความหมายเชิงความหมายของข้อมูลและเปิดใช้งานการค้นหาความคล้ายคลึงกันที่แม่นยำ ฐานข้อมูลเวกเตอร์ได้รับการออกแบบมาให้เหมาะกับกรณีการใช้งานของเรา ซึ่งแตกต่างจากไลบรารีเวกเตอร์ ทำให้เหมาะสำหรับการใช้งานที่ประสิทธิภาพและความสามารถในการปรับขนาดเป็นสิ่งสำคัญ ด้วยการเพิ่มขึ้นของแมชชีนเลิร์นนิงและปัญญาประดิษฐ์ ฐานข้อมูลเวกเตอร์จึงมีความสำคัญมากขึ้นสำหรับแอปพลิเคชันที่หลากหลาย รวมถึงระบบผู้แนะนำ การค้นหารูปภาพ ความคล้ายคลึงทางความหมาย และรายการต่อไป ในขณะที่สาขานี้มีการพัฒนาอย่างต่อเนื่อง เราสามารถคาดหวังได้ว่าจะได้เห็นแอปพลิเคชันที่เป็นนวัตกรรมใหม่ของฐานข้อมูลเวกเตอร์ในอนาคต
Ercole Palmeri
เมื่อวันจันทร์ที่แล้ว Financial Times ได้ประกาศข้อตกลงกับ OpenAI FT อนุญาติให้ทำข่าวระดับโลก...
ผู้คนนับล้านชำระค่าบริการสตรีมมิ่ง โดยจ่ายค่าธรรมเนียมการสมัครสมาชิกรายเดือน เป็นความเห็นทั่วไปที่คุณ...
Coveware by Veeam จะยังคงให้บริการตอบสนองต่อเหตุการณ์การขู่กรรโชกทางไซเบอร์ต่อไป Coveware จะนำเสนอความสามารถในการนิติเวชและการแก้ไข...
การบำรุงรักษาเชิงคาดการณ์กำลังปฏิวัติภาคส่วนน้ำมันและก๊าซ ด้วยแนวทางเชิงรุกและนวัตกรรมในการจัดการโรงงาน...