เนื่องจากปริมาณของข้อมูลที่ไม่มีโครงสร้างยังคงเพิ่มขึ้นอย่างทวีคูณ ความต้องการเครื่องมือวิเคราะห์ข้อความที่แม่นยำและมีประสิทธิภาพจึงมีความสำคัญมากขึ้นในอุตสาหกรรมต่างๆ เช่น การตลาด การเงิน การดูแลสุขภาพ และสังคมศาสตร์
ตามเนื้อผ้า การวิเคราะห์ข้อความดำเนินการโดยใช้วิธีการตามกฎและเทคนิคการเรียนรู้ของเครื่อง เช่น SpaCY และเทคนิคหม้อแปลง แม้ว่าวิธีการเหล่านี้ได้รับการพิสูจน์แล้วว่าได้ผล แต่ก็ต้องใช้ความพยายามและความเชี่ยวชาญอย่างมากเพื่อให้สมบูรณ์แบบ
ด้วยการกำเนิดของโมเดลภาษาขนาดใหญ่ (LLM) เช่น ChatGPT di OpenAI. ได้แสดงความสามารถที่โดดเด่นในการสร้างข้อความที่เหมือนมนุษย์และการทำความเข้าใจบริบท ทำให้เป็นเครื่องมือที่มีแนวโน้มสำหรับงานวิเคราะห์ข้อความเช่น entity recognition
, sentiment analysis
และ topic modeling
.
มาดูกันว่าเราจะแยกวิเคราะห์ข้อความโดยใช้ ChatGPT ได้อย่างไร
ในอดีต เรามักจะใช้โมเดลที่แตกต่างกันสำหรับงานต่างๆ ในแมชชีนเลิร์นนิง ตัวอย่างเช่น ถ้าฉันต้องการดึงความรู้จากข้อความ ฉันจะต้องใช้แบบจำลองการรู้จำเอนทิตีที่มีชื่อ (NER – Named Entity Recognition
) ถ้าฉันต้องการจำแนกข้อความออกเป็นคลาสต่างๆ ฉันจะต้องมีโมเดลการจัดหมวดหมู่ แต่ละกิจกรรมที่แตกต่างกันจำเป็นต้องใช้แบบจำลองในการฝึกอบรมที่แตกต่างกันสำหรับแต่ละกิจกรรม ไม่ว่าจะโดยการถ่ายโอนการเรียนรู้หรือโดยการฝึกอบรม
ด้วยการแนะนำของ Large Language Models (LLM) โมเดล LLM จะสามารถทำงาน NLP ได้หลายอย่างโดยมีหรือไม่มีการฝึกอบรมก็ได้ กิจกรรมใดๆก็สามารถเป็นได้ defiเสร็จสิ้นง่ายๆ เพียงเปลี่ยนคำแนะนำในพรอมต์
ทีนี้มาดูวิธีการทำงาน NLP แบบเดิมๆ กัน ChatGPT และเปรียบเทียบกับวิธีดั้งเดิม งาน NLP ที่จะดำเนินการโดย ChatGPT ในบทความนี้คือ:
Sentiment analysis
Named Entity Recognition (NER) หมายถึงงานของการระบุคำศัพท์โดยอัตโนมัติในกลุ่มข้อมูลข้อความต่างๆ ส่วนใหญ่จะใช้เพื่อแยกหมวดหมู่เอนทิตีที่สำคัญ เช่น ชื่อยาจากบันทึกทางคลินิก เงื่อนไขที่เกี่ยวข้องกับอุบัติเหตุจากการเคลมประกัน และคำศัพท์เฉพาะโดเมนอื่นๆ จากบันทึก
โปรดทราบว่ากิจกรรมนี้มีไว้สำหรับโดเมนทางการแพทย์เท่านั้น ก่อนหน้านี้เราต้องใส่คำอธิบายประกอบและฝึกแถวข้อมูลมากกว่า 10.000 แถวสำหรับโมเดลเดียวเพื่อให้ทราบคลาสและคำศัพท์เฉพาะในข้อความ ChatGPT สามารถระบุคำได้อย่างถูกต้องโดยไม่ต้องมีข้อความที่ได้รับการฝึกฝนล่วงหน้าหรือปรับแต่ง ซึ่งเป็นผลลัพธ์ที่ค่อนข้างดี!
การจัดประเภทข้อความหมายถึงกระบวนการอัตโนมัติในการค้นหาและจำแนกข้อความเป็นหมวดหมู่จากข้อมูลขนาดใหญ่ ซึ่งมีบทบาทสำคัญในการดึงและดึงข้อมูลข้อความ ตัวอย่างของแอปพลิเคชันการจัดประเภทข้อความ ได้แก่ การแจ้งเตือนทางคลินิกหรือการจัดหมวดหมู่ปัจจัยเสี่ยง การจำแนกประเภทการวินิจฉัยอัตโนมัติ และการตรวจจับสแปม
Sentiment analysis
Sentiment analysis
เกี่ยวข้องกับการกำหนดความรู้สึกหรืออารมณ์ที่แสดงในข้อความ มีจุดมุ่งหมายเพื่อจัดประเภทข้อความเป็นหมวดหมู่ก่อนdefinite เป็นบวก ลบ หรือเป็นกลาง ขึ้นอยู่กับความรู้สึกที่แฝงโดยผู้เขียน
การประยุกต์ใช้การวิเคราะห์ความรู้สึกรวมถึง:
การสรุปอัตโนมัติหมายถึงกระบวนการที่มีการระบุและนำเสนอหัวข้อหลักของเอกสารอย่างน้อยหนึ่งฉบับในลักษณะที่กระชับและถูกต้อง สิ่งนี้ทำให้ผู้ใช้สามารถดูข้อมูลจำนวนมากได้ในระยะเวลาอันสั้น ตัวอย่างการใช้งาน ได้แก่ ระบบสรุปที่ช่วยให้สร้างบทคัดย่อจากบทความข่าวโดยอัตโนมัติและการสรุปข้อมูลโดยการแยกประโยคจากบทคัดย่องานวิจัย
ChatGPT เป็นเครื่องมือสรุปที่ยอดเยี่ยม โดยเฉพาะอย่างยิ่งสำหรับบทความขนาดยาวและบทวิจารณ์ที่ซับซ้อน ด้วยการวางบทวิจารณ์ใน ChatGPT เราสามารถทราบสรุปบทวิจารณ์ผลิตภัณฑ์ได้อย่างง่ายดาย
เนื่องจากจุดประสงค์ของบทความนี้คือการสำรวจความสามารถของ LLM ในการดำเนินการวิเคราะห์ข้อความ จึงจำเป็นอย่างยิ่งที่จะต้องตระหนักถึงข้อจำกัดของพวกมันด้วย ข้อจำกัดที่สำคัญบางประการของ LLM ได้แก่:
Ercole Palmeri
ผู้คนนับล้านชำระค่าบริการสตรีมมิ่ง โดยจ่ายค่าธรรมเนียมการสมัครสมาชิกรายเดือน เป็นความเห็นทั่วไปที่คุณ...
Coveware by Veeam จะยังคงให้บริการตอบสนองต่อเหตุการณ์การขู่กรรโชกทางไซเบอร์ต่อไป Coveware จะนำเสนอความสามารถในการนิติเวชและการแก้ไข...
การบำรุงรักษาเชิงคาดการณ์กำลังปฏิวัติภาคส่วนน้ำมันและก๊าซ ด้วยแนวทางเชิงรุกและนวัตกรรมในการจัดการโรงงาน...
UK CMA ได้ออกคำเตือนเกี่ยวกับพฤติกรรมของ Big Tech ในตลาดปัญญาประดิษฐ์ ที่นั่น…