บทความ

การแยกวิเคราะห์ข้อความโดยใช้ chatGPT

การวิเคราะห์ข้อความหรือการขุดข้อความเป็นเทคนิคสำคัญในการดึงข้อมูลเชิงลึกอันมีค่าจากข้อมูลข้อความที่ไม่มีโครงสร้างจำนวนมาก 

มันเกี่ยวข้องกับการประมวลผลและวิเคราะห์ข้อความเพื่อค้นหารูปแบบ แนวโน้ม และความสัมพันธ์

ช่วยให้บริษัท นักวิจัย และองค์กรต่างๆ สามารถตัดสินใจโดยอาศัยข้อมูลที่รวบรวมจากข้อความ 

เนื่องจากปริมาณของข้อมูลที่ไม่มีโครงสร้างยังคงเพิ่มขึ้นอย่างทวีคูณ ความต้องการเครื่องมือวิเคราะห์ข้อความที่แม่นยำและมีประสิทธิภาพจึงมีความสำคัญมากขึ้นในอุตสาหกรรมต่างๆ เช่น การตลาด การเงิน การดูแลสุขภาพ และสังคมศาสตร์

ตามเนื้อผ้า การวิเคราะห์ข้อความดำเนินการโดยใช้วิธีการตามกฎและเทคนิคการเรียนรู้ของเครื่อง เช่น SpaCY และเทคนิคหม้อแปลง แม้ว่าวิธีการเหล่านี้ได้รับการพิสูจน์แล้วว่าได้ผล แต่ก็ต้องใช้ความพยายามและความเชี่ยวชาญอย่างมากเพื่อให้สมบูรณ์แบบ

ด้วยการกำเนิดของโมเดลภาษาขนาดใหญ่ (LLM) เช่น ChatGPT di OpenAI. ได้แสดงความสามารถที่โดดเด่นในการสร้างข้อความที่เหมือนมนุษย์และการทำความเข้าใจบริบท ทำให้เป็นเครื่องมือที่มีแนวโน้มสำหรับงานวิเคราะห์ข้อความเช่น entity recognition, sentiment analysisและ topic modeling.

มาดูกันว่าเราจะแยกวิเคราะห์ข้อความโดยใช้ ChatGPT ได้อย่างไร

วิธีการแบบดั้งเดิม (รุ่นเดียว) เทียบกับ นิติศาสตร์มหาบัณฑิต

ในอดีต เรามักจะใช้โมเดลที่แตกต่างกันสำหรับงานต่างๆ ในแมชชีนเลิร์นนิง ตัวอย่างเช่น ถ้าฉันต้องการดึงความรู้จากข้อความ ฉันจะต้องใช้แบบจำลองการรู้จำเอนทิตีที่มีชื่อ (NER – Named Entity Recognition) ถ้าฉันต้องการจำแนกข้อความออกเป็นคลาสต่างๆ ฉันจะต้องมีโมเดลการจัดหมวดหมู่ แต่ละกิจกรรมที่แตกต่างกันจำเป็นต้องใช้แบบจำลองในการฝึกอบรมที่แตกต่างกันสำหรับแต่ละกิจกรรม ไม่ว่าจะโดยการถ่ายโอนการเรียนรู้หรือโดยการฝึกอบรม

ด้วยการแนะนำของ Large Language Models (LLM) โมเดล LLM จะสามารถทำงาน NLP ได้หลายอย่างโดยมีหรือไม่มีการฝึกอบรมก็ได้ กิจกรรมใดๆก็สามารถเป็นได้ defiเสร็จสิ้นง่ายๆ เพียงเปลี่ยนคำแนะนำในพรอมต์

ทีนี้มาดูวิธีการทำงาน NLP แบบเดิมๆ กัน ChatGPT และเปรียบเทียบกับวิธีดั้งเดิม งาน NLP ที่จะดำเนินการโดย ChatGPT ในบทความนี้คือ:

  • การสกัดความรู้ (NER)
  • การจำแนกข้อความ
  • Sentiment analysis
  • สรุป

การสกัดความรู้ (NER)

Named Entity Recognition (NER) หมายถึงงานของการระบุคำศัพท์โดยอัตโนมัติในกลุ่มข้อมูลข้อความต่างๆ ส่วนใหญ่จะใช้เพื่อแยกหมวดหมู่เอนทิตีที่สำคัญ เช่น ชื่อยาจากบันทึกทางคลินิก เงื่อนไขที่เกี่ยวข้องกับอุบัติเหตุจากการเคลมประกัน และคำศัพท์เฉพาะโดเมนอื่นๆ จากบันทึก

โปรดทราบว่ากิจกรรมนี้มีไว้สำหรับโดเมนทางการแพทย์เท่านั้น ก่อนหน้านี้เราต้องใส่คำอธิบายประกอบและฝึกแถวข้อมูลมากกว่า 10.000 แถวสำหรับโมเดลเดียวเพื่อให้ทราบคลาสและคำศัพท์เฉพาะในข้อความ ChatGPT สามารถระบุคำได้อย่างถูกต้องโดยไม่ต้องมีข้อความที่ได้รับการฝึกฝนล่วงหน้าหรือปรับแต่ง ซึ่งเป็นผลลัพธ์ที่ค่อนข้างดี!

การจำแนกข้อความ

การจัดประเภทข้อความหมายถึงกระบวนการอัตโนมัติในการค้นหาและจำแนกข้อความเป็นหมวดหมู่จากข้อมูลขนาดใหญ่ ซึ่งมีบทบาทสำคัญในการดึงและดึงข้อมูลข้อความ ตัวอย่างของแอปพลิเคชันการจัดประเภทข้อความ ได้แก่ การแจ้งเตือนทางคลินิกหรือการจัดหมวดหมู่ปัจจัยเสี่ยง การจำแนกประเภทการวินิจฉัยอัตโนมัติ และการตรวจจับสแปม

Sentiment analysis

Sentiment analysis เกี่ยวข้องกับการกำหนดความรู้สึกหรืออารมณ์ที่แสดงในข้อความ มีจุดมุ่งหมายเพื่อจัดประเภทข้อความเป็นหมวดหมู่ก่อนdefinite เป็นบวก ลบ หรือเป็นกลาง ขึ้นอยู่กับความรู้สึกที่แฝงโดยผู้เขียน 

การประยุกต์ใช้การวิเคราะห์ความรู้สึกรวมถึง:

  • การวิเคราะห์ความคิดเห็นและข้อเสนอแนะของลูกค้า
  • ติดตามความรู้สึกของโซเชียลมีเดีย
  • ติดตามแนวโน้มของตลาด e
  • การวัดความรู้สึกทางการเมืองระหว่างการหาเสียงเลือกตั้ง

สรุป

การสรุปอัตโนมัติหมายถึงกระบวนการที่มีการระบุและนำเสนอหัวข้อหลักของเอกสารอย่างน้อยหนึ่งฉบับในลักษณะที่กระชับและถูกต้อง สิ่งนี้ทำให้ผู้ใช้สามารถดูข้อมูลจำนวนมากได้ในระยะเวลาอันสั้น ตัวอย่างการใช้งาน ได้แก่ ระบบสรุปที่ช่วยให้สร้างบทคัดย่อจากบทความข่าวโดยอัตโนมัติและการสรุปข้อมูลโดยการแยกประโยคจากบทคัดย่องานวิจัย

ChatGPT เป็นเครื่องมือสรุปที่ยอดเยี่ยม โดยเฉพาะอย่างยิ่งสำหรับบทความขนาดยาวและบทวิจารณ์ที่ซับซ้อน ด้วยการวางบทวิจารณ์ใน ChatGPT เราสามารถทราบสรุปบทวิจารณ์ผลิตภัณฑ์ได้อย่างง่ายดาย

ขีดจำกัดของ LLM

เนื่องจากจุดประสงค์ของบทความนี้คือการสำรวจความสามารถของ LLM ในการดำเนินการวิเคราะห์ข้อความ จึงจำเป็นอย่างยิ่งที่จะต้องตระหนักถึงข้อจำกัดของพวกมันด้วย ข้อจำกัดที่สำคัญบางประการของ LLM ได้แก่:

  1. การใช้ทรัพยากร : การใช้ LLM ต้องใช้ทรัพยากรด้านการคำนวณและการเงินจำนวนมาก ซึ่งอาจเป็นเรื่องท้าทายสำหรับองค์กรขนาดเล็กหรือนักวิจัยแต่ละคนที่มีทรัพยากรจำกัด ณ วันนี้ ChatGPT ยอมรับเพียง 8.000 โทเค็นสำหรับอินพุตและเอาต์พุต เพื่อแยกวิเคราะห์ข้อมูลจำนวนมาก ผู้ใช้ต้องแบ่งข้อความออกเป็นหลายกลุ่มข้อมูล และอาจต้องมีการเรียก API หลายครั้งสำหรับงานต่างๆ
  2. ความไวต่อการแสดงข้อความ : ประสิทธิภาพของ LLM อาจได้รับผลกระทบจากวิธีการใช้ข้อความแจ้ง การเปลี่ยนแปลงเล็กน้อยในข้อความแจ้งอาจให้ผลลัพธ์ที่แตกต่างกัน ซึ่งอาจทำให้เกิดความกังวลเมื่อต้องการผลลัพธ์ที่สอดคล้องและเชื่อถือได้
  3. ขาดความเชี่ยวชาญเฉพาะโดเมน : แม้ว่า LLM จะมีความเข้าใจทั่วไปเกี่ยวกับโดเมนต่างๆ แต่พวกเขาอาจไม่มีความเชี่ยวชาญในระดับเดียวกับโมเดลเฉพาะทางที่ได้รับการฝึกฝนเกี่ยวกับข้อมูลเฉพาะโดเมน ผลที่ตามมาคือ ประสิทธิภาพอาจไม่ดีที่สุดในบางกรณี และอาจต้องการการปรับแต่งอย่างละเอียดหรือความรู้จากภายนอก โดยเฉพาะอย่างยิ่งเมื่อต้องจัดการกับข้อมูลเฉพาะทางหรือทางเทคนิคสูง

Ercole Palmeri

จดหมายข่าวนวัตกรรม
อย่าพลาดข่าวสารที่สำคัญที่สุดเกี่ยวกับนวัตกรรม ลงทะเบียนเพื่อรับพวกเขาทางอีเมล

บทความล่าสุด

การชำระเงินออนไลน์: นี่คือวิธีที่บริการสตรีมมิ่งทำให้คุณชำระเงินตลอดไป

ผู้คนนับล้านชำระค่าบริการสตรีมมิ่ง โดยจ่ายค่าธรรมเนียมการสมัครสมาชิกรายเดือน เป็นความเห็นทั่วไปที่คุณ...

29 2024 เมษายน

Veeam มีการสนับสนุนแรนซัมแวร์ที่ครอบคลุมที่สุด ตั้งแต่การป้องกันไปจนถึงการตอบสนองและการกู้คืน

Coveware by Veeam จะยังคงให้บริการตอบสนองต่อเหตุการณ์การขู่กรรโชกทางไซเบอร์ต่อไป Coveware จะนำเสนอความสามารถในการนิติเวชและการแก้ไข...

23 2024 เมษายน

การปฏิวัติสีเขียวและดิจิทัล: การบำรุงรักษาเชิงคาดการณ์กำลังเปลี่ยนแปลงอุตสาหกรรมน้ำมันและก๊าซอย่างไร

การบำรุงรักษาเชิงคาดการณ์กำลังปฏิวัติภาคส่วนน้ำมันและก๊าซ ด้วยแนวทางเชิงรุกและนวัตกรรมในการจัดการโรงงาน...

22 2024 เมษายน

หน่วยงานกำกับดูแลการต่อต้านการผูกขาดของสหราชอาณาจักรส่งสัญญาณเตือน BigTech เกี่ยวกับ GenAI

UK CMA ได้ออกคำเตือนเกี่ยวกับพฤติกรรมของ Big Tech ในตลาดปัญญาประดิษฐ์ ที่นั่น…

18 2024 เมษายน

อ่านนวัตกรรมในภาษาของคุณ

จดหมายข่าวนวัตกรรม
อย่าพลาดข่าวสารที่สำคัญที่สุดเกี่ยวกับนวัตกรรม ลงทะเบียนเพื่อรับพวกเขาทางอีเมล

ติดตามเรา