Artikel

Penguraian teks menggunakan chatGPT

Analitik teks, atau penambangan teks, adalah teknik vital untuk mengekstrak wawasan berharga dari sejumlah besar data teks tidak terstruktur.

Ini melibatkan pemrosesan dan analisis teks untuk menemukan pola, tren, dan hubungan.

Ini memungkinkan perusahaan, peneliti, dan organisasi untuk membuat keputusan berdasarkan informasi yang diperoleh dari teks.

Karena volume data tidak terstruktur terus tumbuh secara eksponensial, kebutuhan akan alat analisis teks yang akurat dan efisien menjadi semakin penting di berbagai industri, seperti pemasaran, keuangan, kesehatan, dan ilmu sosial.

Secara tradisional, analisis teks dilakukan dengan menggunakan metode berbasis aturan dan teknik pembelajaran mesin seperti SpaCY dan teknik transformator. Meskipun metode ini telah terbukti efektif, metode ini membutuhkan usaha dan keahlian yang cukup besar untuk menyempurnakannya.

Dengan munculnya model bahasa besar (LLM) seperti ChatGPT di OpenAI. Ini telah menunjukkan kemampuan luar biasa dalam menghasilkan teks seperti manusia dan memahami konteks, menjadikannya alat yang menjanjikan untuk tugas analisis teks seperti entity recognition, sentiment analysisDan topic modeling.

Sekarang mari kita lihat bagaimana kita dapat melakukan penguraian teks menggunakan ChatGPT.

Metode tradisional (model tunggal) vs. LLM

Di masa lalu, kami selalu menggunakan model yang berbeda untuk tugas yang berbeda dalam pembelajaran mesin. Misalnya, jika saya ingin mengekstraksi pengetahuan dari sebuah teks, saya perlu menggunakan model pengenalan entitas bernama (NER – Named Entity Recognition), jika saya perlu mengklasifikasikan teks saya ke dalam kelas terpisah, saya memerlukan model klasifikasi. Setiap aktivitas yang berbeda membutuhkan model yang akan dilatih secara berbeda untuk setiap aktivitas, baik dengan transfer pembelajaran atau dengan pelatihan.

Dengan diperkenalkannya Large Language Models (LLM), model LLM akan mampu melakukan beberapa tugas NLP dengan atau tanpa pelatihan. Aktivitas apa pun bisa defidiselesaikan hanya dengan mengubah instruksi di petunjuknya.

Sekarang mari kita lihat bagaimana melakukan tugas NLP tradisional ChatGPT dan membandingkannya dengan cara tradisional. Tugas NLP yang akan dilakukan oleh ChatGPT dalam artikel ini adalah:

Ekstraksi Pengetahuan (NER)
Klasifikasi teks
Sentiment analysis
Ringkasan

Ekstraksi Pengetahuan (NER)

Named Entity Recognition (NER) mengacu pada tugas mengidentifikasi istilah secara otomatis dalam berbagai blok data tekstual. Ini terutama digunakan untuk mengekstraksi kategori entitas penting seperti nama obat dari catatan klinis, istilah terkait kecelakaan dari klaim asuransi, dan istilah khusus domain lainnya dari catatan.

Perhatikan bahwa aktivitas ini khusus untuk domain medis. Dulu kami harus membuat anotasi dan melatih lebih dari 10.000 baris data untuk satu model untuk mengetahui kelas dan istilah tertentu dalam teks. ChatGPT dapat mengidentifikasi istilah dengan benar tanpa teks terlatih atau penyetelan halus, yang merupakan hasil yang relatif bagus!

Klasifikasi teks

Klasifikasi teks mengacu pada proses otomatis untuk menemukan dan mengklasifikasikan teks ke dalam kategori dari data yang sangat besar, ini memainkan peran penting dalam pengambilan dan ekstraksi data teks. Contoh aplikasi klasifikasi teks meliputi peringatan klinis atau kategorisasi faktor risiko, klasifikasi diagnostik otomatis, dan deteksi spam.

`Sentiment analysis`

Sentiment analysis melibatkan penentuan perasaan atau emosi yang diungkapkan dalam sebuah teks. Ini bertujuan untuk mengklasifikasikan teks ke dalam pra kategoridefinite, sebagai positif, negatif, atau netral, berdasarkan sentimen yang mendasari disampaikan oleh penulis.

Aplikasi analisis sentimen meliputi:

analisis ulasan pelanggan dan umpan balik,
melacak sentimen media sosial,
memantau tren pasar e
pengukuran sentimen politik selama kampanye pemilu.

Ringkasan

Ringkasan otomatis mengacu pada proses dimana topik utama dari satu atau lebih dokumen diidentifikasi dan disajikan secara ringkas dan akurat. Hal ini memungkinkan pengguna untuk melihat potongan besar data dalam waktu singkat. Contoh aplikasi termasuk sistem ringkasan yang memungkinkan pembuatan abstrak secara otomatis dari artikel berita dan ringkasan informasi dengan mengekstraksi kalimat dari abstrak makalah penelitian.

ChatGPT adalah alat ringkasan yang luar biasa, terutama untuk artikel panjang dan ulasan rumit. Dengan menempelkan ulasan di ChatGPT, kita dapat dengan mudah mengetahui ringkasan ulasan produk secara sekilas.

Batas LLM

Karena tujuan artikel ini adalah untuk mengeksplorasi kemampuan LLM untuk melakukan tugas analisis teks, penting juga untuk mengenali keterbatasannya. Beberapa batasan utama LLM meliputi:

Pemanfaatan sumber daya : Menggunakan LLM membutuhkan sumber daya komputasi dan keuangan yang signifikan, yang dapat menjadi tantangan bagi organisasi yang lebih kecil atau peneliti individu dengan sumber daya terbatas. Sampai hari ini, ChatGPT hanya menerima sekitar 8.000 token untuk input dan output, untuk mengurai sejumlah besar data, mengharuskan pengguna memecah teks menjadi beberapa potongan data, dan mungkin memerlukan beberapa panggilan API untuk tugas.
Sensitivitas terhadap frasa cepat : Performa LLM dapat dipengaruhi oleh kata-kata petunjuknya. Sedikit perubahan dalam kata-kata cepat dapat menghasilkan hasil yang berbeda, yang dapat menjadi perhatian saat mencari keluaran yang konsisten dan andal.
Kurangnya keahlian khusus domain : Sementara LLM memiliki pemahaman umum tentang berbagai domain, mereka mungkin tidak memiliki tingkat keahlian yang sama dengan model khusus yang dilatih pada data khusus domain. Akibatnya, kinerja mereka mungkin tidak optimal dalam beberapa kasus dan mungkin memerlukan penyesuaian atau pengetahuan eksternal, khususnya ketika berhadapan dengan informasi yang sangat terspesialisasi atau teknis.

Ercole Palmeri

Tags: ChatBotobrolan gptkecerdasan buatanlarge language modelsLLMOpenAI

16 Mei 2023 8:22 pagi

Setelah Inovasi visa berdasarkan blockchain dapat membawa usaha kecil ke tingkat berikutnya »

Sebelumnya « Menurut laporan Kearney yang baru, 52% pemimpin telekomunikasi dan barang konsumsi Eropa mengharapkan metaverse mencapai 5-20% omzet pada tahun 2030

Artikel Terbaru

Artikel

Kecerdasan buatan Google yang baru dapat memodelkan DNA, RNA, dan "semua molekul kehidupan"

Google DeepMind memperkenalkan versi yang lebih baik dari model kecerdasan buatannya. Model baru yang ditingkatkan tidak hanya menyediakan…

9 Mei 2024

Artikel

Menjelajahi Arsitektur Modular Laravel

Laravel, yang terkenal dengan sintaksisnya yang elegan dan fitur-fiturnya yang canggih, juga memberikan landasan yang kokoh untuk arsitektur modular. Di sana…

9 Mei 2024