членовите

Парсирање на текст со помош на chatGPT

Текст аналитиката или рударството на текст е витална техника за извлекување вредни сознанија од големи количини на неструктурирани текстуални податоци. 

Вклучува обработка и анализа на текст за да се откријат обрасци, трендови и врски.

Тоа им овозможува на компаниите, истражувачите и организациите да донесуваат одлуки врз основа на информации добиени од текстови. 

Како што обемот на неструктурирани податоци продолжува да расте експоненцијално, потребата за точни и ефикасни алатки за анализа на текст стана сè покритична во различни индустрии како што се маркетингот, финансиите, здравството и општествените науки.

Традиционално, анализата на текстот се изведува со користење на методи засновани на правила и техники за машинско учење како што се SpaCY и трансформаторската техника. Иако овие методи се покажаа како ефикасни, тие бараат значителен напор и експертиза за да се усовршат.

Со појавата на големи јазични модели (LLM) како што се Разговор GPT di OpenAI. Тој покажа извонредни способности за генерирање текст сличен на човекот и разбирање контекст, што го прави ветувачка алатка за задачи за анализа на текст, како што се entity recognition, sentiment analysisИ topic modeling.

Ајде да видиме сега како можеме да извршиме парсирање на текст користејќи ChatGPT.

Традиционален метод (единечни модели) vs. LLM

Во минатото, секогаш користевме различни модели за различни задачи во машинското учење. На пример, ако сакам да извлечам знаење од текст, ќе треба да користам модел за препознавање именуван ентитет (NER – Named Entity Recognition), ако треба да го класифицирам мојот текст во посебни класи, ќе ми треба модел на класификација. Секоја различна активност бараше моделите да се обучуваат различно за секоја активност, или со пренос на учење или со обука.

Со воведувањето на Large Language Models (LLM), моделот LLM ќе може да извршува повеќе NLP задачи со или без обука. Секоја активност може да биде defiсе врши едноставно со менување на инструкциите во промптите.

Сега да видиме како да ја извршиме традиционалната НЛП задача Разговор GPT и споредете го со традиционалниот начин. НЛП задачите кои ќе ги извршува Разговор GPT во оваа статија се:

  • Екстракција на знаење (NER)
  • Класификација на текстот
  • Sentiment analysis
  • Резиме

Екстракција на знаење (NER)

Препознавањето со именуван ентитет (NER) се однесува на задачата за автоматско идентификување на термините во различни блокови текстуални податоци. Главно се користи за извлекување важни категории на ентитети како што се имиња на лекови од клинички белешки, термини поврзани со несреќи од побарувања од осигурување и други термини специфични за домен од записите.

Имајте предвид дека оваа активност е специфична за медицинскиот домен. Порано бараше од нас да ставиме прибелешки и да обучиме повеќе од 10.000 редови податоци за еден модел да ја знае одредената класа и термин во текстот. ChatGPT може правилно да го идентификува терминот без претходно обучен текст или дотерување, што е релативно добар резултат!

Класификација на текстот

Класификацијата на текстот се однесува на автоматскиот процес на пронаоѓање и класификација на текстот во категории од огромни податоци, тој игра суштинска улога во пронаоѓањето и извлекувањето на текстуални податоци. Примерите за апликации за класификација на текст вклучуваат клинички предупредувања или категоризација на факторите на ризик, автоматска дијагностичка класификација и откривање спам.

Sentiment analysis

Sentiment analysis вклучува одредување на чувството или емоцијата изразени во парче текст. Таа има за цел да го класифицира текстот во пред категорииdefinite, како позитивен, негативен или неутрален, врз основа на основното чувство пренесено од авторот. 

Примените на сентименталната анализа вклучуваат:

  • анализа на прегледите и повратните информации од клиентите,
  • следење на чувствата на социјалните мрежи,
  • следење на трендовите на пазарот д
  • мерењето на политичките чувства за време на изборните кампањи.

Резиме

Автоматските резимеа се однесуваат на процесот со кој главните теми на еден или повеќе документи се идентификуваат и презентираат на концизен и прецизен начин. Ова му овозможува на корисникот да погледне големи делови од податоци за кратко време. Примерите на апликации вклучуваат систем за резиме што овозможува автоматско генерирање на апстракти од написи од вести и сумирање на информации со извлекување реченици од апстракти на истражувачки труд.

ChatGPT е одлична алатка за резиме, особено за долги статии и комплицирани прегледи. Со залепување на прегледите во ChatGPT, лесно можеме да го дознаеме резимето за преглед на производот на прв поглед.

Ограничување на LLM

Бидејќи целта на овој напис е да се истражи способноста на LLM да вршат задачи за анализа на текст, од суштинско значење е да се препознаат и нивните ограничувања. Некои од клучните ограничувања на LLM вклучуваат:

  1. Искористување на ресурсите : Користењето на LLM бара значителни пресметковни и финансиски ресурси, што може да биде предизвик за помалите организации или индивидуалните истражувачи со ограничени ресурси. Од денес, ChatGPT прифаќа само околу 8.000 токени за влез и излез, за ​​анализа на голема количина на податоци, бара од корисникот да го раздели текстот на повеќе делови од податоци и може да бара повеќе API повици за задачи.
  2. Чувствителност на брза фраза : Изведбата на LLM може да биде под влијание на начинот на кој се формулираат потсетниците. Мала промена во брзата формулација може да произведе различни резултати, што може да биде причина за загриженост кога се бара конзистентен и сигурен резултат.
  3. Недостаток на специфична експертиза за домен : Иако LLM имаат општо разбирање за различни домени, тие можеби немаат исто ниво на експертиза како специјализираните модели обучени за податоци специфични за домен. Како резултат на тоа, нивната изведба може да не е оптимална во некои случаи и може да бара дотерување или надворешно знаење, особено кога се работи со високо специјализирани или технички информации.

Ercole Palmeri

Билтен за иновации
Не пропуштајте ги најважните вести за иновациите. Пријавете се за да ги добивате по е-пошта.

Последни написи

Veeam ја има најсеопфатната поддршка за ransomware, од заштита до одговор и обновување

Coveware од Veeam ќе продолжи да обезбедува услуги за одговор на инциденти на сајбер изнуда. Coveware ќе понуди форензика и способности за санација…

Април 23 2024

Зелена и дигитална револуција: Како предвидливото одржување ја трансформира индустријата за нафта и гас

Предвидливото одржување го револуционизира секторот за нафта и гас, со иновативен и проактивен пристап кон управувањето со постројките.…

Април 22 2024

Антимонополскиот регулатор на Обединетото Кралство го покренува алармот на BigTech поради GenAI

Обединетото Кралство CMA издаде предупредување за однесувањето на Big Tech на пазарот на вештачка интелигенција. Таму…

Април 18 2024

Casa Green: енергетска револуција за одржлива иднина во Италија

Уредбата за „Case Green“, формулирана од Европската унија за подобрување на енергетската ефикасност на зградите, го заврши својот законодавен процес со…

Април 18 2024

Читајте иновации на вашиот јазик

Билтен за иновации
Не пропуштајте ги најважните вести за иновациите. Пријавете се за да ги добивате по е-пошта.

Следете нас