товары

Разбор текста с помощью chatGPT

Текстовая аналитика или интеллектуальный анализ текста — жизненно важный метод извлечения ценных сведений из больших объемов неструктурированных текстовых данных. 

Он включает в себя обработку и анализ текста для выявления закономерностей, тенденций и взаимосвязей.

Это позволяет компаниям, исследователям и организациям принимать решения на основе информации, полученной из текстов. 

Поскольку объем неструктурированных данных продолжает расти в геометрической прогрессии, потребность в точных и эффективных инструментах текстовой аналитики становится все более острой в таких разнообразных отраслях, как маркетинг, финансы, здравоохранение и социальные науки.

Традиционно анализ текста выполнялся с использованием методов, основанных на правилах, и методов машинного обучения, таких как SpaCY и метод преобразования. Хотя эти методы доказали свою эффективность, для их совершенствования требуются значительные усилия и опыт.

С появлением больших языковых моделей (LLM), таких как ChatGPT di OpenAI. Он продемонстрировал замечательные возможности в создании человеческого текста и понимании контекста, что делает его многообещающим инструментом для таких задач анализа текста, как entity recognition, sentiment analysis, и topic modeling.

Давайте теперь посмотрим, как мы можем выполнять анализ текста с помощью ChatGPT.

Традиционный метод (отдельные модели) vs. магистр права

В прошлом мы всегда использовали разные модели для разных задач машинного обучения. Например, если я хочу извлечь знания из текста, мне нужно будет использовать модель распознавания именованных сущностей (NER — Named Entity Recognition), если мне нужно классифицировать текст по отдельным классам, мне понадобится модель классификации. Каждое отдельное действие требовало, чтобы модели обучались по-разному для каждого действия либо путем переноса обучения, либо путем обучения.

С введением Large Language Models (LLM), модель LLM сможет выполнять несколько задач НЛП с обучением или без него. Любая деятельность может быть defiможно просто изменить инструкции в подсказках.

Теперь давайте посмотрим, как выполнить традиционную задачу НЛП в ChatGPT и сравните его с традиционным способом. Задачи НЛП, которые будут выполняться ChatGPT в этой статье:

  • Извлечение знаний (NER)
  • Классификация текстов
  • Sentiment analysis
  • Riepilogo

Извлечение знаний (NER)

Распознавание именованных объектов (NER) относится к задаче автоматической идентификации терминов в различных блоках текстовых данных. Он в основном используется для извлечения важных категорий сущностей, таких как названия лекарств из клинических заметок, термины, связанные с несчастным случаем, из страховых требований и другие термины, относящиеся к предметной области, из записей.

Обратите внимание, что эта деятельность специфична для медицинской области. Раньше от нас требовалось аннотировать и обучать более 10.000 XNUMX строк данных для одной модели, чтобы знать конкретный класс и термин в тексте. ChatGPT может правильно определить термин без какого-либо предварительно обученного текста или тонкой настройки, что является относительно хорошим результатом!

Классификация текстов

Классификация текста относится к автоматическому процессу поиска и классификации текста по категориям из огромных данных, он играет важную роль в поиске и извлечении текстовых данных. Примеры приложений для классификации текста включают в себя клинические оповещения или категоризацию факторов риска, автоматическую диагностическую классификацию и обнаружение спама.

Sentiment analysis

Sentiment analysis включает в себя определение чувства или эмоции, выраженной в фрагменте текста. Он направлен на классификацию текста по предварительным категориямdefiконечно, как положительное, отрицательное или нейтральное, в зависимости от основного настроения, переданного автором. 

Приложения анализа настроений включают:

  • анализ отзывов и отзывов клиентов,
  • отслеживание настроений в социальных сетях,
  • отслеживание тенденций рынка e
  • измерение политических настроений во время избирательных кампаний.

Riepilogo

Автоматические сводки относятся к процессу, с помощью которого основные темы одного или нескольких документов идентифицируются и представляются в краткой и точной форме. Это позволяет пользователю просматривать большие объемы данных за короткий промежуток времени. Примеры приложений включают сводную систему, которая позволяет автоматически генерировать рефераты из новостных статей и обобщать информацию путем извлечения предложений из рефератов научных статей.

ChatGPT — отличный инструмент для составления сводок, особенно для длинных статей и сложных обзоров. Вставляя обзоры в ChatGPT, мы можем легко узнать сводку обзора продукта с первого взгляда.

Лимит LLM

Поскольку целью этой статьи является изучение способности LLM выполнять задачи анализа текста, важно также признать их ограничения. Некоторые из ключевых ограничений LLM включают в себя:

  1. Использование ресурсов : использование LLM требует значительных вычислительных и финансовых ресурсов, что может быть проблемой для небольших организаций или отдельных исследователей с ограниченными ресурсами. На сегодняшний день ChatGPT принимает только около 8.000 токенов для ввода и вывода, чтобы анализировать большой объем данных, требует от пользователя разбить текст на несколько фрагментов данных и может потребовать нескольких вызовов API для выполнения задач.
  2. Чувствительность к подсказкам : на производительность LLM может влиять формулировка подсказок. Небольшое изменение формулировки подсказки может привести к другим результатам, что может стать причиной для беспокойства при поиске последовательного и надежного вывода.
  3. Отсутствие специальных знаний в предметной области : Хотя LLM имеют общее представление о различных предметных областях, они могут не иметь того же уровня знаний, что и специализированные модели, обученные на данных, специфичных для предметной области. В результате их производительность в некоторых случаях может быть не оптимальной и может потребовать тонкой настройки или внешних знаний, особенно при работе с узкоспециализированной или технической информацией.

Ercole Palmeri

Инновационный бюллетень
Не пропустите самые важные новости об инновациях. Зарегистрируйтесь, чтобы получать их по электронной почте.

АРТИКОЛИ recenti

Преимущества раскрасок для детей — мир волшебства для всех возрастов

Развитие мелкой моторики посредством раскрашивания готовит детей к более сложным навыкам, таким как письмо. Раскрасить…

2 мая 2024

Будущее уже здесь: как судоходная отрасль меняет мировую экономику

Военно-морской сектор является настоящей глобальной экономической державой, которая достигла 150-миллиардного рынка...

1 мая 2024

Издатели и OpenAI подписывают соглашения, регулирующие поток информации, обрабатываемой искусственным интеллектом.

В прошлый понедельник Financial Times объявила о сделке с OpenAI. FT лицензирует свою журналистику мирового уровня…

Апрель 30 2024

Онлайн-платежи: вот как потоковые сервисы заставляют вас платить вечно

Миллионы людей платят за стриминговые сервисы, выплачивая ежемесячную абонентскую плату. Распространено мнение, что вы…

Апрель 29 2024

Читайте «Инновации» на вашем языке

Инновационный бюллетень
Не пропустите самые важные новости об инновациях. Зарегистрируйтесь, чтобы получать их по электронной почте.

Следуйте за нами