Các bài viết

Phân tích cú pháp văn bản bằng chatGPT

Phân tích văn bản, hoặc khai thác văn bản, là một kỹ thuật quan trọng để trích xuất những hiểu biết có giá trị từ một lượng lớn dữ liệu văn bản phi cấu trúc. 

Nó liên quan đến việc xử lý và phân tích văn bản để khám phá các mẫu, xu hướng và mối quan hệ.

Nó cho phép các công ty, nhà nghiên cứu và tổ chức đưa ra quyết định dựa trên thông tin thu thập được từ các văn bản. 

Khi khối lượng dữ liệu phi cấu trúc tiếp tục tăng theo cấp số nhân, nhu cầu về các công cụ phân tích văn bản chính xác và hiệu quả ngày càng trở nên quan trọng trong các ngành đa dạng như tiếp thị, tài chính, chăm sóc sức khỏe và khoa học xã hội.

Theo truyền thống, phân tích văn bản đã được thực hiện bằng các phương pháp dựa trên quy tắc và kỹ thuật học máy như SpaCY và kỹ thuật biến áp. Mặc dù các phương pháp này đã được chứng minh là hiệu quả, nhưng chúng đòi hỏi nỗ lực và chuyên môn đáng kể để hoàn thiện.

Với sự ra đời của các mô hình ngôn ngữ lớn (LLM) như ChatGPT di OpenAI. Nó đã chứng minh khả năng vượt trội trong việc tạo văn bản giống con người và hiểu ngữ cảnh, làm cho nó trở thành một công cụ đầy hứa hẹn cho các nhiệm vụ phân tích văn bản như entity recognition, sentiment analysistopic modeling.

Bây giờ hãy xem cách chúng tôi có thể thực hiện phân tích cú pháp văn bản bằng ChatGPT.

Phương pháp truyền thống (mô hình đơn lẻ) vs. LLM

Trước đây, chúng tôi luôn sử dụng các mô hình khác nhau cho các tác vụ khác nhau trong học máy. Ví dụ: nếu tôi muốn trích xuất kiến ​​thức từ văn bản, tôi sẽ cần sử dụng mô hình nhận dạng thực thể có tên (NER – Named Entity Recognition), nếu tôi cần phân loại văn bản của mình thành các lớp riêng biệt, tôi sẽ cần một mô hình phân loại. Mỗi hoạt động khác nhau yêu cầu các mô hình được đào tạo khác nhau cho từng hoạt động, bằng cách học chuyển đổi hoặc đào tạo.

Với sự giới thiệu của Large Language Models (LLM), mô hình LLM sẽ có thể thực hiện nhiều nhiệm vụ NLP có hoặc không cần đào tạo. Bất kỳ hoạt động nào cũng có thể defiđược thực hiện đơn giản bằng cách thay đổi hướng dẫn trong lời nhắc.

Bây giờ hãy xem cách thực hiện nhiệm vụ NLP truyền thống trong ChatGPT và so sánh nó với cách truyền thống. Các nhiệm vụ NLP sẽ được thực hiện bởi ChatGPT trong bài viết này là:

  • Khai thác kiến ​​thức (NER)
  • phân loại văn bản
  • Sentiment analysis
  • Bản tóm tắt

Khai thác kiến ​​thức (NER)

Nhận dạng đối tượng được đặt tên (NER) đề cập đến nhiệm vụ tự động xác định các thuật ngữ trong các khối dữ liệu văn bản khác nhau. Nó chủ yếu được sử dụng để trích xuất các danh mục thực thể quan trọng, chẳng hạn như tên thuốc từ ghi chú lâm sàng, các điều khoản liên quan đến tai nạn từ yêu cầu bảo hiểm và các điều khoản cụ thể theo miền khác từ hồ sơ.

Lưu ý rằng hoạt động này dành riêng cho lĩnh vực y tế. Nó từng yêu cầu chúng tôi chú thích và đào tạo hơn 10.000 hàng dữ liệu cho một mô hình để biết lớp và thuật ngữ cụ thể trong văn bản. ChatGPT có thể xác định chính xác thuật ngữ mà không cần bất kỳ văn bản hoặc tinh chỉnh được đào tạo trước nào, đây là một kết quả tương đối tốt!

phân loại văn bản

Phân loại văn bản đề cập đến quá trình tự động tìm kiếm và phân loại văn bản thành các danh mục từ dữ liệu khổng lồ, nó đóng một vai trò thiết yếu trong việc truy xuất và trích xuất dữ liệu văn bản. Ví dụ về các ứng dụng phân loại văn bản bao gồm cảnh báo lâm sàng hoặc phân loại yếu tố rủi ro, phân loại chẩn đoán tự động và phát hiện thư rác.

Sentiment analysis

Sentiment analysis liên quan đến việc xác định cảm giác hoặc cảm xúc được thể hiện trong một đoạn văn bản. Nó nhằm mục đích phân loại văn bản thành các danh mục trướcdeficuối cùng, là tích cực, tiêu cực hoặc trung tính, dựa trên tình cảm cơ bản được tác giả truyền tải. 

Các ứng dụng của phân tích tình cảm bao gồm:

  • phân tích đánh giá và phản hồi của khách hàng,
  • theo dõi tình cảm truyền thông xã hội,
  • theo dõi xu hướng thị trường e
  • việc đo lường tình cảm chính trị trong các chiến dịch bầu cử.

Bản tóm tắt

Tóm tắt tự động đề cập đến quá trình theo đó các chủ đề chính của một hoặc nhiều tài liệu được xác định và trình bày một cách ngắn gọn và chính xác. Điều này cho phép người dùng xem xét các khối dữ liệu lớn trong một khoảng thời gian ngắn. Các ứng dụng ví dụ bao gồm một hệ thống tóm tắt cho phép tạo tự động các tóm tắt từ các bài báo và tóm tắt thông tin bằng cách trích xuất các câu từ tóm tắt bài báo nghiên cứu.

ChatGPT là một công cụ tóm tắt tuyệt vời, đặc biệt đối với các bài báo dài và đánh giá phức tạp. Bằng cách dán các bài đánh giá vào ChatGPT, chúng tôi có thể dễ dàng biết tóm tắt bài đánh giá sản phẩm trong nháy mắt.

Giới hạn của LLM

Vì mục đích của bài viết này là khám phá khả năng của các LLM trong việc thực hiện các nhiệm vụ phân tích văn bản, nên điều cần thiết là cũng phải nhận ra những hạn chế của chúng. Một số hạn chế chính của LLM bao gồm:

  1. Tận dụng nguồn tài nguyên : Việc sử dụng LLM đòi hỏi nguồn lực tài chính và tính toán đáng kể, đây có thể là một thách thức đối với các tổ chức nhỏ hơn hoặc các nhà nghiên cứu cá nhân với nguồn lực hạn chế. Tính đến hôm nay, ChatGPT chỉ chấp nhận khoảng 8.000 mã thông báo cho đầu vào và đầu ra, để phân tích một lượng lớn dữ liệu, yêu cầu người dùng chia văn bản thành nhiều khối dữ liệu và có thể yêu cầu nhiều lệnh gọi API cho các tác vụ.
  2. Nhạy cảm với cụm từ nhanh chóng : Hiệu suất của LLM có thể bị ảnh hưởng bởi cách diễn đạt lời nhắc. Một thay đổi nhỏ trong từ ngữ nhanh chóng có thể tạo ra các kết quả khác nhau, đây có thể là nguyên nhân gây lo ngại khi tìm kiếm đầu ra nhất quán và đáng tin cậy.
  3. Thiếu chuyên môn cụ thể về tên miền : Mặc dù các LLM có hiểu biết chung về các lĩnh vực khác nhau, nhưng họ có thể không có cùng trình độ chuyên môn như các mô hình chuyên biệt được đào tạo về dữ liệu dành riêng cho từng miền. Do đó, hiệu suất của chúng có thể không tối ưu trong một số trường hợp và có thể yêu cầu tinh chỉnh hoặc kiến ​​thức bên ngoài, đặc biệt khi xử lý thông tin kỹ thuật hoặc chuyên môn cao.

Ercole Palmeri

Bản tin đổi mới
Đừng bỏ lỡ những tin tức quan trọng nhất về đổi mới. Đăng ký để nhận chúng qua email.

Bài viết gần đây

Sự can thiệp sáng tạo vào thực tế tăng cường, với người xem Apple tại Phòng khám đa khoa Catania

Một ca phẫu thuật tạo hình mắt bằng cách sử dụng trình xem thương mại Apple Vision Pro đã được thực hiện tại Phòng khám đa khoa Catania…

3 May 2024

Lợi ích của việc tô màu cho trẻ em - thế giới kỳ diệu dành cho mọi lứa tuổi

Phát triển kỹ năng vận động tinh thông qua tô màu giúp trẻ chuẩn bị cho những kỹ năng phức tạp hơn như viết. Để tô màu…

2 May 2024

Tương lai là đây: Ngành vận tải biển đang cách mạng hóa nền kinh tế toàn cầu như thế nào

Ngành hải quân là một cường quốc kinh tế toàn cầu thực sự, đang hướng tới thị trường 150 tỷ...

1 May 2024

Các nhà xuất bản và OpenAI ký thỏa thuận điều chỉnh luồng thông tin được Trí tuệ nhân tạo xử lý

Thứ Hai tuần trước, Financial Times đã công bố một thỏa thuận với OpenAI. FT cấp phép cho hoạt động báo chí đẳng cấp thế giới…

30 tháng tư 2024

Đọc Đổi mới bằng ngôn ngữ của bạn

Bản tin đổi mới
Đừng bỏ lỡ những tin tức quan trọng nhất về đổi mới. Đăng ký để nhận chúng qua email.

Theo chúng tôi