Khi khối lượng dữ liệu phi cấu trúc tiếp tục tăng theo cấp số nhân, nhu cầu về các công cụ phân tích văn bản chính xác và hiệu quả ngày càng trở nên quan trọng trong các ngành đa dạng như tiếp thị, tài chính, chăm sóc sức khỏe và khoa học xã hội.
Theo truyền thống, phân tích văn bản đã được thực hiện bằng các phương pháp dựa trên quy tắc và kỹ thuật học máy như SpaCY và kỹ thuật biến áp. Mặc dù các phương pháp này đã được chứng minh là hiệu quả, nhưng chúng đòi hỏi nỗ lực và chuyên môn đáng kể để hoàn thiện.
Với sự ra đời của các mô hình ngôn ngữ lớn (LLM) như ChatGPT di OpenAI. Nó đã chứng minh khả năng vượt trội trong việc tạo văn bản giống con người và hiểu ngữ cảnh, làm cho nó trở thành một công cụ đầy hứa hẹn cho các nhiệm vụ phân tích văn bản như entity recognition
, sentiment analysis
Và topic modeling
.
Bây giờ hãy xem cách chúng tôi có thể thực hiện phân tích cú pháp văn bản bằng ChatGPT.
Trước đây, chúng tôi luôn sử dụng các mô hình khác nhau cho các tác vụ khác nhau trong học máy. Ví dụ: nếu tôi muốn trích xuất kiến thức từ văn bản, tôi sẽ cần sử dụng mô hình nhận dạng thực thể có tên (NER – Named Entity Recognition
), nếu tôi cần phân loại văn bản của mình thành các lớp riêng biệt, tôi sẽ cần một mô hình phân loại. Mỗi hoạt động khác nhau yêu cầu các mô hình được đào tạo khác nhau cho từng hoạt động, bằng cách học chuyển đổi hoặc đào tạo.
Với sự giới thiệu của Large Language Models (LLM), mô hình LLM sẽ có thể thực hiện nhiều nhiệm vụ NLP có hoặc không cần đào tạo. Bất kỳ hoạt động nào cũng có thể defiđược thực hiện đơn giản bằng cách thay đổi hướng dẫn trong lời nhắc.
Bây giờ hãy xem cách thực hiện nhiệm vụ NLP truyền thống trong ChatGPT và so sánh nó với cách truyền thống. Các nhiệm vụ NLP sẽ được thực hiện bởi ChatGPT trong bài viết này là:
Sentiment analysis
Nhận dạng đối tượng được đặt tên (NER) đề cập đến nhiệm vụ tự động xác định các thuật ngữ trong các khối dữ liệu văn bản khác nhau. Nó chủ yếu được sử dụng để trích xuất các danh mục thực thể quan trọng, chẳng hạn như tên thuốc từ ghi chú lâm sàng, các điều khoản liên quan đến tai nạn từ yêu cầu bảo hiểm và các điều khoản cụ thể theo miền khác từ hồ sơ.
Lưu ý rằng hoạt động này dành riêng cho lĩnh vực y tế. Nó từng yêu cầu chúng tôi chú thích và đào tạo hơn 10.000 hàng dữ liệu cho một mô hình để biết lớp và thuật ngữ cụ thể trong văn bản. ChatGPT có thể xác định chính xác thuật ngữ mà không cần bất kỳ văn bản hoặc tinh chỉnh được đào tạo trước nào, đây là một kết quả tương đối tốt!
Phân loại văn bản đề cập đến quá trình tự động tìm kiếm và phân loại văn bản thành các danh mục từ dữ liệu khổng lồ, nó đóng một vai trò thiết yếu trong việc truy xuất và trích xuất dữ liệu văn bản. Ví dụ về các ứng dụng phân loại văn bản bao gồm cảnh báo lâm sàng hoặc phân loại yếu tố rủi ro, phân loại chẩn đoán tự động và phát hiện thư rác.
Sentiment analysis
Sentiment analysis
liên quan đến việc xác định cảm giác hoặc cảm xúc được thể hiện trong một đoạn văn bản. Nó nhằm mục đích phân loại văn bản thành các danh mục trướcdeficuối cùng, là tích cực, tiêu cực hoặc trung tính, dựa trên tình cảm cơ bản được tác giả truyền tải.
Các ứng dụng của phân tích tình cảm bao gồm:
Tóm tắt tự động đề cập đến quá trình theo đó các chủ đề chính của một hoặc nhiều tài liệu được xác định và trình bày một cách ngắn gọn và chính xác. Điều này cho phép người dùng xem xét các khối dữ liệu lớn trong một khoảng thời gian ngắn. Các ứng dụng ví dụ bao gồm một hệ thống tóm tắt cho phép tạo tự động các tóm tắt từ các bài báo và tóm tắt thông tin bằng cách trích xuất các câu từ tóm tắt bài báo nghiên cứu.
ChatGPT là một công cụ tóm tắt tuyệt vời, đặc biệt đối với các bài báo dài và đánh giá phức tạp. Bằng cách dán các bài đánh giá vào ChatGPT, chúng tôi có thể dễ dàng biết tóm tắt bài đánh giá sản phẩm trong nháy mắt.
Vì mục đích của bài viết này là khám phá khả năng của các LLM trong việc thực hiện các nhiệm vụ phân tích văn bản, nên điều cần thiết là cũng phải nhận ra những hạn chế của chúng. Một số hạn chế chính của LLM bao gồm:
Ercole Palmeri
Một ca phẫu thuật tạo hình mắt bằng cách sử dụng trình xem thương mại Apple Vision Pro đã được thực hiện tại Phòng khám đa khoa Catania…
Phát triển kỹ năng vận động tinh thông qua tô màu giúp trẻ chuẩn bị cho những kỹ năng phức tạp hơn như viết. Để tô màu…
Ngành hải quân là một cường quốc kinh tế toàn cầu thực sự, đang hướng tới thị trường 150 tỷ...
Thứ Hai tuần trước, Financial Times đã công bố một thỏa thuận với OpenAI. FT cấp phép cho hoạt động báo chí đẳng cấp thế giới…