Hướng Dẫn

Phân loại các thuật toán học máy: Hồi quy tuyến tính, Phân loại và Phân cụm

Học máy có nhiều điểm tương đồng với tối ưu hóa toán học, cung cấp các phương pháp, lý thuyết và miền ứng dụng. 

Học máy được xây dựng dưới dạng "các vấn đề giảm thiểu" của một hàm mất mát dựa trên một tập hợp các ví dụ nhất định (tập huấn luyện). Tính năng này thể hiện sự khác biệt giữa các giá trị được dự đoán bởi mô hình đang được huấn luyện và các giá trị mong đợi cho mỗi trường hợp ví dụ. 

Mục tiêu cuối cùng là dạy cho mô hình khả năng dự đoán chính xác trên một tập hợp các trường hợp không có trong tập huấn luyện.

Một phương pháp mà theo đó có thể phân biệt các loại thuật toán khác nhau là loại đầu ra được mong đợi từ một hệ thống nhất định của học máy

Trong số các danh mục chính, chúng tôi tìm thấy:

  • La phân loại: đầu vào được chia thành hai hoặc nhiều lớp và hệ thống học tập phải tạo ra một mô hình có khả năng gán một hoặc nhiều lớp trong số những lớp có sẵn cho đầu vào.Những loại nhiệm vụ này thường được giải quyết bằng cách sử dụng các kỹ thuật học có giám sát. 

    Một ví dụ về phân loại là việc gán một hoặc nhiều nhãn cho một hình ảnh dựa trên các đối tượng hoặc chủ thể chứa trong nó;

  • La hồi quy: về mặt khái niệm tương tự như phân loại với sự khác biệt là đầu ra có miền liên tục và không rời rạc.Nó thường được quản lý với việc học có giám sát. 

    Một ví dụ về hồi quy là ước tính độ sâu của cảnh từ biểu diễn của nó dưới dạng ảnh màu. 

    Trên thực tế, miền của đầu ra được đề cập là hầu như vô hạn, và không giới hạn trong một tập hợp các khả năng rời rạc nhất định;

  • Il tập hợp: Nó đâu rồi một tập hợp dữ liệu được chia thành các nhóm, tuy nhiên, không giống như phân loại, không được biết trước.Bản chất của các vấn đề thuộc loại này thường khiến chúng không được giám sát các nhiệm vụ học tập.
Mô hình hồi quy tuyến tính đơn giản

Hồi quy tuyến tính là amđược sử dụng rộng rãi mô hình được sử dụng để ước tính các giá trị thực như:

  • chi phí nhà,
  • số lượng cuộc gọi,
  • tổng doanh thu trên mỗi người,

và tuân theo tiêu chí của các biến liên tục:

  • mét vuông,
  • đăng ký một tài khoản hiện tại,
  • giáo dục của con người

Trong hồi quy tuyến tính, mối quan hệ giữa các biến độc lập và các biến phụ thuộc được theo sau thông qua một đường biểu diễn mối quan hệ giữa hai biến.

Đường phù hợp được gọi là đường hồi quy và được biểu diễn bằng một phương trình tuyến tính kiểu Y = a * X + b.

Công thức dựa trên dữ liệu nội suy để liên kết hai hoặc nhiều đặc điểm với nhau. Khi bạn cung cấp cho thuật toán một đặc tính đầu vào, thì hồi quy trả về đặc tính khác.

Mô hình hồi quy nhiều tuyến tính

Khi chúng ta có nhiều hơn một biến độc lập, thì chúng ta nói về hồi quy tuyến tính nhiều lần, giả sử một mô hình như sau:


y=b0 + b1x1 + b2x2 +… + Bnxn

  • y là phản hồi đối với các giá trị, nghĩa là nó đại diện cho kết quả được dự đoán bởi mô hình;
  • b0 là giao điểm, đó là giá trị của y khi xi chúng đều bằng 0;
  • đặc điểm đầu tiên b1 là hệ số của x1;
  • một tính năng khác bn là hệ số của xn;
  • x1,x2,…, Xn là các biến độc lập của mô hình.

Về cơ bản, phương trình giải thích mối quan hệ giữa một biến phụ thuộc liên tục (y) và hai hoặc nhiều biến độc lập (x1, x2, x3…). 

Ví dụ, nếu chúng ta muốn ước tính lượng khí thải CO2 của một chiếc ô tô (biến phụ thuộc y) dựa trên công suất động cơ, số lượng xi lanh và mức tiêu thụ nhiên liệu. Các yếu tố sau này là các biến độc lập x1, x2 và x3. Các hằng số bi là số thực và được gọi là hệ số hồi quy ước tính của mô hình. Y là biến phụ thuộc liên tục, tức là tổng của b0, b1 x1, b2 x2, v.v. y sẽ là một số thực.

Phân tích hồi quy bội là một phương pháp được sử dụng để xác định ảnh hưởng của các biến độc lập đối với một biến phụ thuộc.

Hiểu được biến phụ thuộc thay đổi như thế nào khi các biến độc lập thay đổi cho phép chúng ta dự đoán tác động hoặc tác động của những thay đổi trong các tình huống thực tế.

Sử dụng nhiều hồi quy tuyến tính, có thể hiểu huyết áp thay đổi như thế nào khi chỉ số khối cơ thể thay đổi bằng cách xem xét các yếu tố như tuổi, giới tính, v.v., từ đó giả định điều gì có thể xảy ra.

Với hồi quy bội số, chúng ta có thể nhận được các ước tính về xu hướng giá, chẳng hạn như xu hướng tương lai của dầu hoặc vàng.

Cuối cùng, hồi quy đa tuyến tính đang tìm thấy sự quan tâm lớn hơn trong lĩnh vực máy học và trí tuệ nhân tạo vì nó cho phép thu được các mô hình học tập hiệu quả ngay cả trong trường hợp có một số lượng lớn bản ghi cần phân tích.

Mô hình hồi quy logistic

Hồi quy logistic là một công cụ thống kê nhằm mục đích lập mô hình kết quả nhị thức với một hoặc nhiều biến giải thích.

Nó thường được sử dụng cho các bài toán nhị phân, trong đó chỉ có hai lớp, ví dụ Có hoặc Không, 0 hoặc 1, nam hoặc nữ, v.v.

Bằng cách này, có thể mô tả dữ liệu và giải thích mối quan hệ giữa một biến phụ thuộc nhị phân và một hoặc nhiều biến danh nghĩa hoặc thứ tự độc lập.

Kết quả được xác định nhờ sử dụng hàm logistic, ước tính xác suất và sau đó defikết thúc lớp gần nhất (dương hoặc âm) với giá trị xác suất thu được.

Chúng ta có thể coi hồi quy logistic là một phương pháp phân loại họ thuật toán học có giám sát.

Sử dụng phương pháp thống kê, hồi quy logistic cho phép tạo ra một kết quả, trên thực tế, đại diện cho một xác suất mà một giá trị đầu vào nhất định thuộc về một lớp nhất định.

Trong các bài toán hồi quy logistic nhị thức, xác suất đầu ra thuộc một lớp sẽ là P, trong khi đầu ra thuộc lớp khác 1-P (trong đó P là một số từ 0 đến 1 vì nó biểu thị một xác suất).

Hồi quy logistic nhị thức hoạt động tốt trong tất cả các trường hợp trong đó biến mà chúng ta đang cố gắng dự đoán là nhị phân, nghĩa là, nó chỉ có thể giả định hai giá trị: giá trị 1 đại diện cho lớp dương hoặc giá trị 0 đại diện cho lớp âm.

Ví dụ về các vấn đề có thể được giải quyết bằng hồi quy logistic là:

  • e-mail có phải là thư rác hay không;
  • mua hàng trực tuyến có gian lận hay không, đánh giá các điều kiện mua hàng;
  • một bệnh nhân bị gãy xương, đánh giá bán kính của nó.

Với hồi quy logistic, chúng ta có thể thực hiện phân tích dự đoán, đo lường mối quan hệ giữa những gì chúng ta muốn dự đoán (biến phụ thuộc) và một hoặc nhiều biến độc lập, tức là các đặc điểm. Ước tính xác suất được thực hiện thông qua một hàm logistic.

Các xác suất sau đó được chuyển thành các giá trị nhị phân và để làm cho dự đoán trở thành hiện thực, kết quả này được gán cho lớp mà nó thuộc về, dựa trên việc nó có gần với chính lớp đó hay không.

Ví dụ: nếu ứng dụng của hàm logistic trả về 0,85, thì điều đó có nghĩa là đầu vào đã tạo ra một lớp dương bằng cách gán nó cho lớp 1. Ngược lại nếu nó đã nhận được một giá trị chẳng hạn như 0,4 trở lên thường <0,5 ..

Bản tin đổi mới
Đừng bỏ lỡ những tin tức quan trọng nhất về đổi mới. Đăng ký để nhận chúng qua email.

Hồi quy logistic sử dụng chức năng logistic để đánh giá phân loại các giá trị đầu vào.

Hàm logistic, còn được gọi là sigmoid, là một đường cong có khả năng nhận bất kỳ số giá trị thực nào và ánh xạ nó thành một giá trị từ 0 đến 1, không bao gồm các điểm cực trị. Chức năng là:

Trong đó:

  • e: cơ số của logarit tự nhiên (số Euler hoặc hàm excel exp ())
  • b0 + b1 * x: là giá trị số thực bạn muốn biến đổi.

Biểu diễn được sử dụng cho hồi quy logistic

Hồi quy logistic sử dụng một phương trình làm đại diện, giống như hồi quy tuyến tính

Các giá trị đầu vào (x) được kết hợp tuyến tính bằng cách sử dụng trọng số hoặc giá trị hệ số, để dự đoán giá trị đầu ra (y). Sự khác biệt chính so với hồi quy tuyến tính là giá trị đầu ra được mô hình hóa là giá trị nhị phân (0 hoặc 1) chứ không phải là giá trị số.

Đây là một ví dụ về phương trình hồi quy logistic:

y = e^(b0+b1*x)/(1+e^(b0+b1*x))

Trong đó:

  • y là biến phụ thuộc, tức là giá trị dự đoán;
  • b0 là thuật ngữ phân cực hoặc đánh chặn;
  • b1 là hệ số cho giá trị đầu vào duy nhất (x).

Mỗi cột trong dữ liệu đầu vào có một hệ số b liên kết (một giá trị thực không đổi) phải được học từ dữ liệu huấn luyện.

Biểu diễn thực tế của mô hình mà bạn sẽ lưu trữ trong bộ nhớ hoặc tệp là các hệ số trong phương trình (giá trị beta hoặc b).

Hồi quy logistic dự đoán xác suất (phạm vi kỹ thuật)

Hồi quy logistic mô hình xác suất của lớp mặc định.

Ví dụ, giả sử chúng ta đang lập mô hình giới tính của mọi người là nam hoặc nữ từ chiều cao của họ, lớp đầu tiên có thể là nam và mô hình hồi quy logistic có thể được viết dưới dạng xác suất nam với chiều cao của một người hoặc hơn. chính thức:

P (giới tính = nam | chiều cao)

Viết theo cách khác, chúng ta đang lập mô hình xác suất mà đầu vào (X) thuộc về lớp trướcdefiđêm (Y = 1), chúng ta có thể viết nó như sau:

P(X) = P(Y = 1 | X)

Dự đoán xác suất phải được chuyển đổi thành các giá trị nhị phân (0 hoặc 1) để thực sự đưa ra dự đoán xác suất.

Hồi quy logistic là một phương pháp tuyến tính, nhưng các dự đoán được biến đổi bằng cách sử dụng hàm logistic. Tác động của điều này là chúng ta không còn có thể hiểu các dự đoán là sự kết hợp tuyến tính của các yếu tố đầu vào như chúng ta có thể làm với hồi quy tuyến tính, ví dụ, tiếp tục từ trên xuống, mô hình có thể được biểu thị như sau:

p(X) = e^(b0 + b1 * X) / (1 + e ^ (b0 + b1 * X))

Bây giờ chúng ta có thể đảo ngược phương trình như sau. Để đảo ngược nó, chúng ta có thể tiến hành bằng cách loại bỏ các e ở một bên bằng cách thêm một lôgarit tự nhiên vào bên kia.

ln (p (X) / 1 - p (X)) = b0 + b1 * X

Bằng cách này, chúng ta nhận được thực tế là việc tính toán đầu ra bên phải là tuyến tính trở lại (giống như hồi quy tuyến tính) và đầu vào bên trái là một logarit của xác suất của lớp mặc định.

Các xác suất được tính bằng tỷ số giữa xác suất của sự kiện chia cho xác suất không xảy ra sự kiện, ví dụ: 0,8 / (1-0,8) có kết quả là 4. Vì vậy, thay vào đó chúng ta có thể viết:

ln (tỷ lệ cược) = b0 + b1 * X

Vì xác suất được biến đổi theo log, chúng tôi gọi đây là tỷ lệ cược log bên trái hoặc tỷ lệ chênh lệch.

Chúng ta có thể trả về số mũ bên phải và viết nó như sau:

xác suất = e ^ (b0 + b1 * X)

Tất cả điều này giúp chúng tôi hiểu rằng thực sự mô hình vẫn là sự kết hợp tuyến tính của các yếu tố đầu vào, nhưng sự kết hợp tuyến tính này đề cập đến xác suất nhật ký của lớp trướcdefiNita.

Học mô hình hồi quy logistic

Các hệ số (giá trị beta hoặc b) của thuật toán hồi quy logistic được ước tính trong giai đoạn học. Để làm điều này, chúng tôi sử dụng ước tính khả năng xảy ra tối đa.

Ước tính khả năng tối đa là một thuật toán học được sử dụng bởi một số thuật toán học máy. Các hệ số thu được từ mô hình dự đoán giá trị rất gần 1 (ví dụ: nam) cho lớp mầm nondefinite và một giá trị rất gần với 0 (ví dụ: nữ) đối với lớp khác. Khả năng tối đa cho hồi quy logistic là quy trình tìm giá trị cho các hệ số (giá trị Beta hoặc ob) giúp giảm thiểu lỗi trong xác suất được dự đoán bởi mô hình so với xác suất trong dữ liệu (ví dụ: xác suất 1 nếu dữ liệu là lớp chính) .

Chúng tôi sẽ sử dụng thuật toán tối thiểu hóa để tối ưu hóa các giá trị hệ số tốt nhất cho dữ liệu huấn luyện. Điều này thường được thực hiện trong thực tế bằng cách sử dụng một thuật toán tối ưu hóa số hiệu quả.

Ercole Palmeri


Bản tin đổi mới
Đừng bỏ lỡ những tin tức quan trọng nhất về đổi mới. Đăng ký để nhận chúng qua email.

Bài viết gần đây

Sự can thiệp sáng tạo vào thực tế tăng cường, với người xem Apple tại Phòng khám đa khoa Catania

Một ca phẫu thuật tạo hình mắt bằng cách sử dụng trình xem thương mại Apple Vision Pro đã được thực hiện tại Phòng khám đa khoa Catania…

3 May 2024

Lợi ích của việc tô màu cho trẻ em - thế giới kỳ diệu dành cho mọi lứa tuổi

Phát triển kỹ năng vận động tinh thông qua tô màu giúp trẻ chuẩn bị cho những kỹ năng phức tạp hơn như viết. Để tô màu…

2 May 2024

Tương lai là đây: Ngành vận tải biển đang cách mạng hóa nền kinh tế toàn cầu như thế nào

Ngành hải quân là một cường quốc kinh tế toàn cầu thực sự, đang hướng tới thị trường 150 tỷ...

1 May 2024

Các nhà xuất bản và OpenAI ký thỏa thuận điều chỉnh luồng thông tin được Trí tuệ nhân tạo xử lý

Thứ Hai tuần trước, Financial Times đã công bố một thỏa thuận với OpenAI. FT cấp phép cho hoạt động báo chí đẳng cấp thế giới…

30 tháng tư 2024

Đọc Đổi mới bằng ngôn ngữ của bạn

Bản tin đổi mới
Đừng bỏ lỡ những tin tức quan trọng nhất về đổi mới. Đăng ký để nhận chúng qua email.

Theo chúng tôi