การจำแนกประเภทของอัลกอริทึมการเรียนรู้ของเครื่อง: การถดถอยเชิงเส้นการจำแนกและการจัดกลุ่ม

การเรียนรู้ของเครื่องมีความคล้ายคลึงกันอย่างมากกับการเพิ่มประสิทธิภาพทางคณิตศาสตร์ซึ่งมีวิธีการทฤษฎีและโดเมนของแอปพลิเคชัน

แมชชีนเลิร์นนิงถูกกำหนดให้เป็น "ปัญหาการย่อขนาด" ของฟังก์ชันการสูญเสียเทียบกับชุดตัวอย่างที่กำหนด (ชุดการฝึกอบรม) คุณลักษณะนี้เป็นการแสดงออกถึงความแตกต่างระหว่างค่าที่คาดการณ์โดยโมเดลที่กำลังฝึกและค่าที่คาดหวังสำหรับแต่ละอินสแตนซ์ตัวอย่าง

เป้าหมายสูงสุดคือการสอนโมเดลให้สามารถทำนายได้อย่างถูกต้องในชุดของอินสแตนซ์ที่ไม่มีอยู่ในชุดการฝึก

วิธีการที่สามารถแยกแยะหมวดหมู่ต่าง ๆ ของอัลกอริทึมได้คือประเภทของผลลัพธ์ที่คาดหวังจากระบบบางอย่างของ เรียนรู้เครื่อง.

ในหมวดหมู่หลักที่เราพบ:

La การจัดหมวดหมู่: อินพุตถูกแบ่งออกเป็นสองคลาสขึ้นไปและระบบการเรียนรู้จะต้องสร้างโมเดลที่สามารถกำหนดคลาสหนึ่งคลาสขึ้นไปในบรรดาคลาสที่มีให้อินพุตได้โดยทั่วไปงานประเภทนี้ได้รับการแก้ไขโดยใช้เทคนิคการเรียนรู้ภายใต้การดูแล
ตัวอย่างของการจัดหมวดหมู่คือการกำหนดป้ายกำกับอย่างน้อยหนึ่งป้ายให้กับรูปภาพตามวัตถุหรือวัตถุที่อยู่ในนั้น
La การถอยหลัง: แนวความคิดคล้ายกับการจำแนกประเภทที่มีความแตกต่างที่ผลลัพธ์มีโดเมนต่อเนื่องและไม่ต่อเนื่องโดยทั่วไปจะจัดการด้วยการเรียนรู้ภายใต้การดูแล
ตัวอย่างของการถดถอยคือการประมาณความลึกของฉากจากการแสดงในรูปแบบของภาพสี

ในความเป็นจริงโดเมนของผลลัพธ์ที่เป็นปัญหานั้นแทบไม่มีที่สิ้นสุดและไม่ จำกัด เฉพาะชุดของความเป็นไปได้ที่ไม่ต่อเนื่อง
Il การจัดกลุ่ม: มันอยู่ที่ไหน ชุดข้อมูลถูกแบ่งออกเป็นกลุ่มซึ่งแตกต่างจากการจัดหมวดหมู่ แต่ไม่เป็นที่รู้จักในระดับเบื้องต้นลักษณะของปัญหาที่อยู่ในหมวดหมู่นี้มักจะทำให้พวกเขามีงานการเรียนรู้ที่ไม่ได้รับการดูแล

แบบจำลองการถดถอยเชิงเส้นอย่างง่าย

การถดถอยเชิงเส้นคือนแบบจำลองที่ใช้กันอย่างแพร่หลายในการประมาณค่าจริงเช่น:

ค่าบ้าน
จำนวนการโทร
ยอดขายรวมต่อคน

และเป็นไปตามเกณฑ์ของตัวแปรต่อเนื่อง:

ตารางเมตร,
สมัครสมาชิกบัญชีปัจจุบัน
การศึกษาของบุคคล

ในการถดถอยเชิงเส้นความสัมพันธ์ระหว่างตัวแปรอิสระและตัวแปรตามจะถูกตามด้วยเส้นที่มักแสดงถึงความสัมพันธ์ระหว่างตัวแปรทั้งสอง

เส้นพอดีเรียกว่าเส้นถดถอยและแสดงด้วยสมการเชิงเส้นของประเภท Y = a * X + b

สูตรนี้ขึ้นอยู่กับการแก้ไขข้อมูลเพื่อเชื่อมโยงสองลักษณะหรือมากกว่าเข้าด้วยกัน เมื่อคุณให้อัลกอริทึมเป็นลักษณะการป้อนข้อมูลการถดถอยจะส่งกลับลักษณะอื่น

แบบจำลองการถดถอยเชิงเส้นพหุคูณ

เมื่อเรามีตัวแปรอิสระมากกว่าหนึ่งตัวแปรเราจะพูดถึงการถดถอยเชิงเส้นพหุคูณโดยสมมติว่ามีโมเดลดังต่อไปนี้:

y = ข₀ + b₁x₁ + b₂x₂ + … + B_nx_n

y คือการตอบสนองต่อค่ากล่าวคือแสดงถึงผลลัพธ์ที่โมเดลทำนายไว้
b₀ คือการสกัดกั้นนั่นคือค่าของ y เมื่อ x_iพวกมันทั้งหมดเท่ากับ 0;
ลักษณะแรก b₁ คือสัมประสิทธิ์ของ x₁;
อีกคุณสมบัติหนึ่งข_n คือสัมประสิทธิ์ของ x_n;
x₁,x₂, …, X_n เป็นตัวแปรอิสระของแบบจำลอง

โดยทั่วไปสมการจะอธิบายความสัมพันธ์ระหว่างตัวแปรตามแบบต่อเนื่อง (y) กับตัวแปรอิสระสองตัวหรือมากกว่า (x1, x2, x3 …)

ตัวอย่างเช่นหากเราต้องการประเมินการปล่อย CO2 ของรถยนต์ (ตัวแปรตาม y) โดยพิจารณาจากกำลังเครื่องยนต์จำนวนกระบอกสูบและปริมาณการใช้เชื้อเพลิง ปัจจัยหลังเหล่านี้คือตัวแปรอิสระ x1, x2 และ x3 ค่าคงที่ bi เป็นจำนวนจริงและเรียกว่าค่าสัมประสิทธิ์การถดถอยโดยประมาณของแบบจำลอง Y คือตัวแปรตามแบบต่อเนื่องนั่นคือผลรวมของ b0, b1 x1, b2 x2 เป็นต้น y จะเป็นจำนวนจริง

การวิเคราะห์การถดถอยพหุคูณเป็นวิธีการที่ใช้เพื่อระบุผลกระทบที่ตัวแปรอิสระมีต่อตัวแปรตาม

การทำความเข้าใจว่าตัวแปรตามเปลี่ยนแปลงอย่างไรเมื่อตัวแปรอิสระเปลี่ยนแปลงทำให้เราสามารถทำนายผลกระทบหรือผลกระทบของการเปลี่ยนแปลงในสถานการณ์จริงได้

การใช้การถดถอยเชิงเส้นแบบพหุคูณทำให้เข้าใจได้ว่าความดันโลหิตเปลี่ยนแปลงไปอย่างไรเมื่อดัชนีมวลกายเปลี่ยนแปลงโดยพิจารณาจากปัจจัยต่างๆเช่นอายุเพศ ฯลฯ ดังนั้นจึงสามารถสันนิษฐานได้ว่าจะเกิดอะไรขึ้น

ด้วยการถดถอยพหุคูณเราสามารถรับค่าประมาณแนวโน้มราคาเช่นแนวโน้มในอนาคตของน้ำมันหรือทองคำ

ในที่สุดการถดถอยเชิงเส้นพหุคูณกำลังได้รับความสนใจมากขึ้นในด้านการเรียนรู้ของเครื่องและปัญญาประดิษฐ์เนื่องจากช่วยให้ได้รับแบบจำลองการเรียนรู้ที่มีประสิทธิภาพแม้ในกรณีที่มีการวิเคราะห์บันทึกจำนวนมาก

แบบจำลองการถดถอยโลจิสติก

การถดถอยโลจิสติกเป็นเครื่องมือทางสถิติที่มีวัตถุประสงค์เพื่อสร้างแบบจำลองผลลัพธ์ทวินามด้วยตัวแปรอธิบายอย่างน้อยหนึ่งตัวแปร

โดยทั่วไปจะใช้สำหรับปัญหาไบนารีซึ่งมีเพียงสองคลาสเท่านั้นเช่นใช่หรือไม่ใช่ 0 หรือ 1 ชายหรือหญิงเป็นต้น ...

ด้วยวิธีนี้จึงเป็นไปได้ที่จะอธิบายข้อมูลและอธิบายความสัมพันธ์ระหว่างตัวแปรตามไบนารีกับตัวแปรอิสระเล็กน้อยหรือตามลำดับหนึ่งตัวหรือมากกว่า

ผลลัพธ์ถูกกำหนดด้วยการใช้ฟังก์ชันลอจิสติกส์ ซึ่งประเมินความน่าจะเป็นแล้วจากนั้น defiจบคลาสที่ใกล้เคียงที่สุด (บวกหรือลบ) กับค่าความน่าจะเป็นที่ได้รับ

เราสามารถพิจารณาการถดถอยโลจิสติกเป็นวิธีการจำแนกตระกูลของ อัลกอริทึมการเรียนรู้ภายใต้การดูแล.

การใช้วิธีการทางสถิติการถดถอยโลจิสติกช่วยให้สามารถสร้างผลลัพธ์ซึ่งในความเป็นจริงแสดงถึงความน่าจะเป็นที่ค่าอินพุตที่กำหนดเป็นของคลาสที่กำหนด

ในปัญหาการถดถอยโลจิสติกแบบทวินามความน่าจะเป็นที่เอาต์พุตเป็นของคลาสหนึ่งจะเป็น P ในขณะที่เป็นของคลาส 1-P อื่น ๆ (โดยที่ P คือตัวเลขระหว่าง 0 ถึง 1 เนื่องจากเป็นการแสดงความน่าจะเป็น)

การถดถอยโลจิสติกแบบทวินามทำงานได้ดีในทุกกรณีที่ตัวแปรที่เราพยายามทำนายเป็นไบนารีนั่นคือสามารถสมมติได้เพียงสองค่าเท่านั้นคือค่า 1 ซึ่งแสดงถึงคลาสบวกหรือค่า 0 ซึ่งแสดงถึงคลาสลบ

ตัวอย่างของปัญหาที่สามารถแก้ไขได้โดยการถดถอยโลจิสติก ได้แก่

อีเมลเป็นสแปมหรือไม่
การซื้อทางออนไลน์เป็นการฉ้อโกงหรือไม่โดยประเมินเงื่อนไขการซื้อ
ผู้ป่วยมีอาการกระดูกหักประเมินรัศมี

ด้วยการถดถอยโลจิสติกส์เราสามารถทำการวิเคราะห์เชิงทำนายโดยวัดความสัมพันธ์ระหว่างสิ่งที่เราต้องการทำนาย (ตัวแปรตาม) กับตัวแปรอิสระหนึ่งตัวหรือมากกว่านั่นคือลักษณะ การประมาณความน่าจะเป็นทำได้ผ่านฟังก์ชันโลจิสติกส์

ความน่าจะเป็นจะถูกเปลี่ยนเป็นค่าไบนารีในเวลาต่อมาและเพื่อให้การทำนายเป็นจริงผลลัพธ์นี้จะถูกกำหนดให้กับคลาสที่เป็นของโดยขึ้นอยู่กับว่ามันใกล้เคียงกับคลาสหรือไม่

ตัวอย่างเช่นถ้าแอปพลิเคชันของฟังก์ชันโลจิสติกส่งกลับ 0,85 แสดงว่าอินพุตสร้างคลาสบวกโดยกำหนดให้คลาส 1 ในทางกลับกันถ้าได้รับค่าเช่น 0,4 หรือมากกว่าโดยทั่วไป <0,5 ..

การถดถอยโลจิสติกใช้ฟังก์ชันโลจิสติกเพื่อประเมินการจำแนกประเภทของค่าอินพุต

ฟังก์ชันโลจิสติกส์เรียกอีกอย่างว่าซิกมอยด์เป็นเส้นโค้งที่สามารถรับค่าจริงจำนวนเท่าใดก็ได้และจับคู่กับค่าระหว่าง 0 ถึง 1 โดยไม่รวมค่าสุดขั้ว ฟังก์ชั่นคือ:

มันอยู่ที่ไหน:

e: พื้นฐานของลอการิทึมธรรมชาติ (หมายเลขของออยเลอร์หรือฟังก์ชัน excel exp ())
b0 + b1 * x: คือค่าตัวเลขจริงที่คุณต้องการแปลง

การเป็นตัวแทนที่ใช้สำหรับการถดถอยโลจิสติก

การถดถอยโลจิสติกใช้สมการเป็นตัวแทนเหมือนกับการถดถอยเชิงเส้น

ค่าอินพุต (x) จะรวมกันเชิงเส้นโดยใช้น้ำหนักหรือค่าสัมประสิทธิ์เพื่อทำนายค่าเอาต์พุต (y) ความแตกต่างที่สำคัญจากการถดถอยเชิงเส้นคือค่าเอาต์พุตที่จำลองเป็นค่าไบนารี (0 หรือ 1) แทนที่จะเป็นค่าตัวเลข

นี่คือตัวอย่างของสมการการถดถอยโลจิสติก:

y = อี ^ (b0 + b1 * x) / (1 + อี ^ (b0 + b1 * x))

นกพิราบ:

y คือตัวแปรตามนั่นคือค่าทำนาย
b0 คือโพลาไรเซชันหรือระยะสกัดกั้น
b1 คือค่าสัมประสิทธิ์สำหรับค่าอินพุตเดียว (x)

แต่ละคอลัมน์ในข้อมูลอินพุตมีค่าสัมประสิทธิ์ b ที่เกี่ยวข้อง (ค่าคงที่จริง) ที่ต้องเรียนรู้จากข้อมูลการฝึกอบรม

การแทนค่าจริงของโมเดลที่คุณจะเก็บไว้ในหน่วยความจำหรือไฟล์คือค่าสัมประสิทธิ์ในสมการ (ค่าเบต้าหรือค่า b)

การถดถอยโลจิสติกทำนายความน่าจะเป็น (ช่วงทางเทคนิค)

การถดถอยโลจิสติกจะจำลองความน่าจะเป็นของคลาสเริ่มต้น

ตัวอย่างเช่นสมมติว่าเรากำลังสร้างแบบจำลองเพศของผู้คนเป็นชายหรือหญิงจากส่วนสูงของพวกเขาชั้นหนึ่งอาจเป็นชายและแบบจำลองการถดถอยโลจิสติกสามารถเขียนเป็นความน่าจะเป็นของการเป็นเพศชายตามความสูงของบุคคลหรือมากกว่า อย่างเป็นทางการ:

P (เพศ = ชาย | ส่วนสูง)

อีกนัยหนึ่งคือ เรากำลังจำลองความน่าจะเป็นที่อินพุต (X) เป็นของคลาสก่อนdefinite (Y = 1) เขียนได้ดังนี้

P(X) = P(Y = 1 | X)

การทำนายความน่าจะเป็นจะต้องเปลี่ยนเป็นค่าไบนารี (0 หรือ 1) เพื่อให้การทำนายความน่าจะเป็นจริง

การถดถอยโลจิสติกเป็นวิธีเชิงเส้น แต่การคาดการณ์จะถูกแปลงโดยใช้ฟังก์ชันโลจิสติกส์ ผลกระทบของสิ่งนี้คือเราไม่สามารถเข้าใจการคาดคะเนว่าเป็นการรวมอินพุตเชิงเส้นได้อีกต่อไปตามที่ทำได้ด้วยการถดถอยเชิงเส้นตัวอย่างเช่นเมื่อดำเนินการต่อจากด้านบนโมเดลสามารถแสดงเป็น:

พี (X) = อี ^ (b0 + b1 * X) / (1 + e ^ (b0 + b1 * X))

ตอนนี้เราสามารถย้อนกลับสมการได้ดังนี้ ในการย้อนกลับเราสามารถดำเนินการต่อได้โดยการลบ e ด้านหนึ่งโดยการเพิ่มลอการิทึมธรรมชาติอีกด้านหนึ่ง

ln (p (X) / 1 - p (X)) = b0 + b1 * X

ด้วยวิธีนี้เราได้รับข้อเท็จจริงที่ว่าการคำนวณของผลลัพธ์ทางด้านขวาเป็นเชิงเส้นอีกครั้ง (เช่นเดียวกับการถดถอยเชิงเส้น) และอินพุตทางด้านซ้ายเป็นลอการิทึมของความน่าจะเป็นของคลาสเริ่มต้น

ความน่าจะเป็นคำนวณโดยใช้อัตราส่วนของความน่าจะเป็นของเหตุการณ์หารด้วยความน่าจะเป็นที่จะไม่มีเหตุการณ์เช่น 0,8 / (1-0,8) ซึ่งผลลัพธ์คือ 4 ดังนั้นเราจึงเขียนได้ว่า:

ln (อัตราต่อรอง) = b0 + b1 * X

เนื่องจากความน่าจะเป็นถูกเปลี่ยนรูปแบบเราจึงเรียกสิ่งนี้ว่า log-odds หรือ probit ทางด้านซ้าย

เราสามารถส่งกลับเลขชี้กำลังไปทางขวาและเขียนเป็น:

ความน่าจะเป็น = e ^ (b0 + b1 * X)

ทั้งหมดนี้ช่วยให้เราเข้าใจว่าโมเดลยังคงเป็นชุดค่าผสมเชิงเส้นของอินพุต แต่ชุดค่าผสมเชิงเส้นนี้อ้างถึงความน่าจะเป็นของล็อกของคลาสก่อนdefiนิต้า.

การเรียนรู้แบบจำลองการถดถอยโลจิสติกส์

ค่าสัมประสิทธิ์ (ค่าเบต้าหรือ b) ของอัลกอริธึมการถดถอยโลจิสติกถูกประมาณในขั้นตอนการเรียนรู้ ในการดำเนินการนี้เราใช้การประมาณความเป็นไปได้สูงสุด

การประมาณค่าความเป็นไปได้สูงสุดคืออัลกอริทึมการเรียนรู้ที่ใช้โดยอัลกอริทึมการเรียนรู้ของเครื่องหลายตัว ค่าสัมประสิทธิ์ที่ได้จากแบบจำลองทำนายค่าที่ใกล้เคียง 1 มาก (เช่น ชาย) สำหรับชั้นเรียนก่อนวัยเรียนdefiคืนและมีค่าใกล้เคียงกับ 0 (เช่น หญิง) สำหรับอีกชั้นหนึ่ง โอกาสสูงสุดสำหรับการถดถอยโลจิสติกเป็นขั้นตอนของการค้นหาค่าสำหรับค่าสัมประสิทธิ์ (ค่าเบต้าหรือค่าออบ) ที่ลดข้อผิดพลาดในความน่าจะเป็นที่คาดการณ์โดยแบบจำลองให้สัมพันธ์กับค่าในข้อมูล (เช่น ความน่าจะเป็น 1 หากข้อมูลเป็นคลาสหลัก) .

เราจะใช้อัลกอริทึมการย่อขนาดเพื่อเพิ่มประสิทธิภาพค่าสัมประสิทธิ์ที่ดีที่สุดสำหรับข้อมูลการฝึกอบรม สิ่งนี้มักถูกนำไปใช้ในทางปฏิบัติโดยใช้อัลกอริธึมการเพิ่มประสิทธิภาพเชิงตัวเลข

Ercole Palmeri