הדרכה

מה ה Data Science, מה זה עושה ועם אילו מטרות

עם המונח Data Science פירושו דיסציפלינה העוסקת בעיבוד ופרשנות של נתונים. משמעת Data Science היא נובעת מהתכנסות של ידע רב, החל מסטטיסטיקה למתמטיקה, ממדע למדעי המחשב.

La Data Science, או Data Science, הוא מדע חדש יחסית, למעשה הוא קיים כחמישים שנה. זה נובע מהצורך לעשות סדר בהקשר מאוד חי ומתפתח במהירות. הגידול בנפח הנתונים, האפשרות והיכולת לתת משמעות לנתונים, הפכו את Data Science.

מבחינה היסטורית, נתונים טופלו לעתים קרובות כסוג של תוצר משני של כל תהליך. כל מי שהתחייב לאסוף נתונים במשך מאות שנים עשה זאת בעיקר לנוחותו, לעתים קרובות מבלי לדמיין את זה כיום ניתן לייחס ערך כלכלי לאוסף נתונים. אם נחשוב, למשל, על חווה שבמשך השנים אולי אספה מידע על יבולים, אירועים, זריעה וכו', אולי היא הייתה יכולה לעשות זאת כדי לאחסן את ההיסטוריה הארגונית שלה. אם כל החוות היו עושות את השיטה הזו, אז חברות הדשנים יכלו להרוויח ממנה כעת למטרות מחקר, או למטרות שיווק.

מדען נתונים

זה שמתעסק עם Data Science, קוראים לו מדען נתונים: כיום אחד מאנשי המקצוע המבוקשים בעולם העבודה.

המשימה של מדען הנתונים היא לנתח נתונים על מנת לזהות בתוכם מודלים, כלומר מה אני מבטא את הנתונים הזמינים דרך המגמה. זיהוי המודלים הללו הוא פונקציונלי למטרות הלקוח: חברה, גוף ציבורי וכו'...

מונטיזציה

בשנים האחרונות התבסס יותר ויותר מודל שיווק נתונים שבו מישהו מעוניין למכור נתונים ומישהו אחר לקנות אותם.

נולדו חברות המתמחות בייצור נתונים וחברות מתמחות בקנייה ומכירה לאחר פעולות ניקוי ועיבוד מתאימות. אם נחשוב אז על תקנות הפרטיות, אנו מבינים את מורכבות הנושא. כיום ישנם חוקים נוקשים הקוראים לשימוש מודע ומכבד במידע.

תִכנוּן

פרויקט של Data Science בדרך כלל מורכב מהשלבים הבאים:

תיאור הבעיה: פרויקט נולד במטרה להשיג תוצאה, או לפתור בעיה. תיאור זה מגדיר את המאפיינים של התוצאות שיש להשיג, את התזמון שבו יש להשיגן, ואת המשאבים הזמינים;
איסוף נתונים: כדי להתמודד עם הבעיה, יהיה צורך להשיג מערכי נתונים, או שכבר קיימים בחברה או ממקורות חיצוניים. זה יכול להיות סקרים מקוונים, נתונים שנאספו ממקורות חברתיים וכו'... מערך הנתונים הזה ינוקה, יסודר ויבנה בצורה כזו שהוא יהפוך למקור העבודה של מדען נתונים;
חקירת נתוני ההתחלה: בשלב זה יש לראות ולחקור את הנתונים, לסנן, לסכם בטבלאות ולהציג בגרפים. כל זה יאפשר לזהות את מאפייניה, גבולותיה וכל פערים;
ניתוח נתונים: זהו השלב שבו מזהים את המודלים, תוך שימוש בכלים ובטכניקות המתאימים ביותר בהתאם ליעדים שיש להשיג;
יישום המודלים: בשלב סופי זה, יישום המודלים שזוהו יאפשר להשיג את התוצאות הרצויות. הנה ה מדען נתונים היא רק נותנת הנחיות לשימוש במערך הנתונים, והסקת המידע הנכון. הנחיות אלו חייבות לבוא לידי ביטוי בשפה העסקית של החברה, שתשמש לפתרון הבעיות שבגינן פותח הפרויקט.

בכל שלב ושלב ה מדען נתונים מקיים אינטראקציה עם מחלקות ספציפיות של החברה, ולכן אנו יכולים לומר כי מדען נתונים משולב בצורה מושלמת במציאות הארגונית.

עם הקידמה הטכנולוגית, ה מדען נתונים הוא מצא את עצמו לעתים קרובות מתמודד עם בעיות של ביג דאטה ובינה מלאכותית.

נתונים גדולים

כשאנחנו מדברים על Big Data אנחנו מתייחסים לנתונים שמכילים מגוון גדול, שמגיעים בהיקפים הולכים וגדלים ובמהירות רבה יותר. מושג זה ידוע גם בתור כלל שלושת ה-V, המורכב מבחירה של שלושה מונחים המאפיינים את תופעת הביג דאטה במאפייניה המהותיים:

תכולה: מכיוון שכמות הנתונים לעיבוד גבוהה ביותר. גורם זה הוא ללא ספק המעיד ביותר מבין השלושה, למעשה לפני המילה Data שם התואר Big. ארכיוני ביג דאטה נמדדים בסדר גודל של טרה-בייט או פטה-בייט;
מהירות: מונח זה מתייחס למהירות שבה נתונים נצברים. ההקשרים שבהם זרימת הנתונים היא רציפה, ללא הפסקה, זורמת לשרת נפוצים יותר ויותר. זה מאלץ הטמעת מערכות המסוגלות לצבור נתונים ללא אובדן, ללא חסימות ולמזעור זמני חביון. בואו נחשוב, למשל, על עסקאות פיננסיות, מסחר מקוון, IoT וכו...
Varietà: בניגוד לארכיונים בעלי מבנה גבוה, הנתונים שהם חלק ממערכת BigData מגוונים מאוד. כדוגמה אנו יכולים לחשוב על הנתונים שנאספים בכל רשת חברתית: תמונות, טקסט, קבצים מצורפים, סרטונים.

במציאות, נוספו עם הזמן גם מוזרויות אחרות, כמו אמיתות הנתונים כדי לזהות את מהימנותם ומהימנותם של הנתונים.

נפח גדול של נתונים המגיע במהירות רבה, ומאופיין במגוון רב, מוביל בהכרח לבעיות בארגון הנתונים.

איך לארגן אותם?

לקבל אותם בברכה ואז לעבד אותם? מבנה אותם ואז מעבד אותם?

נולדו פרדיגמות שונות של ארגון מערכות נתונים, שהתבססו עם הזמן:

מחסן נתונים: כלומר, ארכיוני נתונים מובנים. בשימוש נרחב, עם הייחודיות שיש לארגן נתונים בדיוק ברגע שבו הם מתקבלים;
אגם דאטה: מאופיין בכך שכל הנתונים הנכנסים מופרשים במיכל ללא כל מדיניות אחסון מובנית. הפרדיגמה ההפוכה ל-Datawarehouse, כי ב-Data Lake הנתונים יהיו מובנים רק כאשר יש צורך לקרוא אותם על מנת לפרש אותם. גישה זו מפשטת ומזרזת את שלב הרכישה, לרעת השלבים הבאים;
ממגורות: נקרא גם מדור. כל מחלקה או מחלקה חברה צוברת את הנתונים שלה מבלי לשתף אותם עם אחרים.

נכון לעכשיו אלו הן הפרדיגמות הנפוצות ביותר, ובמקרים רבים פתרון האינטגרציה מנצח, כלומר פרויקטים שונים יכולים להשתמש במתודולוגיות צבירה שונות ואז להשתלב במועד מאוחר יותר. יכולים להיות מצבים שבהם נאספים נתונים שונים עם פרדיגמות שונות, או שאוספים שונים יכולים להוות שלבים רציפים של אותו מחזור חיים.

למידת מכונה

למרות התועלת הרבה שלהם, אנחנו יודעים היטב שמכונות עיבוד או מחשבים הם טיפשים. כלומר, מחשב לא יכול לעשות כלום אם זה לא הבן אדם לנתח בעיה, לנסח אלגוריתם ולקודד אותה בתוכנית.

זה תמיד היה המצב, עד שהתחלנו לדבר על בינה מלאכותית. למעשה, בינה מלאכותית מורכבת מהשראת סוג של חשיבה ספונטנית במכונה, שיכולה להוביל אותה לפתור בעיות באופן עצמאי, כלומר ללא הדרכה אנושית ישירה.

עברו כמה שנים עד שהביטוי "לגרום לסוג של חשיבה ספונטנית במכונה", כלומר, עברו מספר שנים עד שעברנו ממצב של הוראה כפויה מוחלטת של המכונה, למצב של למידה עצמית. במילים אחרות, המכונה הצליחה ללמוד בעצמה, ללמוד. לכן הגענו ל למידת מכונה.

Machine Learning הוא ענף של בינה מלאכותית שבו המתכנת מניע את המכונה בשלב הדרכה המבוסס על חקר נתונים היסטוריים. בסופו של שלב הכשרה זה מופק מודל שניתן ליישם בפתרון בעיות, מוסבר עם נתונים חדשים.

אני מכבד את הגישה הקלאסית, שבה עבד מדען הנתונים defiלאחר אלגוריתמי פתרון, המכונה תגלה מה מרכיב את הדגם. על מדען הנתונים לדאוג לארגון שלבי הכשרה אפקטיביים יותר ויותר, עם נתונים עשירים ומשמעותיים יותר, ולוודא תקפות המודלים המיוצרים על ידי העמדתם למבחנים.

הודות ל-Machine Learning, המערכות בהן אנו משתמשים במכשירים ניידים, אינטרנט, אוטומציה ביתית הן (או נראות) אינטליגנטיות יותר ויותר. מערכת, כפי שהיא פועלת, עשויה גם להיות מסוגלת לאסוף נתונים עליה ועל המשתמשים שמשתמשים בה, ולאחר מכן להשתמש בהם בשלב ההדרכה ולאחר מכן לשפר עוד יותר את התחזיות.

Ercole Palmeri: מכור לחדשנות