הדרכה

מה ה Data Science, מה זה עושה ועם אילו מטרות

עם המונח Data Science פירושו דיסציפלינה העוסקת בעיבוד ופרשנות של נתונים. משמעת Data Science היא נובעת מהתכנסות של ידע רב, החל מסטטיסטיקה למתמטיקה, ממדע למדעי המחשב. 

La Data Science, או Data Science, הוא מדע חדש יחסית, למעשה הוא קיים כחמישים שנה. זה נובע מהצורך לעשות סדר בהקשר מאוד חי ומתפתח במהירות. הגידול בנפח הנתונים, האפשרות והיכולת לתת משמעות לנתונים, הפכו את Data Science.

מבחינה היסטורית, נתונים טופלו לעתים קרובות כסוג של תוצר משני של כל תהליך. כל מי שהתחייב לאסוף נתונים במשך מאות שנים עשה זאת בעיקר לנוחותו, לעתים קרובות מבלי לדמיין את זה כיום ניתן לייחס ערך כלכלי לאוסף נתונים. אם נחשוב, למשל, על חווה שבמשך השנים אולי אספה מידע על יבולים, אירועים, זריעה וכו', אולי היא הייתה יכולה לעשות זאת כדי לאחסן את ההיסטוריה הארגונית שלה. אם כל החוות היו עושות את השיטה הזו, אז חברות הדשנים יכלו להרוויח ממנה כעת למטרות מחקר, או למטרות שיווק.

מדען נתונים

זה שמתעסק עם Data Science, קוראים לו מדען נתונים: כיום אחד מאנשי המקצוע המבוקשים בעולם העבודה.

המשימה של מדען הנתונים היא לנתח נתונים על מנת לזהות בתוכם מודלים, כלומר מה אני מבטא את הנתונים הזמינים דרך המגמה. זיהוי המודלים הללו הוא פונקציונלי למטרות הלקוח: חברה, גוף ציבורי וכו'...

מונטיזציה

בשנים האחרונות התבסס יותר ויותר מודל שיווק נתונים שבו מישהו מעוניין למכור נתונים ומישהו אחר לקנות אותם.

נולדו חברות המתמחות בייצור נתונים וחברות מתמחות בקנייה ומכירה לאחר פעולות ניקוי ועיבוד מתאימות. אם נחשוב אז על תקנות הפרטיות, אנו מבינים את מורכבות הנושא. כיום ישנם חוקים נוקשים הקוראים לשימוש מודע ומכבד במידע.

תִכנוּן

פרויקט של Data Science בדרך כלל מורכב מהשלבים הבאים:

  1. תיאור הבעיה: פרויקט נולד במטרה להשיג תוצאה, או לפתור בעיה. תיאור זה מגדיר את המאפיינים של התוצאות שיש להשיג, את התזמון שבו יש להשיגן, ואת המשאבים הזמינים;
  2. איסוף נתונים: כדי להתמודד עם הבעיה, יהיה צורך להשיג מערכי נתונים, או שכבר קיימים בחברה או ממקורות חיצוניים. זה יכול להיות סקרים מקוונים, נתונים שנאספו ממקורות חברתיים וכו'... מערך הנתונים הזה ינוקה, יסודר ויבנה בצורה כזו שהוא יהפוך למקור העבודה של מדען נתונים;
  3. חקירת נתוני ההתחלה: בשלב זה יש לראות ולחקור את הנתונים, לסנן, לסכם בטבלאות ולהציג בגרפים. כל זה יאפשר לזהות את מאפייניה, גבולותיה וכל פערים; 
  4. ניתוח נתונים: זהו השלב שבו מזהים את המודלים, תוך שימוש בכלים ובטכניקות המתאימים ביותר בהתאם ליעדים שיש להשיג;
  5. יישום המודלים: בשלב סופי זה, יישום המודלים שזוהו יאפשר להשיג את התוצאות הרצויות. הנה ה מדען נתונים היא רק נותנת הנחיות לשימוש במערך הנתונים, והסקת המידע הנכון. הנחיות אלו חייבות לבוא לידי ביטוי בשפה העסקית של החברה, שתשמש לפתרון הבעיות שבגינן פותח הפרויקט.

בכל שלב ושלב ה מדען נתונים מקיים אינטראקציה עם מחלקות ספציפיות של החברה, ולכן אנו יכולים לומר כי מדען נתונים משולב בצורה מושלמת במציאות הארגונית. 

עם הקידמה הטכנולוגית, ה מדען נתונים הוא מצא את עצמו לעתים קרובות מתמודד עם בעיות של ביג דאטה ובינה מלאכותית.

נתונים גדולים

כשאנחנו מדברים על Big Data אנחנו מתייחסים לנתונים שמכילים מגוון גדול, שמגיעים בהיקפים הולכים וגדלים ובמהירות רבה יותר. מושג זה ידוע גם בתור כלל שלושת ה-V, המורכב מבחירה של שלושה מונחים המאפיינים את תופעת הביג דאטה במאפייניה המהותיים:

  1. תכולה: מכיוון שכמות הנתונים לעיבוד גבוהה ביותר. גורם זה הוא ללא ספק המעיד ביותר מבין השלושה, למעשה לפני המילה Data שם התואר Big. ארכיוני ביג דאטה נמדדים בסדר גודל של טרה-בייט או פטה-בייט;
  2. מהירות: מונח זה מתייחס למהירות שבה נתונים נצברים. ההקשרים שבהם זרימת הנתונים היא רציפה, ללא הפסקה, זורמת לשרת נפוצים יותר ויותר. זה מאלץ הטמעת מערכות המסוגלות לצבור נתונים ללא אובדן, ללא חסימות ולמזעור זמני חביון. בואו נחשוב, למשל, על עסקאות פיננסיות, מסחר מקוון, IoT וכו...
  3. Varietà: בניגוד לארכיונים בעלי מבנה גבוה, הנתונים שהם חלק ממערכת BigData מגוונים מאוד. כדוגמה אנו יכולים לחשוב על הנתונים שנאספים בכל רשת חברתית: תמונות, טקסט, קבצים מצורפים, סרטונים.

במציאות, נוספו עם הזמן גם מוזרויות אחרות, כמו אמיתות הנתונים כדי לזהות את מהימנותם ומהימנותם של הנתונים.

נפח גדול של נתונים המגיע במהירות רבה, ומאופיין במגוון רב, מוביל בהכרח לבעיות בארגון הנתונים.

ניוזלטר חדשנות
אל תחמיצו את החדשות החשובות ביותר בנושא חדשנות. הירשם כדי לקבל אותם במייל.
איך לארגן אותם?

לקבל אותם בברכה ואז לעבד אותם? מבנה אותם ואז מעבד אותם?

נולדו פרדיגמות שונות של ארגון מערכות נתונים, שהתבססו עם הזמן:

  • מחסן נתונים: כלומר, ארכיוני נתונים מובנים. בשימוש נרחב, עם הייחודיות שיש לארגן נתונים בדיוק ברגע שבו הם מתקבלים;
  • אגם דאטה: מאופיין בכך שכל הנתונים הנכנסים מופרשים במיכל ללא כל מדיניות אחסון מובנית. הפרדיגמה ההפוכה ל-Datawarehouse, כי ב-Data Lake הנתונים יהיו מובנים רק כאשר יש צורך לקרוא אותם על מנת לפרש אותם. גישה זו מפשטת ומזרזת את שלב הרכישה, לרעת השלבים הבאים;
  • ממגורות: נקרא גם מדור. כל מחלקה או מחלקה חברה צוברת את הנתונים שלה מבלי לשתף אותם עם אחרים.

נכון לעכשיו אלו הן הפרדיגמות הנפוצות ביותר, ובמקרים רבים פתרון האינטגרציה מנצח, כלומר פרויקטים שונים יכולים להשתמש במתודולוגיות צבירה שונות ואז להשתלב במועד מאוחר יותר. יכולים להיות מצבים שבהם נאספים נתונים שונים עם פרדיגמות שונות, או שאוספים שונים יכולים להוות שלבים רציפים של אותו מחזור חיים.

למידת מכונה

למרות התועלת הרבה שלהם, אנחנו יודעים היטב שמכונות עיבוד או מחשבים הם טיפשים. כלומר, מחשב לא יכול לעשות כלום אם זה לא הבן אדם לנתח בעיה, לנסח אלגוריתם ולקודד אותה בתוכנית.

זה תמיד היה המצב, עד שהתחלנו לדבר על בינה מלאכותית. למעשה, בינה מלאכותית מורכבת מהשראת סוג של חשיבה ספונטנית במכונה, שיכולה להוביל אותה לפתור בעיות באופן עצמאי, כלומר ללא הדרכה אנושית ישירה.

עברו כמה שנים עד שהביטוי "לגרום לסוג של חשיבה ספונטנית במכונה", כלומר, עברו מספר שנים עד שעברנו ממצב של הוראה כפויה מוחלטת של המכונה, למצב של למידה עצמית. במילים אחרות, המכונה הצליחה ללמוד בעצמה, ללמוד. לכן הגענו ל למידת מכונה.

Machine Learning הוא ענף של בינה מלאכותית שבו המתכנת מניע את המכונה בשלב הדרכה המבוסס על חקר נתונים היסטוריים. בסופו של שלב הכשרה זה מופק מודל שניתן ליישם בפתרון בעיות, מוסבר עם נתונים חדשים.

אני מכבד את הגישה הקלאסית, שבה עבד מדען הנתונים defiלאחר אלגוריתמי פתרון, המכונה תגלה מה מרכיב את הדגם. על מדען הנתונים לדאוג לארגון שלבי הכשרה אפקטיביים יותר ויותר, עם נתונים עשירים ומשמעותיים יותר, ולוודא תקפות המודלים המיוצרים על ידי העמדתם למבחנים.

הודות ל-Machine Learning, המערכות בהן אנו משתמשים במכשירים ניידים, אינטרנט, אוטומציה ביתית הן (או נראות) אינטליגנטיות יותר ויותר. מערכת, כפי שהיא פועלת, עשויה גם להיות מסוגלת לאסוף נתונים עליה ועל המשתמשים שמשתמשים בה, ולאחר מכן להשתמש בהם בשלב ההדרכה ולאחר מכן לשפר עוד יותר את התחזיות.

Ercole Palmeri: מכור לחדשנות


ניוזלטר חדשנות
אל תחמיצו את החדשות החשובות ביותר בנושא חדשנות. הירשם כדי לקבל אותם במייל.

מאמרים אחרונים

כיצד לארגן בצורה הטובה ביותר נתונים ונוסחאות באקסל, לניתוח מוצלח

Microsoft Excel הוא כלי ההתייחסות לניתוח נתונים, מכיוון שהוא מציע תכונות רבות לארגון מערכי נתונים,...

14 מאי 2024

מסקנה חיובית לשני פרויקטים חשובים של Walliance Equity Crowdfunding: Jesolo Wave Island ו-Milano Via Ravenna

Walliance, SIM ופלטפורמה בין המובילות באירופה בתחום מימון המונים בנדל"ן מאז 2017, מכריזה על השלמת...

13 מאי 2024

מהו פילאמנט וכיצד להשתמש ב-Laravel Filament

Filament הוא מסגרת פיתוח "מואצת" של Laravel, המספקת מספר רכיבים מלאים. זה נועד לפשט את התהליך של...

13 מאי 2024

תחת שליטה של ​​בינה מלאכותית

"אני חייב לחזור כדי להשלים את האבולוציה שלי: אני אשליך את עצמי בתוך המחשב ואהפוך לאנרגיה טהורה. לאחר שהתמקמו…

10 מאי 2024

הבינה המלאכותית החדשה של גוגל יכולה לדגמן DNA, RNA ו"כל מולקולות החיים"

Google DeepMind מציגה גרסה משופרת של מודל הבינה המלאכותית שלה. הדגם החדש המשופר מספק לא רק...

9 מאי 2024

חקר האדריכלות המודולרית של לראוול

Laravel, המפורסמת בתחביר האלגנטי והתכונות החזקות שלו, מספקת גם בסיס איתן לארכיטקטורה מודולרית. שם…

9 מאי 2024

Cisco Hypershield ורכישת Splunk העידן החדש של אבטחה מתחיל

סיסקו ו-Splunk עוזרות ללקוחות להאיץ את המסע שלהם אל מרכז התפעול האבטחה (SOC) של העתיד עם...

8 מאי 2024

מעבר לצד הכלכלי: העלות הלא ברורה של תוכנות הכופר

תוכנת כופר שלטה בחדשות בשנתיים האחרונות. רוב האנשים מודעים היטב לכך שהתקפות...

6 מאי 2024

קרא חדשנות בשפה שלך

ניוזלטר חדשנות
אל תחמיצו את החדשות החשובות ביותר בנושא חדשנות. הירשם כדי לקבל אותם במייל.

Seguici