Tutorial

ڇا آهي Data Science، اهو ڇا ڪري ٿو ۽ ڪهڙن مقصدن سان

اصطلاح سان Data Science مطلب آھي ھڪڙو نظم جيڪو ڊيٽا جي پروسيسنگ ۽ تشريح سان واسطو رکي ٿو. نظم و ضبط Data Science اهو انگن اکرن کان وٺي رياضي تائين، سائنس کان ڪمپيوٽر سائنس تائين ڪيترن ئي علمن جي ميلاپ مان پيدا ٿئي ٿو.

La Data Science، يا ڊيٽا سائنس، هڪ نسبتا نئين سائنس آهي، حقيقت ۾ اهو تقريبا پنجاهه سالن تائين آهي. اهو هڪ انتهائي جاندار ۽ تيزيءَ سان ترقي ڪندڙ تناظر ۾ ترتيب ڏيڻ جي ضرورت مان پيدا ٿئي ٿو. ڊيٽا جي مقدار ۾ واڌ، ڊيٽا کي معني ڏيڻ جي امڪان ۽ صلاحيت، ٺاهيا آهن Data Science.

تاريخي طور تي ڳالهائڻ، ڊيٽا اڪثر ڪري ڪنهن به عمل جي ثانوي پيداوار جي هڪ قسم جي طور تي علاج ڪيو ويو آهي. ڪنهن به صدين کان ڊيٽا گڏ ڪرڻ جو ڪم ڪيو آهي، گهڻو ڪري پنهنجي سهولت لاءِ ڪيو آهي، اڪثر ڪري اهو تصور ڪرڻ کان سواءِ. اڄ هڪ معاشي قدر ڊيٽا جي گڏ ڪرڻ سان منسوب ٿي سگهي ٿو. جيڪڏهن اسان سوچيو، مثال طور، هڪ فارم جو جيڪو سالن کان فصلن، واقعن، پوک، وغيره بابت معلومات گڏ ڪري سگهي ٿو، شايد اهو پنهنجي ڪارپوريٽ تاريخ کي آرڪائيو ڪرڻ لاء ائين ڪيو هجي. جيڪڏهن سڀني فارمن اهو طريقو ڪيو هو، ته اڄ ڀاڻ ڪمپنيون ان مان فائدو حاصل ڪري سگهن ٿيون تحقيق جي مقصدن لاء، يا مارڪيٽنگ جي مقصدن لاء.

ڊيٽا جو سائنسدان

جنهن جو واسطو Data Science، هن کي سڏيو ويندو آهي ڊيٽا سائنسدان: في الحال ڪم جي دنيا ۾ سڀ کان وڌيڪ گهربل ماهرن مان هڪ آهي.

ڊيٽا سائنسدان جو ڪم ڊيٽا جو تجزيو ڪرڻ آهي ته جيئن انهن جي اندر ماڊلز کي سڃاڻي سگهجي، اهو آهي، جيڪو آئون رجحان ذريعي موجود ڊيٽا کي بيان ڪريان ٿو. انهن ماڊلز جي سڃاڻپ ڪلائنٽ جي مقصدن لاءِ ڪم ڪندڙ آهي: ڪمپني، عوامي ادارو وغيره ...

منيٽائيزيشن

تازن سالن ۾، هڪ ڊيٽا مارڪيٽنگ ماڊل تيزي سان پنهنجو پاڻ کي قائم ڪيو آهي جتي ڪو ماڻهو ڊيٽا وڪڻڻ ۾ دلچسپي رکي ٿو ۽ ڪو ٻيو ان کي خريد ڪرڻ ۾.

ڊيٽا جي پيداوار ۾ خاص ڪمپنيون پيدا ڪيون ويون آهن، ۽ ڪمپنيون خريد ڪرڻ ۽ وڪرو ڪرڻ ۾ ماهر آهن مناسب صفائي ۽ ٻيهر پروسيسنگ آپريشن کان پوء. جيڪڏهن اسان پوءِ سوچون ٿا رازداري جي ضابطن بابت، اسان کي محسوس ٿئي ٿو ته موضوع جي پيچيدگي. اڄ اهڙا سخت قانون آهن جيڪي معلومات جي باشعور ۽ احترام سان استعمال لاء سڏين ٿا.

رٿابندي

جو هڪ منصوبو Data Science عام طور تي هيٺين قدمن تي مشتمل آهي:

مسئلي جي وضاحت: هڪ منصوبو پيدا ٿيو آهي مقصد حاصل ڪرڻ جي مقصد سان، يا هڪ مسئلو حل ڪرڻ. هي وضاحت بيان ڪري ٿي نتيجن جي خاصيتن کي حاصل ڪرڻ لاء، وقت جنهن جي اندر انهن کي حاصل ڪرڻ لاء، ۽ موجود وسيلن؛
ڊيٽا گڏ ڪرڻ: مسئلي کي حل ڪرڻ لاءِ، ڊيٽا سيٽ حاصل ڪرڻو پوندو، يا ته اڳ ۾ ئي ڪمپني ۾ موجود هجي يا ٻاهرين ذريعن کان. اهو ٿي سگهي ٿو آن لائين سروي، ڊيٽا گڏ ڪيل سماجي ذريعن، وغيره. هن ڊيٽا سيٽ کي پوءِ صاف ڪيو ويندو، ترتيب ڏني وئي ۽ ترتيب ڏني وئي اهڙي طريقي سان ته اهو ان جي ڪم جو ذريعو بڻجي وڃي. ڊيٽا سائنسدان;
شروعاتي ڊيٽا جي ڳولا: هن نقطي تي ڊيٽا کي ڏسڻ ۽ دريافت ڪيو وڃي، فلٽر ڪيو وڃي، جدولن ۾ اختصار ڪيو وڃي ۽ گراف ۾ ڏيکاريو وڃي. اهو سڀ ڪجهه ان جي خاصيتن، حدن ۽ ڪنهن به خلا جي سڃاڻپ ڪرڻ ممڪن بڻائيندو؛
ڊيٽا جي تجزيو: هي اهو مرحلو آهي جنهن ۾ ماڊل جي نشاندهي ڪئي وئي آهي، مقصد حاصل ڪرڻ جي مطابق سڀ کان وڌيڪ مناسب اوزار ۽ ٽيڪنالاجي استعمال ڪندي؛
ماڊلز جي درخواست: هن آخري مرحلي ۾، سڃاڻپ ماڊلز جي ايپليڪيشن کي گهربل نتيجا حاصل ڪرڻ جي اجازت ڏيندو. هتي جي ڊيٽا سائنسدان اهو صرف ڊيٽا سيٽ جي استعمال لاء هدايتون ڏئي ٿو، ۽ صحيح معلومات جي اضافي ڪرڻ. اهي هدايتون لازمي طور تي ڪمپني جي ڪاروباري ٻولي ۾ بيان ڪيا وڃن، جيڪي انهن مسئلن کي حل ڪرڻ ۾ مدد ڏين ٿيون جن لاءِ پروجيڪٽ تيار ڪيو ويو هو.

هر هڪ قدم ۾ ڊيٽا سائنسدان خاص ڪمپني جي شعبن سان لهه وچڙ ۾، ۽ ان ڪري اسان اهو چئي سگهون ٿا ته ڊيٽا سائنسدان ڪارپوريٽ حقيقت ۾ مڪمل طور تي ضم ٿي ويو آهي.

ٽيڪنالاجي جي ترقي سان، جي ڊيٽا سائنسدان هو اڪثر پاڻ کي بگ ڊيٽا ۽ مصنوعي ذهانت جي مسئلن کي منهن ڏئي چڪو آهي.

وڏي ڊيٽا

جڏهن اسان بگ ڊيٽا جي باري ۾ ڳالهايون ٿا ته اسان ڊيٽا جو حوالو ڏيون ٿا جنهن ۾ هڪ وڏي قسم آهي، وڌندڙ مقدار ۾ ۽ وڏي رفتار سان. اهو تصور ٽن Vs جي قاعدي طور پڻ سڃاتو وڃي ٿو، جيڪو ٽن اصطلاحن جي چونڊ تي مشتمل آهي جيڪي بگ ڊيٽا جي رجحان کي ان جي ضروري خاصيتن ۾ بيان ڪن ٿا:

جلد: ڇاڪاڻ ته پروسيس ٿيڻ واري ڊيٽا جي مقدار تمام گهڻي آهي. هي عنصر يقيني طور تي ٽن مان سڀ کان وڌيڪ اشارو آهي، حقيقت ۾ لفظ Data کان اڳ ۾ صفت بگ آهي. بگ ڊيٽا آرڪائيوز ٽيرابائيٽس يا پيٽابائيٽس جي ترتيب ۾ ماپي وينديون آهن؛
رفتار: هي اصطلاح انهي رفتار ڏانهن اشارو ڪري ٿو جنهن سان ڊيٽا گڏ ڪئي وئي آهي. اهي حوالا جن ۾ ڊيٽا جو وهڪرو مسلسل، نان اسٽاپ، اسٽريمنگ جو وهڪرو سرور تي وڌي رهيو آهي. هي سسٽم تي عمل درآمد ڪرڻ جي قابل آهي ڊيٽا جي نقصان جي بغير، بغير بلاڪ ۽ دير جي وقت کي گھٽائڻ جي. اچو ته سوچيو، مثال طور، مالي ٽرانزيڪشن، آن لائين واپار، IoT وغيره ...
varietà: انتهائي منظم آرڪائيوز جي برعڪس، ڊيٽا جيڪا بگ ڊيٽا سسٽم جو حصو آهي تمام مختلف آهي. مثال طور، اسان ڊيٽا جي باري ۾ سوچي سگهون ٿا جيڪو ڪنهن به سماجي نيٽ ورڪ ۾ گڏ ڪيو ويو آهي: فوٽو، ٽيڪسٽ، منسلڪ، وڊيوز.

حقيقت ۾، وقت سان گڏ ٻيون خاصيتون پڻ شامل ڪيون ويون آهن، جهڙوڪ ڊيٽا جي صداقت ۽ اعتبار جي سڃاڻپ ڪرڻ لاء ڊيٽا جي سچائي.

ڊيٽا جو وڏو مقدار وڏي رفتار تي اچي رهيو آهي، ۽ وڏي قسم جي خاصيت سان، لازمي طور تي ڊيٽا جي تنظيم جي مسئلن کي ڏسجي ٿو.

ان کي ڪيئن منظم ڪرڻ لاء؟

انھن کي ڀليڪار ۽ پوء انھن کي پروسيسنگ؟ انھن کي ٺاھڻ ۽ پوء انھن کي پروسيسنگ؟

ڊيٽا سسٽم جي تنظيم جا ڪيترائي نمونا پيدا ٿيا، جن پاڻ کي وقت سان قائم ڪيو آهي:

ڊيٽا وارو گھر: اهو آهي، منظم ڪيل ڊيٽا آرڪائيوز. وڏي پيماني تي استعمال ڪيو ويو، خاص طور تي ڊيٽا کي منظم ڪيو وڃي ان وقت تي جنهن ۾ اهو وصول ڪيو ويو آهي؛
ڊيٽا Lakeن Lake- حقيقت اها آهي ته سڀئي ايندڙ ڊيٽا ڪنٽينر ۾ رکيل آهن بغير ڪنهن منظم اسٽوريج پاليسي جي. Datawarehouse جي سامهون پيراڊائيم، ڇاڪاڻ ته ڊيٽا ڍنڍ ۾ ڊيٽا صرف ان صورت ۾ ترتيب ڏني ويندي جڏهن ان کي پڙهڻ لاء ضروري هجي ته انهن کي تفسير ڪرڻ لاء. اهو طريقو آسان بڻائي ٿو ۽ حصول واري مرحلي کي تيز ڪري ٿو، ايندڙ مرحلن جي نقصان تائين؛
سلائي: پڻ سڏيو ويندو آهي compartmentalized. هر ڊپارٽمينٽ يا ڪمپني ڊپارٽمينٽ پنهنجي ڊيٽا کي گڏ ڪري ٿو ان کي ٻين سان حصيداري ڪرڻ کان سواء.

في الحال اهي سڀ کان وڏي پيماني تي استعمال ٿيل نمونا آهن، ۽ ڪيترن ئي ڪيسن ۾ انضمام جو حل غالب آهي، يعني مختلف پروجيڪٽ مختلف جمع ڪرڻ جا طريقا استعمال ڪري سگھن ٿا ۽ پوء بعد ۾ ضم ٿي سگهن ٿا. اهڙيون حالتون ٿي سگهن ٿيون جن ۾ مختلف ڊيٽا گڏ ڪيا ويا آهن مختلف پيراڊمز سان، يا مختلف مجموعا هڪ ئي زندگي جي چڪر جي متضاد مرحلن کي ٺاهي سگهن ٿا.

مشين سکيا

انهن جي وڏي افاديت جي باوجود، اسان چڱي ريت ڄاڻون ٿا ته پروسيسنگ مشينون يا ڪمپيوٽر بيوقوف آهن. يعني ڪمپيوٽر ڪجھ به نه ٿو ڪري سگهي جيڪڏهن اهو انسان نه آهي ته ڪنهن مسئلي جو تجزيو ڪري، هڪ الگورٿم ٺاهي ۽ ان کي پروگرام ۾ انڪوڊ ڪري.

اهو هميشه ٿي چڪو آهي، جيستائين اسان بابت ڳالهائڻ شروع ڪيو مصنوعي معلومات. درحقيقت، مصنوعي ذهانت مشين ۾ هڪ قسم جي خودمختاري استدلال پيدا ڪرڻ تي مشتمل آهي، جيڪا اها آزاديءَ سان مسئلا حل ڪري سگهي ٿي، يعني انسان جي سڌي هدايت کان سواءِ.

ان اظهار کان اڳ ڪيترائي سال لڳي ويا“مشين ۾ هڪ قسم جي غير معمولي دليل پيدا ڪرڻ“، يعني، مشين جي مڪمل ”زبردستي“ هدايتن جي حالت مان گذري، خود سکيا جي حالت ۾ ڪيترائي سال گذري ويا. ٻين لفظن ۾، مشين خود سکڻ جي قابل ٿي چڪي آهي، سکڻ لاء. ان ڪري اسان وٽ پهچي ويا آهيون مشين سکيا.

مشين لرننگ مصنوعي ذهانت جي هڪ شاخ آهي جنهن ۾ پروگرامر تاريخي ڊيٽا جي مطالعي جي بنياد تي مشين کي تربيتي مرحلي ۾ هلائي ٿو. ھن تربيتي مرحلي جي آخر ۾، ھڪڙو نمونو ٺاھيو ويو آھي جيڪو مسئلن کي حل ڪرڻ ۾ لاڳو ڪري سگھجي ٿو، نئين ڊيٽا سان بيان ڪيو ويو آھي.

مان کلاسي طريقي جو احترام ڪريان ٿو، جتي ڊيٽا سائنسدان لاء ڪم ڪندو هو definish حل الگورتھم، مشين دريافت ڪندو ته ڇا ماڊل ٺاهي ٿو. ڊيٽا سائنسدان کي لازمي طور تي وڌيڪ اثرائتي تربيتي مرحلن کي منظم ڪرڻ جو خيال رکڻو پوندو، وڌيڪ معتبر ۽ وڌيڪ اهم ڊيٽا سان، ۽ انهن کي امتحانن جي تابع ڪرڻ سان تيار ڪيل ماڊل جي صحيحيت جي تصديق ڪرڻ.

مشين لرننگ جي مهرباني، سسٽم جيڪي اسان موبائل ڊوائيسز، انٽرنيٽ، گهر آٽوميشن ۾ استعمال ڪندا آهيون (يا لڳي) وڌيڪ ۽ وڌيڪ ذهين آهن. هڪ سسٽم، جيئن اهو ڪم ڪري ٿو، شايد ان تي ڊيٽا گڏ ڪرڻ جي قابل ٿي سگهي ٿو ۽ استعمال ڪندڙن تي جيڪي ان کي استعمال ڪن ٿا، پوء انهن کي تربيتي مرحلي ۾ استعمال ڪريو ۽ پوء اڳڪٿين کي وڌيڪ بهتر بڻائي.

Ercole Palmeri: جدت جو عادي