ٹیوٹوریل

کیا ہے Data Science، یہ کیا کرتا ہے اور کن مقاصد کے ساتھ

اصطلاح کے ساتھ۔ Data Science ایک نظم و ضبط کا مطلب ہے جو ڈیٹا کی پروسیسنگ اور تشریح سے متعلق ہے۔ نظم و ضبط Data Science یہ شماریات سے لے کر ریاضی تک، سائنس سے لے کر کمپیوٹر سائنس تک کے بہت سے علم کے ملاپ سے پیدا ہوتا ہے۔

La Data Science، یا ڈیٹا سائنس، ایک نسبتاً نئی سائنس ہے، درحقیقت یہ تقریباً پچاس سال سے ہے۔ یہ ایک انتہائی جاندار اور تیزی سے ارتقا پذیر سیاق و سباق میں ترتیب دینے کی ضرورت سے پیدا ہوتا ہے۔ اعداد و شمار کے حجم میں اضافے، اعداد و شمار کو معنی دینے کے امکانات اور صلاحیت نے اس کو بنایا ہے۔ Data Science.

تاریخی طور پر، ڈیٹا کو اکثر کسی بھی عمل کی ایک قسم کی ثانوی مصنوعات کے طور پر سمجھا جاتا ہے۔ صدیوں کے دوران کسی نے بھی ڈیٹا اکٹھا کرنے کا بیڑا اٹھایا ہے، بنیادی طور پر اپنی سہولت کے لیے ایسا کیا ہے، اکثر اس کا تصور کیے بغیر۔ آج ایک اقتصادی قدر کو اعداد و شمار کے مجموعہ سے منسوب کیا جا سکتا ہے۔. مثال کے طور پر اگر ہم کسی ایسے فارم کے بارے میں سوچتے ہیں جس نے برسوں سے فصلوں، واقعات، بوائی وغیرہ کے بارے میں معلومات اکٹھی کی ہوں، تو شاید وہ اپنی کارپوریٹ تاریخ کو محفوظ کرنے کے لیے ایسا کر سکتا تھا۔ اگر تمام فارموں نے یہ طریقہ اختیار کیا ہوتا تو آج کھاد کی کمپنیاں تحقیقی مقاصد کے لیے یا مارکیٹنگ کے مقاصد کے لیے اس سے فائدہ اٹھا سکتی ہیں۔

ڈیٹا سائنسدان

جس کے ساتھ معاملہ ہوتا ہے۔ Data Science، اسے بلایا گیا ہے۔ ڈیٹا سائنسدان: فی الحال کام کی دنیا میں سب سے زیادہ مطلوب پیشہ ور افراد میں سے ایک۔

ڈیٹا سائنٹسٹ کا کام ڈیٹا کا تجزیہ کرنا ہے تاکہ ان کے اندر موجود ماڈلز کی شناخت کی جا سکے، یعنی میں ٹرینڈ کے ذریعے دستیاب ڈیٹا کا اظہار کرتا ہوں۔ ان ماڈلز کی شناخت کلائنٹ کے مقاصد کے لیے کام کرتی ہے: کمپنی، پبلک باڈی وغیرہ...

منیٹائزیشن

حالیہ برسوں میں، ڈیٹا مارکیٹنگ کے ماڈل نے تیزی سے خود کو قائم کیا ہے جہاں کوئی ڈیٹا بیچنے میں دلچسپی رکھتا ہے اور کوئی اسے خریدنے میں۔

ڈیٹا کی تیاری میں مہارت رکھنے والی کمپنیاں پیدا ہوئیں، اور کمپنیاں مناسب صفائی اور ری پروسیسنگ کے کاموں کے بعد خرید و فروخت میں مہارت رکھتی تھیں۔ اگر ہم رازداری کے ضوابط کے بارے میں سوچتے ہیں، تو ہمیں موضوع کی پیچیدگی کا احساس ہوتا ہے۔ آج ایسے سخت قوانین ہیں جو معلومات کے باشعور اور احترام کے ساتھ استعمال کرنے پر زور دیتے ہیں۔

منصوبہ بندی

کا ایک منصوبہ Data Science عام طور پر مندرجہ ذیل اقدامات پر مشتمل ہے:

مسائل کی تفصیل: ایک پروجیکٹ نتیجہ حاصل کرنے یا کسی مسئلے کو حل کرنے کے مقصد سے پیدا ہوتا ہے۔ یہ تفصیل حاصل کیے جانے والے نتائج کی خصوصیات، ان کو حاصل کرنے کا وقت، اور دستیاب وسائل کی وضاحت کرتی ہے۔
ڈیٹا اکٹھا کرنا: مسئلہ سے نمٹنے کے لیے ڈیٹا سیٹس حاصل کرنا ہوں گے، یا تو کمپنی میں پہلے سے موجود ہوں یا بیرونی ذرائع سے۔ یہ آن لائن سروے، سماجی ذرائع سے جمع کردہ ڈیٹا، وغیرہ ہو سکتا ہے۔ اس ڈیٹاسیٹ کو پھر صاف، ترتیب دیا جائے گا اور اس طرح ترتیب دیا جائے گا کہ یہ ڈیٹاسیٹ کے کام کا ذریعہ بن جائے۔ ڈیٹا سائنسدان;
ابتدائی ڈیٹا کی تلاش: اس مقام پر ڈیٹا کو دیکھنا اور دریافت کرنا، فلٹر کرنا، جدولوں میں خلاصہ کرنا اور گراف میں دکھایا جانا چاہیے۔ یہ سب اس کی خصوصیات، حدود اور کسی بھی خلا کی نشاندہی کرنا ممکن بنائے گا۔
ڈیٹا تجزیہ: یہ وہ مرحلہ ہے جس میں حاصل کیے جانے والے مقاصد کے مطابق موزوں ترین ٹولز اور تکنیکوں کا استعمال کرتے ہوئے ماڈلز کی شناخت کی جاتی ہے۔
ماڈلز کا اطلاق: اس آخری مرحلے میں، شناخت شدہ ماڈلز کا اطلاق مطلوبہ نتائج حاصل کرنے کی اجازت دے گا۔ یہاں کے ڈیٹا سائنسدان یہ محض ڈیٹا سیٹ کے استعمال اور درست معلومات کے اخراج کے لیے رہنما اصول فراہم کرتا ہے۔ ان رہنما خطوط کا اظہار کمپنی کی کاروباری زبان میں ہونا چاہیے، جو ان مسائل کو حل کرنے کے لیے کام کرے گا جن کے لیے یہ منصوبہ تیار کیا گیا تھا۔

ہر ایک قدم میں ڈیٹا سائنسدان کمپنی کے مخصوص محکموں کے ساتھ تعامل کرتا ہے، اور اس لیے ہم کہہ سکتے ہیں کہ ڈیٹا سائنسدان کارپوریٹ حقیقت میں بالکل مربوط ہے۔

تکنیکی ترقی کے ساتھ، ڈیٹا سائنسدان اس نے اکثر خود کو بگ ڈیٹا اور مصنوعی ذہانت کے مسائل کا سامنا کرتے ہوئے پایا ہے۔

بگ ڈیٹا

جب ہم بگ ڈیٹا کے بارے میں بات کرتے ہیں تو ہم اعداد و شمار کا حوالہ دیتے ہیں جس میں ایک بہت بڑی ورائٹی ہوتی ہے، بڑھتی ہوئی حجم میں اور زیادہ رفتار کے ساتھ۔ اس تصور کو تین بمقابلہ کے اصول کے طور پر بھی جانا جاتا ہے، جو تین اصطلاحات کے انتخاب پر مشتمل ہے جو بگ ڈیٹا کے رجحان کو اس کی ضروری خصوصیات میں نمایاں کرتی ہیں:

حجم: کیونکہ پروسیس ہونے والے ڈیٹا کی مقدار بہت زیادہ ہے۔ یہ عنصر یقینی طور پر تینوں میں سب سے زیادہ اشارہ کرتا ہے، درحقیقت لفظ Data سے پہلے صفت بگ ہے۔ بگ ڈیٹا آرکائیوز کو ٹیرابائٹس یا پیٹا بائٹس کی ترتیب میں ماپا جاتا ہے۔
رفتار: اس اصطلاح سے مراد وہ رفتار ہے جس کے ساتھ ڈیٹا جمع کیا جاتا ہے۔ وہ سیاق و سباق جن میں ڈیٹا کا بہاؤ مسلسل، نان اسٹاپ، سرور پر سٹریمنگ کا بہاؤ تیزی سے عام ہے۔ یہ ایسے نظاموں کے نفاذ پر مجبور کرتا ہے جو ڈیٹا کے نقصان کے بغیر، بلاکس کے بغیر جمع کرنے اور تاخیر کے اوقات کو کم سے کم کرنے کی صلاحیت رکھتا ہے۔ آئیے سوچتے ہیں، مثال کے طور پر، مالیاتی لین دین، آن لائن ٹریڈنگ، IoT وغیرہ...
Varietà: انتہائی منظم آرکائیوز کے برعکس، وہ ڈیٹا جو بگ ڈیٹا سسٹم کا حصہ ہے بہت مختلف ہے۔ مثال کے طور پر ہم کسی بھی سوشل نیٹ ورک میں جمع ہونے والے ڈیٹا کے بارے میں سوچ سکتے ہیں: تصاویر، متن، منسلکات، ویڈیوز۔

درحقیقت، وقت کے ساتھ ساتھ دیگر خصوصیات کو بھی شامل کیا گیا ہے، جیسے کہ اعداد و شمار کی صداقت اور اعتبار کی شناخت کے لیے ڈیٹا کی سچائی۔

اعداد و شمار کی بڑی مقدار جو تیز رفتاری سے پہنچتی ہے، اور جس کی خصوصیت بہت زیادہ ہوتی ہے، ضروری طور پر ڈیٹا تنظیم کے مسائل کا باعث بنتی ہے۔

انہیں کیسے منظم کیا جائے؟

ان کا استقبال کرنا اور پھر ان پر کارروائی کرنا؟ ان کی ساخت اور پھر ان پر کارروائی؟

اعداد و شمار کے نظام کی تنظیم کے کئی نمونے پیدا ہوئے، جو وقت کے ساتھ خود کو قائم کر چکے ہیں:

ڈیٹا ویئرہاؤس: یعنی سٹرکچرڈ ڈیٹا آرکائیوز۔ وسیع پیمانے پر استعمال کیا جاتا ہے، اس خاصیت کے ساتھ کہ ڈیٹا کو اسی لمحے ترتیب دیا جانا چاہیے جس میں اسے موصول ہوتا ہے۔
ڈیٹا لیک- اس حقیقت کی خصوصیت کہ تمام آنے والے ڈیٹا کو بغیر کسی اسٹرکچرڈ اسٹوریج پالیسی کے کنٹینر میں الگ کر دیا جاتا ہے۔ ڈیٹا ویئر ہاؤس کا مخالف نمونہ، کیونکہ ڈیٹا لیک میں ڈیٹا کو صرف اس وقت ترتیب دیا جائے گا جب ان کی تشریح کرنے کے لیے انہیں پڑھنا ضروری ہو۔ یہ نقطہ نظر حصول کے مرحلے کو آسان اور تیز کرتا ہے، اس کے بعد کے مراحل کو نقصان پہنچاتا ہے۔
سلائس: compartmentalized بھی کہا جاتا ہے. ہر محکمہ یا کمپنی کا محکمہ اپنا ڈیٹا دوسروں کے ساتھ شیئر کیے بغیر جمع کرتا ہے۔

فی الحال یہ سب سے زیادہ استعمال ہونے والے پیراڈائمز ہیں، اور بہت سے معاملات میں انضمام کا حل غالب رہتا ہے، یعنی مختلف پروجیکٹس جمع کرنے کے مختلف طریقے استعمال کر سکتے ہیں اور پھر بعد میں انضمام ہو سکتے ہیں۔ ایسے حالات ہو سکتے ہیں جن میں مختلف اعداد و شمار کو مختلف نمونوں کے ساتھ اکٹھا کیا جاتا ہے، یا مختلف مجموعے ایک ہی زندگی کے چکر کے متضاد مراحل تشکیل دے سکتے ہیں۔

مشین لرننگ

ان کی بڑی افادیت کے باوجود، ہم اچھی طرح جانتے ہیں کہ پروسیسنگ مشینیں یا کمپیوٹر احمق ہیں۔ یعنی کمپیوٹر کچھ نہیں کر سکتا اگر وہ کسی مسئلے کا تجزیہ کرنے، الگورتھم بنانے اور اسے پروگرام میں انکوڈ کرنے کے لیے انسان نہیں ہے۔

یہ ہمیشہ سے ہوتا رہا ہے، یہاں تک کہ ہم نے بات شروع کی۔ مصنوعی ذہانت. درحقیقت، مصنوعی ذہانت مشین میں ایک قسم کی بے ساختہ استدلال پیدا کرنے پر مشتمل ہے، جس کی وجہ سے وہ آزادانہ طور پر مسائل کو حل کر سکتی ہے، یعنی براہ راست انسانی رہنمائی کے بغیر۔

اظہار سے پہلے کئی سال لگ گئے"مشین میں ایک قسم کی بے ساختہ استدلال پیدا کریں۔"، یعنی، مشین کی مکمل" جبری" ہدایات کی حالت سے، خود سیکھنے کی شرط پر جانے میں کئی سال لگے۔ دوسرے لفظوں میں، مشین خود سیکھنے، سیکھنے کے قابل رہی ہے۔ اس لیے ہم یہاں پہنچے ہیں۔ مشین لرننگ.

مشین لرننگ مصنوعی ذہانت کی ایک شاخ ہے جس میں پروگرامر تاریخی ڈیٹا کے مطالعہ کی بنیاد پر تربیتی مرحلے میں مشین چلاتا ہے۔ اس تربیتی مرحلے کے اختتام پر، ایک ماڈل تیار کیا جاتا ہے جس کا استعمال مسائل کو حل کرنے میں کیا جا سکتا ہے، جس کی وضاحت نئے ڈیٹا کے ساتھ کی جاتی ہے۔

میں کلاسک نقطہ نظر کا احترام کرتا ہوں، جہاں ڈیٹا سائنسدان کام کرتا تھا۔ definish حل الگورتھم، مشین دریافت کرے گی کہ ماڈل کیا بناتا ہے۔ ڈیٹا سائنٹسٹ کو زیادہ سے زیادہ مؤثر اور زیادہ اہم ڈیٹا کے ساتھ، تیزی سے موثر تربیتی مراحل کو منظم کرنے، اور تیار کردہ ماڈلز کو ٹیسٹ کے تابع کر کے ان کی درستگی کی تصدیق کرنے کا خیال رکھنا چاہیے۔

مشین لرننگ کی بدولت، ہم موبائل آلات، انٹرنیٹ، ہوم آٹومیشن میں جو سسٹم استعمال کرتے ہیں وہ زیادہ سے زیادہ ذہین (یا لگتا ہے) ہیں۔ ایک نظام، جیسا کہ یہ کام کرتا ہے، اس پر اور اسے استعمال کرنے والے صارفین کا ڈیٹا بھی جمع کرنے کے قابل ہو سکتا ہے، پھر انہیں تربیتی مرحلے میں استعمال کرتا ہے اور پھر پیشین گوئیوں کو مزید بہتر بنا سکتا ہے۔

Ercole Palmeri: بدعت کا عادی