آموزش

چیست Data Science، چه کاری و با چه اهدافی انجام می دهد

با اصطلاح Data Science به معنای رشته ای است که با پردازش و تفسیر داده ها سر و کار دارد. انضباط Data Science از همگرایی بسیاری از دانش‌ها از آمار گرفته تا ریاضیات، از علوم تا علوم کامپیوتر ناشی می‌شود.

La Data Scienceیا علم داده، یک علم نسبتاً جدید است، در واقع حدود پنجاه سال است که وجود دارد. این از نیاز به ایجاد نظم در یک زمینه بسیار زنده و به سرعت در حال تکامل ناشی می شود. رشد حجم داده ها، امکان و توانایی معنا بخشیدن به داده ها، باعث شده است Data Science.

از لحاظ تاریخی، داده ها اغلب به عنوان نوعی محصول ثانویه هر فرآیند تلقی می شوند. هر کسی که در طول قرن ها متعهد به جمع آوری داده ها بوده است، این کار را عمدتاً برای راحتی خود انجام داده است، اغلب بدون اینکه تصور کند که امروزه ارزش اقتصادی را می توان به مجموعه ای از داده ها نسبت داد. برای مثال، اگر به مزرعه‌ای فکر کنیم که ممکن است طی سال‌ها اطلاعاتی در مورد محصولات، رویدادها، کاشت و غیره جمع‌آوری کرده باشد، شاید می‌توانست این کار را برای بایگانی کردن تاریخچه شرکت خود انجام دهد. اگر همه مزارع این روش را انجام می‌دادند، شرکت‌های کود اکنون می‌توانستند از آن برای اهداف تحقیقاتی یا بازاریابی بهره ببرند.

دانشمند داده ها

آن که با آن سروکار دارد Data Science، او نامیده می شود دانشمند داده: در حال حاضر یکی از پرطرفدارترین افراد حرفه ای در دنیای کار است.

وظیفه دانشمند داده تجزیه و تحلیل داده ها به منظور شناسایی مدل های موجود در آنها است، یعنی آنچه من داده های موجود را از طریق روند بیان می کنم. شناسایی این مدل ها برای اهداف مشتری کاربردی است: شرکت، نهاد عمومی و غیره ...

پول سازی

در سال‌های اخیر، یک مدل بازاریابی داده به طور فزاینده‌ای خود را تثبیت کرده است، جایی که شخصی علاقه‌مند به فروش داده و شخص دیگری به خرید آن است.

شرکت‌های متخصص در تولید داده‌ها متولد شدند و شرکت‌هایی در خرید و فروش پس از عملیات تمیز کردن و بازپردازی مناسب تخصص داشتند. اگر پس از آن به قوانین حفظ حریم خصوصی فکر کنیم، متوجه پیچیدگی موضوع می شویم. امروزه قوانین سختگیرانه ای وجود دارد که استفاده آگاهانه و محترمانه از اطلاعات را می طلبد.

برنامه ریزی

پروژه ای از Data Science معمولاً شامل مراحل زیر است:

شرح مشکل: یک پروژه با هدف دستیابی به نتیجه یا حل یک مشکل متولد می شود. این توصیف ویژگی های نتایجی که باید به دست آید، زمان رسیدن به آنها و منابع موجود را مشخص می کند.
جمع آوری داده ها: برای مقابله با مشکل، مجموعه داده‌ها باید از قبل در شرکت یا از منابع خارجی به دست آیند. این می تواند نظرسنجی های آنلاین، داده های جمع آوری شده از منابع اجتماعی و غیره باشد. سپس این مجموعه داده پاکسازی می شود، مرتب می شود و به گونه ای ساختار می یابد که به منبع کار تبدیل شود. دانشمند داده;
کاوش در داده های شروع: در این مرحله داده ها باید دیده و کاوش شوند، فیلتر شوند، در جداول خلاصه شوند و در نمودارها نمایش داده شوند. همه اینها شناسایی ویژگی ها، مرزها و هرگونه شکاف را ممکن می کند.
تجزیه و تحلیل داده ها: این مرحله ای است که در آن مدل ها با استفاده از مناسب ترین ابزار و تکنیک ها با توجه به اهداف مورد نظر شناسایی می شوند.
کاربرد مدل ها: در این مرحله نهایی، به کارگیری مدل های شناسایی شده امکان دستیابی به نتایج مطلوب را فراهم می کند. اینجا دانشمند داده صرفاً دستورالعمل هایی برای استفاده از مجموعه داده ها و برون یابی اطلاعات صحیح ارائه می دهد. این دستورالعمل ها باید به زبان تجاری شرکت بیان شود، که در خدمت حل مشکلاتی است که پروژه برای آن توسعه یافته است.

در هر مرحله دانشمند داده با بخش های خاص شرکت در تعامل است و بنابراین می توان گفت که دانشمند داده کاملاً با واقعیت شرکت ادغام شده است.

با پیشرفت تکنولوژی، دانشمند داده او اغلب خود را با مشکلات کلان داده و هوش مصنوعی مواجه کرده است.

بزرگ داده

وقتی در مورد Big Data صحبت می کنیم، به داده هایی اشاره می کنیم که دارای تنوع بسیار زیادی هستند و با حجم فزاینده و با سرعت بیشتری به دست می آیند. این مفهوم همچنین به عنوان قانون سه Vs شناخته می شود که شامل انتخاب سه عبارت است که پدیده کلان داده را در ویژگی های اساسی آن مشخص می کند:

حجم: زیرا حجم داده هایی که باید پردازش شوند بسیار زیاد است. این فاکتور مطمئناً نشان‌دهنده‌ترین عامل از این سه است، در واقع قبل از کلمه Data صفت Big وجود دارد. آرشیوهای کلان داده به ترتیب ترابایت یا پتابایت اندازه گیری می شوند.
سرعت: این اصطلاح به سرعت جمع آوری داده ها اشاره دارد. زمینه هایی که در آن جریان داده ها به طور مداوم، بدون وقفه و جریان بر روی سرور جریان دارد، به طور فزاینده ای رایج هستند. این امر پیاده سازی سیستم هایی را مجبور می کند که قادر به جمع آوری داده ها بدون از دست دادن، بدون بلوک و به حداقل رساندن زمان تأخیر باشند. بیایید به عنوان مثال به تراکنش های مالی، تجارت آنلاین، اینترنت اشیا و غیره فکر کنیم.
Varietà: برخلاف آرشیوهای بسیار ساختار یافته، داده هایی که بخشی از سیستم BigData هستند بسیار متنوع هستند. به عنوان مثال می‌توانیم به داده‌هایی که در هر شبکه اجتماعی جمع‌آوری می‌شوند فکر کنیم: عکس، متن، پیوست، ویدیو.

در واقع، ویژگی های دیگری نیز در طول زمان اضافه شده است، مانند صحت داده ها برای شناسایی قابلیت اطمینان و قابلیت اطمینان داده ها.

حجم زیادی از داده‌ها که با سرعت زیاد به دست می‌آیند و با تنوع زیاد مشخص می‌شوند، لزوماً منجر به مشکلات سازماندهی داده‌ها می‌شوند.

چگونه آنها را سازماندهی کنیم؟

استقبال از آنها و سپس پردازش آنها؟ ساختار آنها و سپس پردازش آنها؟

پارادایم های مختلف سازماندهی سیستم های داده ای متولد شدند که در طول زمان خود را تثبیت کردند:

پایگاه داده تحلیلی: یعنی آرشیوهای داده های ساخت یافته. به طور گسترده استفاده می شود، با این ویژگی که داده ها باید در همان لحظه ای که در آن دریافت می شوند سازماندهی شوند.
دریاچه دریاچه: با این واقعیت مشخص می شود که تمام داده های دریافتی بدون هیچ گونه سیاست ذخیره سازی ساختاریافته در کانتینر کنار گذاشته می شوند. پارادایم مخالف Datawarehouse، زیرا در دریاچه داده، داده‌ها تنها زمانی ساختار می‌یابند که خواندن آنها برای تفسیر آنها ضروری باشد. این رویکرد، مرحله اکتساب را به ضرر مراحل بعدی ساده و سرعت می بخشد.
سیلوهای: بخش بندی شده نیز نامیده می شود. هر بخش یا بخش شرکت داده های خود را بدون به اشتراک گذاشتن با دیگران جمع آوری می کند.

در حال حاضر اینها پرکاربردترین پارادایم ها هستند و در بسیاری از موارد راه حل یکپارچه سازی غالب است، یعنی پروژه های مختلف می توانند از متدولوژی های انباشت متفاوت استفاده کنند و سپس در زمان بعدی ادغام شوند. ممکن است موقعیت‌هایی وجود داشته باشد که در آن داده‌های مختلف با پارادایم‌های مختلف جمع‌آوری می‌شوند، یا مجموعه‌های مختلف می‌توانند مراحل پیوسته چرخه زندگی یکسان را تشکیل دهند.

فراگیری ماشین

علیرغم مفید بودن زیاد آنها، ما به خوبی می دانیم که ماشین های پردازش یا رایانه احمقانه هستند. به این معنا که اگر انسان نتواند یک مسئله را تجزیه و تحلیل کند، یک الگوریتم را فرموله کند و آن را در یک برنامه رمزگذاری کند، کاری نمی تواند انجام دهد.

این همیشه همینطور بوده است، تا زمانی که ما شروع به صحبت کردیم هوش مصنوعی. در واقع، هوش مصنوعی عبارت است از القای نوعی استدلال خودانگیخته در ماشین، که می تواند آن را به حل مسائل به طور مستقل، یعنی بدون هدایت مستقیم انسان، سوق دهد.

چندین سال طول کشید تا این عبارت "نوعی استدلال خود به خودی را در ماشین القا کند«یعنی چندین سال طول کشید تا از وضعیت آموزش کامل «اجباری» ماشین به شرایط خودآموزی رسیدیم. به عبارت دیگر، ماشین توانسته است خود یاد بگیرد، یاد بگیرد. بنابراین ما به آن رسیده ایم فراگیری ماشین.

یادگیری ماشینی شاخه ای از هوش مصنوعی است که در آن برنامه نویس ماشین را در مرحله آموزشی بر اساس مطالعه داده های تاریخی هدایت می کند. در پایان این مرحله آموزشی، مدلی تولید می‌شود که با داده‌های جدید می‌تواند در حل مسائل کاربرد داشته باشد.

من به رویکرد کلاسیک، جایی که دانشمند داده برای آن کار می کرد، احترام می گذارم defiبا الگوریتم های حل nish، ماشین کشف خواهد کرد که چه چیزی مدل را می سازد. دانشمند داده باید از سازماندهی مراحل آموزشی مؤثرتر، با داده های غنی تر و مهم تر، و تأیید اعتبار مدل های تولید شده با آزمایش آنها مراقبت کند.

به لطف یادگیری ماشینی، سیستم‌هایی که در دستگاه‌های تلفن همراه، اینترنت، اتوماسیون خانگی استفاده می‌کنیم (یا به نظر می‌رسد) بیشتر و بیشتر هوشمند هستند. یک سیستم، همانطور که کار می کند، همچنین ممکن است بتواند داده هایی را در مورد آن و کاربرانی که از آن استفاده می کنند جمع آوری کند، سپس از آنها در مرحله آموزش استفاده کند و سپس پیش بینی ها را بیشتر بهبود بخشد.

Ercole Palmeri: معتاد به نوآوری