Sangguni

Ano ang Data Science, kung ano ang ginagawa nito at kung anong mga layunin

Gamit ang term Data Science nangangahulugang isang disiplina na tumatalakay sa pagproseso at pagbibigay-kahulugan sa data. Disiplina Data Science ito ay nagmumula sa pagsasama-sama ng maraming kaalaman mula sa Statistics hanggang Mathematics, mula sa Science hanggang Computer Science. 

La Data Science, o Data Science, ay isang medyo bagong agham, sa katunayan ito ay nasa loob ng halos limampung taon. Ito ay nagmumula sa pangangailangang maglagay ng kaayusan sa isang napakasigla at mabilis na umuusbong na konteksto. Ang paglaki sa dami ng data, ang posibilidad at kakayahang magbigay ng kahulugan sa datos, ay gumawa ng Data Science.

Sa kasaysayan, ang data ay madalas na itinuturing bilang isang uri ng pangalawang produkto ng anumang proseso. Sinuman sa paglipas ng mga siglo ay nagtangka upang mangolekta ng data, ginawa ito pangunahin para sa kanilang sariling kaginhawahan, kadalasan nang hindi naiisip na ngayon ang isang pang-ekonomiyang halaga ay maaaring maiugnay sa isang koleksyon ng data. Kung iisipin natin, halimbawa, ang isang sakahan na sa paglipas ng mga taon ay maaaring nangolekta ng impormasyon sa mga pananim, kaganapan, paghahasik, atbp., marahil ay nagawa ito upang i-archive ang kasaysayan ng kumpanya nito. Kung ginawa ng lahat ng mga sakahan ang pamamaraang iyon, ang mga kumpanya ng pataba ngayon ay maaaring makinabang mula dito para sa mga layunin ng pananaliksik, o para sa mga layunin ng marketing.

Data Scientist

Ang nakikitungo sa Data Science, tinawag siya siyentipiko ng data: kasalukuyang isa sa mga pinaka hinahangad na propesyonal sa mundo ng trabaho.

Ang gawain ng data scientist ay pag-aralan ang data upang matukoy ang mga modelo sa loob ng mga ito, iyon ay, kung ano ang ipinahayag ko ang data na magagamit sa pamamagitan ng trend. Ang pagkakakilanlan ng mga modelong ito ay gumagana sa mga layunin ng kliyente: kumpanya, pampublikong katawan atbp ...

Monetization

Sa mga nakalipas na taon, ang isang modelo ng pagmemerkado ng data ay lalong naging matatag kung saan ang isang tao ay interesado sa pagbebenta ng data at may ibang tao sa pagbili nito.

Ang mga kumpanyang dalubhasa sa paggawa ng data ay ipinanganak, at ang mga kumpanya ay nagdadalubhasa sa pagbili at pagbebenta pagkatapos ng naaangkop na paglilinis at muling pagpoproseso ng mga operasyon. Kung iisipin namin ang tungkol sa mga regulasyon sa privacy, napagtanto namin ang pagiging kumplikado ng paksa. Ngayon ay may mga mahigpit na batas na humihiling ng mulat at magalang na paggamit ng impormasyon.

Pagpaplano

Isang proyekto ng Data Science karaniwang binubuo ng mga sumusunod na hakbang:

  1. Paglalarawan ng problema: ang isang proyekto ay ipinanganak na may layuning makamit ang isang resulta, o malutas ang isang problema. Tinutukoy ng paglalarawang ito ang mga katangian ng mga resultang makukuha, ang timing sa loob kung saan makakamit ang mga ito, at ang mga mapagkukunang magagamit;
  2. Pagkolekta ng data: upang matugunan ang problema, ang mga dataset ay kailangang makuha, alinman ay naroroon na sa kumpanya o mula sa mga panlabas na mapagkukunan. Ito ay maaaring mga online na survey, data na nakolekta mula sa mga mapagkukunang panlipunan, atbp…. Ang dataset na ito ay lilinisin, aayosin at gagawin sa paraang ito ang magiging mapagkukunan ng trabaho ng siyentipiko ng data;
  3. Paggalugad ng panimulang data: sa puntong ito ang data ay dapat tingnan at galugarin, i-filter, buod sa mga talahanayan at ipakita sa mga graph. Ang lahat ng ito ay magiging posible upang matukoy ang mga katangian nito, mga hangganan at anumang mga puwang; 
  4. Pagsusuri ng data: ito ang yugto kung saan natukoy ang mga modelo, gamit ang pinakaangkop na mga kasangkapan at pamamaraan ayon sa mga layunin na makakamit;
  5. Paglalapat ng mga Modelo: sa huling yugtong ito, ang aplikasyon ng mga natukoy na modelo ay magbibigay-daan upang makuha ang ninanais na mga resulta. Dito ang siyentipiko ng data nagbibigay lamang ito ng mga patnubay para sa paggamit ng set ng data, at ang extrapolation ng tamang impormasyon. Ang mga alituntuning ito ay dapat na ipahayag sa wika ng negosyo ng kumpanya, na magsisilbing solusyon sa mga problema kung saan binuo ang proyekto.

Sa bawat hakbang ang siyentipiko ng data nakikipag-ugnayan sa mga partikular na departamento ng kumpanya, at samakatuwid ay masasabi nating ang siyentipiko ng data ay perpektong isinama sa corporate reality. 

Sa pagsulong ng teknolohiya, ang siyentipiko ng data madalas niyang nahaharap sa mga problema ng Big Data at Artificial Intelligence.

Big Data

Kapag pinag-uusapan natin ang Big Data, tinutukoy natin ang data na naglalaman ng napakaraming iba't-ibang, dumarating nang dumarami at mas mabilis. Ang konseptong ito ay kilala rin bilang panuntunan ng tatlong Vs, na binubuo sa pagpili ng tatlong termino na nagpapakilala sa Big Data phenomenon sa mahahalagang tampok nito:

  1. Dami: dahil ang dami ng data na ipoproseso ay napakataas. Ang salik na ito ay tiyak ang pinakanagpapahiwatig sa tatlo, sa katunayan ang salitang Data ay pinangungunahan ng pang-uri na Malaki. Ang mga archive ng Big Data ay sinusukat sa pagkakasunud-sunod ng Terabytes o Petabytes;
  2. Velocità: Ang terminong ito ay tumutukoy sa bilis kung saan ang data ay naipon. Ang mga konteksto kung saan ang daloy ng data ay tuloy-tuloy, walang tigil, streaming na daloy papunta sa server ay lalong karaniwan. Pinipilit nito ang pagpapatupad ng mga system na may kakayahang mag-ipon nang walang pagkawala ng data, nang walang mga bloke at pagliit ng mga oras ng latency. Isipin natin, halimbawa, ang mga transaksyon sa pananalapi, online na kalakalan, IoT atbp ...
  3. Varietà: hindi tulad ng mga archive na may mataas na istraktura, ang data na bahagi ng isang BigData system ay napaka-iba-iba. Bilang isang halimbawa maaari naming isipin ang data na nakolekta sa anumang social network: mga larawan, teksto, mga attachment, mga video.

Sa katotohanan, ang iba pang mga kakaiba ay naidagdag din sa paglipas ng panahon, tulad ng pagiging totoo ng data upang matukoy ang pagiging maaasahan at pagiging maaasahan ng data.

Malaking dami ng data na dumarating sa napakabilis, at nailalarawan sa pamamagitan ng mahusay na pagkakaiba-iba, ay kinakailangang humantong sa mga problema sa organisasyon ng data.

newsletter ng pagbabago
Huwag palampasin ang pinakamahalagang balita sa pagbabago. Mag-sign up upang matanggap ang mga ito sa pamamagitan ng email.
Paano sila ayusin?

Pagtanggap sa kanila at pagkatapos ay pinoproseso ang mga ito? Istruktura ang mga ito at pagkatapos ay pinoproseso ang mga ito?

Ang ilang mga paradigm ng organisasyon ng mga sistema ng data ay ipinanganak, na itinatag ang kanilang mga sarili sa paglipas ng panahon:

  • datawarehouse: Ibig sabihin, structured data archive. Malawakang ginagamit, na may partikularidad na dapat ayusin ang data sa mismong sandali kung kailan ito natanggap;
  • lawa ng data- nailalarawan sa katotohanan na ang lahat ng papasok na data ay nakatabi sa lalagyan nang walang anumang nakabalangkas na patakaran sa imbakan. Ang kabaligtaran na paradigm sa Datawarehouse, dahil sa Data Lake ang data ay iistruktura lamang kapag kinakailangan na basahin ang mga ito upang mabigyang-kahulugan ang mga ito. Ang pamamaraang ito ay nagpapasimple at nagpapabilis sa yugto ng pagkuha, sa kapinsalaan ng mga kasunod na yugto;
  • silos: tinatawag ding compartmentalized. Ang bawat departamento o departamento ng kumpanya ay nag-iipon ng data nito nang hindi ito ibinabahagi sa iba.

Sa kasalukuyan, ang mga ito ang pinakamalawak na ginagamit na mga paradigma, at sa maraming pagkakataon ang solusyon ng integrasyon ay nangingibabaw, ibig sabihin, ang iba't ibang proyekto ay maaaring gumamit ng iba't ibang mga pamamaraan ng akumulasyon at pagkatapos ay isama sa ibang pagkakataon. Maaaring may mga sitwasyon kung saan ang iba't ibang data ay nakolekta na may iba't ibang mga paradigm, o ang iba't ibang mga koleksyon ay maaaring bumuo ng magkadikit na mga yugto ng parehong ikot ng buhay.

Pag-aaral ng Machine

Sa kabila ng kanilang malaking pakinabang, alam na alam natin na ang mga makina sa pagpoproseso o mga computer ay hangal. Ibig sabihin, walang magagawa ang computer kung hindi tao ang mag-analyze ng problema, magbalangkas ng algorithm at mag-encode nito sa isang program.

Ito ay palaging ang kaso, hanggang sa nagsimula kaming mag-usap Artipisyal na Katalinuhan. Sa katunayan, ang artipisyal na katalinuhan ay binubuo sa pag-uudyok ng isang uri ng kusang pangangatwiran sa makina, na maaaring humantong dito upang malutas ang mga problema nang nakapag-iisa, iyon ay, nang walang direktang patnubay ng tao.

Tumagal ng ilang taon bago ang ekspresyong "magbuod ng isang uri ng kusang pangangatwiran sa makina", Ibig sabihin, inabot ng ilang taon bago tayo pumasa mula sa isang kondisyon ng kabuuang" sapilitang "pagtuturo ng makina, sa isang kondisyon ng self-learning. Sa madaling salita, ang makina ay nagawang matuto sa sarili, upang matuto. Kaya nakarating na kami sa Pag-aaral ng Machine.

Ang Machine Learning ay isang sangay ng Artificial Intelligence kung saan pinapatakbo ng programmer ang makina sa isang yugto ng pagsasanay batay sa pag-aaral ng makasaysayang data. Sa pagtatapos ng yugto ng pagsasanay na ito, isang modelo ang ginawa na maaaring magamit sa paglutas ng mga problema, ipinaliwanag gamit ang bagong data.

Iginagalang ko ang klasikong diskarte, kung saan nagtatrabaho ang data scientist definish solution algorithm, matutuklasan ng makina kung ano ang bumubuo sa modelo. Dapat pangalagaan ng Data Scientist ang pag-oorganisa ng mga lalong epektibong yugto ng pagsasanay, na may mas mayaman at mas makabuluhang data, at ang pag-verify ng bisa ng mga modelong ginawa sa pamamagitan ng pagsasailalim sa mga ito sa mga pagsubok.

Salamat sa Machine Learning, ang mga system na ginagamit namin sa mga mobile device, internet, home automation ay (o tila) mas at mas matalino. Ang isang system, habang gumagana ito, ay maaari ring mangolekta ng data tungkol dito at sa mga gumagamit na gumagamit nito, pagkatapos ay gamitin ang mga ito sa yugto ng pagsasanay at pagkatapos ay higit pang pagbutihin ang mga pagtataya.

Ercole Palmeri: Adik sa inobasyon


newsletter ng pagbabago
Huwag palampasin ang pinakamahalagang balita sa pagbabago. Mag-sign up upang matanggap ang mga ito sa pamamagitan ng email.

Kamakailang Mga Artikulo

Paano pinakamahusay na ayusin ang data at mga formula sa Excel, para sa isang mahusay na pagsusuri

Ang Microsoft Excel ay ang reference tool para sa data analysis, dahil nag-aalok ito ng maraming feature para sa pag-aayos ng mga data set,…

14 Mayo 2024

Positibong konklusyon para sa dalawang mahalagang Walliance Equity Crowdfunding na proyekto: Jesolo Wave Island at Milano Via Ravenna

Ang Walliance, SIM at platform sa mga pinuno sa Europe sa larangan ng Real Estate Crowdfunding mula noong 2017, ay nag-anunsyo ng pagkumpleto…

13 Mayo 2024

Ano ang Filament at paano gamitin ang Laravel Filament

Ang filament ay isang "pinabilis" na framework ng pag-develop ng Laravel, na nagbibigay ng ilang full-stack na bahagi. Ito ay dinisenyo upang gawing simple ang proseso ng…

13 Mayo 2024

Sa ilalim ng kontrol ng Artificial Intelligences

«Kailangan kong bumalik upang kumpletuhin ang aking ebolusyon: Ipapakita ko ang aking sarili sa loob ng computer at magiging purong enerhiya. Kapag nanirahan sa…

10 Mayo 2024

Ang bagong artificial intelligence ng Google ay maaaring magmodelo ng DNA, RNA at "lahat ng mga molekula ng buhay"

Ang Google DeepMind ay nagpapakilala ng pinahusay na bersyon ng modelo ng artificial intelligence nito. Ang bagong pinahusay na modelo ay nagbibigay hindi lamang…

9 Mayo 2024

Paggalugad sa Modular Architecture ni Laravel

Ang Laravel, na sikat sa eleganteng syntax at malalakas na feature nito, ay nagbibigay din ng matatag na pundasyon para sa modular na arkitektura. doon…

9 Mayo 2024

Cisco Hypershield at pagkuha ng Splunk Nagsisimula ang bagong panahon ng seguridad

Tinutulungan ng Cisco at Splunk ang mga customer na mapabilis ang kanilang paglalakbay sa Security Operations Center (SOC) ng hinaharap na may…

8 Mayo 2024

Higit pa sa pang-ekonomiyang bahagi: ang hindi halatang halaga ng ransomware

Nangibabaw ang Ransomware sa balita sa nakalipas na dalawang taon. Alam na alam ng karamihan na ang mga pag-atake ay...

6 Mayo 2024