Straipsniai

Nuostabios, bet mažai žinomos Python bibliotekos

Python programuotojas nuolat ieško naujų bibliotekų, kurios galėtų pagerinti duomenų inžinerijos ir verslo žvalgybos projektų darbą.

Šiame straipsnyje matome keletą mažai žinomų, bet labai naudingų python bibliotekų:

1. Švytuoklė

Nors yra daug bibliotekų Pitonas DateTime, manau, kad švytuoklę lengva naudoti atliekant bet kokią datos operaciją. Švytuoklė yra mano mėgstamiausia knygų spinta kasdieniam naudojimui darbe. Išplečia integruotą Python datos ir laiko modulį, pridedant intuityvesnę API, skirtą laiko juostoms valdyti ir datos bei laiko operacijoms, pvz., pridėti laiko intervalus, atimti datas ir konvertuoti tarp laiko juostų, atlikti. Suteikia paprastą ir intuityvią datų ir laiko formatavimo API.

Montavimas
!pip install pendulum
pavyzdys
# import library

import pendulum
dt = pendulum.datetime(2023, 1, 31)
print(dt)
 
#local() creates datetime instance with local timezone

local = pendulum.local(2023, 1, 31)
print("Local Time:", local)
print("Local Time Zone:", local.timezone.name)

# Printing UTC time

utc = pendulum.now('UTC')
print("Current UTC time:", utc)
 
# Converting UTC timezone into Europe/Paris time

europe = utc.in_timezone('Europe/Paris')
print("Current time in Paris:", europe)
produkcija

2. ftfy

Ar susidūrėte su tuo, kad užsienio kalba duomenyse pateikiama neteisingai? Tai vadinama Mojibake. „Mojibake“ yra terminas, vartojamas apibūdinti iškraipytą ar sumaišytą tekstą, atsirandantį dėl kodavimo ar dekodavimo problemų. Paprastai tai atsitinka, kai tekstas, parašytas naudojant vieną simbolių koduotę, neteisingai iššifruojamas naudojant kitą kodavimą. „ftfy python“ biblioteka padės ištaisyti „Mojibake“, o tai labai naudinga NLP naudojimo atvejais.

Montavimas
!pip install ftfy
pavyzdys
print(ftfy.fix_text('Pataisykite sakinį naudodami “ftfyâ€\x9d.')) print(ftfy.fix_text('âœ" Jokių problemų su tekstu')) print(ftfy.fix_text('à perturber la rèflexion '))
produkcija

Be Mojibake, ftfy ištaisys blogas koduotas, blogas eilučių pabaigas ir blogas citatas. gali suprasti tekstą, kuris buvo iššifruotas kaip viena iš šių koduočių:

  • Latin-1 (ISO-8859-1)
  • „Windows-1252“ (cp1252 – naudojamas „Microsoft“ produktuose)
  • Windows-1251 (cp1251 – rusiška cp1252 versija)
  • Windows-1250 (cp1250 – Rytų Europos cp1252 versija)
  • ISO-8859–2 (kuris nėra visiškai tas pats, kas „Windows-1250“)
  • „MacRoman“ (naudojama „Mac OS 9“ ir senesnėse versijose)
  • cp437 (naudojamas MS-DOS ir kai kuriose „Windows“ komandų eilutės versijose)

3. Eskizas

„Sketch“ yra unikalus AI kodavimo asistentas, sukurtas specialiai vartotojams, dirbantiems su „Python“ pandų biblioteka. Jis naudoja mašininio mokymosi algoritmus, kad suprastų vartotojo duomenų kontekstą, ir pateikia atitinkamų kodų pasiūlymų, kad duomenų apdorojimo ir analizės užduotis būtų lengviau ir efektyviau atlikti. „Sketch“ nereikalauja, kad vartotojai į savo IDE įdiegtų jokių papildomų papildinių, todėl juo naudotis greita ir paprasta. Tai gali žymiai sumažinti laiką ir pastangas, kurių reikia su duomenimis susijusioms užduotims atlikti, ir padėti vartotojams rašyti geresnį ir efektyvesnį kodą.

Montavimas
!pip diegimo eskizas
pavyzdys

Kad galėtume naudoti šią biblioteką, prie pandos duomenų rėmelio turime pridėti plėtinį .sketch.

.eskizas.paklausti

paklausti yra „Sketch“ funkcija, leidžianti vartotojams užduoti klausimus apie savo duomenis natūralia kalba. Pateikiamas tekstinis atsakymas į vartotojo užklausą.

# Importuoti bibliotekas importuoti eskizus importuoti pandas kaip pd # Duomenų skaitymas (pavyzdžiui naudojant Twitter duomenis) df = pd.read_csv("tweets.csv") print(df)
# Klausimas, kurie stulpeliai yra kategorijos tipo df.sketch.ask("Kurie stulpeliai yra kategorijos tipo?")
produkcija
# Norėdami rasti duomenų rėmelio formą df.sketch.ask("Kokia yra duomenų rėmelio forma")

.eskizas.kaip

Howto yra funkcija, suteikianti kodo bloką, kuris gali būti naudojamas kaip įvairių su duomenimis susijusių užduočių pradžios arba pabaigos taškas. Galime paprašyti kodo fragmentų, kad galėtume normalizuoti jų duomenis, kurti naujas funkcijas, sekti duomenis ir net kurti modelius. Taip sutaupysite laiko ir galėsite lengvai nukopijuoti bei įklijuoti kodą; jums nereikia rašyti kodo rankiniu būdu nuo nulio.

# Prašoma pateikti kodą, nukirptą emocijoms vizualizuoti df.sketch.howto("Vizualizuokite emocijas")
produkcija

.eskizuoti.taikyti

Funkcija .apply tai padeda generuoti naujas funkcijas, analizuoti laukus ir atlikti kitas duomenų manipuliacijas. Norėdami naudoti šią funkciją, turime turėti OpenAI paskyrą ir naudoti API raktą užduotims atlikti. Šios funkcijos nebandžiau.

Man ypač patiko naudotis šia biblioteka kaip tai veikia, ir manau, kad tai naudinga.

4. geokodas

„Pgeocode“ yra puiki biblioteka, kurią neseniai aptikau ir kuri buvo nepaprastai naudinga mano erdvinės analizės projektams. Pavyzdžiui, jis leidžia rasti atstumą tarp dviejų pašto kodų ir pateikia geografinę informaciją, įvesdami šalį ir pašto kodą.

Montavimas
!pip įdiegti pgeocode
pavyzdys

Gaukite konkrečių pašto kodų geografinę informaciją

# Tikrinama šalis "Indija" nomi = pgeocode.Nominatim('In') # Geografinės informacijos gavimas perduodant pašto kodus nomi.query_postal_code(["620018", "620017", "620012"])
produkcija

„Pgeocode“ apskaičiuoja atstumą tarp dviejų pašto kodų, įvesdamas šalį ir pašto kodus. Rezultatas išreiškiamas kilometrais.

# Atstumo tarp dviejų pašto kodų radimas atstumas = pgeocode.GeoDistance('In') distance.query_postal_code("620018", "620012")
produkcija

5. rembg

rembg yra dar viena naudinga biblioteka, kuri lengvai pašalina foną iš vaizdų.

Montavimas
!pip install rembg
pavyzdys
# Importuojamos bibliotekos
iš rembg import pašalinti importuoti cv2 # įvesties vaizdo kelias (mano failas: image.jpeg) input_path = 'image.jpeg' # kelias išvesties vaizdo įrašymui ir įrašymui kaip output.jpeg output_path = 'output.jpeg' # Įvesties skaitymas vaizdo įvestis = cv2.imread(input_path) # Fono išvesties pašalinimas = pašalinti(įvestis) # Išsaugomas failas cv2.imwrite(output_path, output)
produkcija

Galbūt jau esate susipažinę su kai kuriomis iš šių bibliotekų, bet man Sketch, Pendulum, pgeocode ir ftfy yra būtini mano duomenų inžinerijos darbui. Aš labai jais pasitikiu savo projektuose.

6. Humanizuoti

Humanize“ pateikia paprastą, lengvai skaitomą skaičių, datų ir laiko eilučių formatavimą. Bibliotekos tikslas – paimti duomenis ir padaryti juos patogesnius, pavyzdžiui, konvertuojant sekundžių skaičių į lengviau skaitomą eilutę, pvz., „prieš 2 minutes“. Biblioteka gali formatuoti duomenis įvairiais būdais, įskaitant skaičių formatavimą kableliais, laiko žymų konvertavimą į santykinius laikus ir kt.

Savo duomenų inžinerijos projektuose dažnai naudoju sveikuosius skaičius ir laiko žymes.

Montavimas
!pip install humanize
Pavyzdys (sveikieji skaičiai)
# Importuojant biblioteką importuoti humanize importuoti datą ir laiką kaip dt # Skaičių formatavimas kableliu a = humanize.intcomma(951009) # skaičių konvertavimas į žodžius b = humanize.intword(10046328394) #printing print(a) print(b)
produkcija
Pavyzdys (data ir laikas)
importuoti humanize importuoti datatime kaip dt a = humanize.naturaldate(dt.date(2012, 6, 5)) b = humanize.naturalday(dt.date(2012, 6, 5)) print(a) print(b)

Ercole Palmeri

Inovacijų naujienlaiškis
Nepraleiskite svarbiausių naujienų apie naujoves. Prisiregistruokite, kad gautumėte juos el.
Žymos: pitonas

Naujausi straipsniai

Vaikų spalvinimo puslapių privalumai – magijos pasaulis įvairaus amžiaus žmonėms

Lavindami smulkiosios motorikos įgūdžius dažydami, vaikai paruošiami sudėtingesniems įgūdžiams, pavyzdžiui, rašymui. Norėdami nuspalvinti…

2 gegužės 2024

Ateitis yra čia: kaip laivybos pramonė sukelia pasaulinės ekonomikos revoliuciją

Karinio jūrų laivyno sektorius yra tikra pasaulinė ekonominė galia, kuri pasiekė 150 mlrd.

1 gegužės 2024

Leidėjai ir OpenAI pasirašo sutartis dėl dirbtinio intelekto apdorojamos informacijos srauto reguliavimo

Praėjusį pirmadienį „Financial Times“ paskelbė apie susitarimą su „OpenAI“. FT licencijuoja savo pasaulinio lygio žurnalistiką…

30 balandis 2024

Mokėjimai internetu: štai kaip srautinio perdavimo paslaugos priverčia mokėti amžinai

Milijonai žmonių moka už srautinio perdavimo paslaugas, mokėdami mėnesinius abonentinius mokesčius. Paplitusi nuomonė, kad jūs…

29 balandis 2024