Šiame straipsnyje matome keletą mažai žinomų, bet labai naudingų python bibliotekų:
Nors yra daug bibliotekų Pitonas DateTime, manau, kad švytuoklę lengva naudoti atliekant bet kokią datos operaciją. Švytuoklė yra mano mėgstamiausia knygų spinta kasdieniam naudojimui darbe. Išplečia integruotą Python datos ir laiko modulį, pridedant intuityvesnę API, skirtą laiko juostoms valdyti ir datos bei laiko operacijoms, pvz., pridėti laiko intervalus, atimti datas ir konvertuoti tarp laiko juostų, atlikti. Suteikia paprastą ir intuityvią datų ir laiko formatavimo API.
!pip install pendulum
# import library
import pendulum
dt = pendulum.datetime(2023, 1, 31)
print(dt)
#local() creates datetime instance with local timezone
local = pendulum.local(2023, 1, 31)
print("Local Time:", local)
print("Local Time Zone:", local.timezone.name)
# Printing UTC time
utc = pendulum.now('UTC')
print("Current UTC time:", utc)
# Converting UTC timezone into Europe/Paris time
europe = utc.in_timezone('Europe/Paris')
print("Current time in Paris:", europe)
Ar susidūrėte su tuo, kad užsienio kalba duomenyse pateikiama neteisingai? Tai vadinama Mojibake. „Mojibake“ yra terminas, vartojamas apibūdinti iškraipytą ar sumaišytą tekstą, atsirandantį dėl kodavimo ar dekodavimo problemų. Paprastai tai atsitinka, kai tekstas, parašytas naudojant vieną simbolių koduotę, neteisingai iššifruojamas naudojant kitą kodavimą. „ftfy python“ biblioteka padės ištaisyti „Mojibake“, o tai labai naudinga NLP naudojimo atvejais.
!pip install ftfy
print(ftfy.fix_text('Pataisykite sakinį naudodami “ftfyâ€\x9d.')) print(ftfy.fix_text('âœ" Jokių problemų su tekstu')) print(ftfy.fix_text('à perturber la rèflexion '))
Be Mojibake, ftfy ištaisys blogas koduotas, blogas eilučių pabaigas ir blogas citatas. gali suprasti tekstą, kuris buvo iššifruotas kaip viena iš šių koduočių:
„Sketch“ yra unikalus AI kodavimo asistentas, sukurtas specialiai vartotojams, dirbantiems su „Python“ pandų biblioteka. Jis naudoja mašininio mokymosi algoritmus, kad suprastų vartotojo duomenų kontekstą, ir pateikia atitinkamų kodų pasiūlymų, kad duomenų apdorojimo ir analizės užduotis būtų lengviau ir efektyviau atlikti. „Sketch“ nereikalauja, kad vartotojai į savo IDE įdiegtų jokių papildomų papildinių, todėl juo naudotis greita ir paprasta. Tai gali žymiai sumažinti laiką ir pastangas, kurių reikia su duomenimis susijusioms užduotims atlikti, ir padėti vartotojams rašyti geresnį ir efektyvesnį kodą.
!pip diegimo eskizas
Kad galėtume naudoti šią biblioteką, prie pandos duomenų rėmelio turime pridėti plėtinį .sketch.
paklausti yra „Sketch“ funkcija, leidžianti vartotojams užduoti klausimus apie savo duomenis natūralia kalba. Pateikiamas tekstinis atsakymas į vartotojo užklausą.
# Importuoti bibliotekas importuoti eskizus importuoti pandas kaip pd # Duomenų skaitymas (pavyzdžiui naudojant Twitter duomenis) df = pd.read_csv("tweets.csv") print(df)
# Klausimas, kurie stulpeliai yra kategorijos tipo df.sketch.ask("Kurie stulpeliai yra kategorijos tipo?")
# Norėdami rasti duomenų rėmelio formą df.sketch.ask("Kokia yra duomenų rėmelio forma")
.eskizas.kaip
Howto yra funkcija, suteikianti kodo bloką, kuris gali būti naudojamas kaip įvairių su duomenimis susijusių užduočių pradžios arba pabaigos taškas. Galime paprašyti kodo fragmentų, kad galėtume normalizuoti jų duomenis, kurti naujas funkcijas, sekti duomenis ir net kurti modelius. Taip sutaupysite laiko ir galėsite lengvai nukopijuoti bei įklijuoti kodą; jums nereikia rašyti kodo rankiniu būdu nuo nulio.
# Prašoma pateikti kodą, nukirptą emocijoms vizualizuoti df.sketch.howto("Vizualizuokite emocijas")
.eskizuoti.taikyti
Funkcija .apply tai padeda generuoti naujas funkcijas, analizuoti laukus ir atlikti kitas duomenų manipuliacijas. Norėdami naudoti šią funkciją, turime turėti OpenAI paskyrą ir naudoti API raktą užduotims atlikti. Šios funkcijos nebandžiau.
Man ypač patiko naudotis šia biblioteka kaip tai veikia, ir manau, kad tai naudinga.
„Pgeocode“ yra puiki biblioteka, kurią neseniai aptikau ir kuri buvo nepaprastai naudinga mano erdvinės analizės projektams. Pavyzdžiui, jis leidžia rasti atstumą tarp dviejų pašto kodų ir pateikia geografinę informaciją, įvesdami šalį ir pašto kodą.
!pip įdiegti pgeocode
Gaukite konkrečių pašto kodų geografinę informaciją
# Tikrinama šalis "Indija" nomi = pgeocode.Nominatim('In') # Geografinės informacijos gavimas perduodant pašto kodus nomi.query_postal_code(["620018", "620017", "620012"])
„Pgeocode“ apskaičiuoja atstumą tarp dviejų pašto kodų, įvesdamas šalį ir pašto kodus. Rezultatas išreiškiamas kilometrais.
# Atstumo tarp dviejų pašto kodų radimas atstumas = pgeocode.GeoDistance('In') distance.query_postal_code("620018", "620012")
rembg yra dar viena naudinga biblioteka, kuri lengvai pašalina foną iš vaizdų.
!pip install rembg
# Importuojamos bibliotekos
iš rembg import pašalinti importuoti cv2 # įvesties vaizdo kelias (mano failas: image.jpeg) input_path = 'image.jpeg' # kelias išvesties vaizdo įrašymui ir įrašymui kaip output.jpeg output_path = 'output.jpeg' # Įvesties skaitymas vaizdo įvestis = cv2.imread(input_path) # Fono išvesties pašalinimas = pašalinti(įvestis) # Išsaugomas failas cv2.imwrite(output_path, output)
Galbūt jau esate susipažinę su kai kuriomis iš šių bibliotekų, bet man Sketch, Pendulum, pgeocode ir ftfy yra būtini mano duomenų inžinerijos darbui. Aš labai jais pasitikiu savo projektuose.
Humanize“ pateikia paprastą, lengvai skaitomą skaičių, datų ir laiko eilučių formatavimą. Bibliotekos tikslas – paimti duomenis ir padaryti juos patogesnius, pavyzdžiui, konvertuojant sekundžių skaičių į lengviau skaitomą eilutę, pvz., „prieš 2 minutes“. Biblioteka gali formatuoti duomenis įvairiais būdais, įskaitant skaičių formatavimą kableliais, laiko žymų konvertavimą į santykinius laikus ir kt.
Savo duomenų inžinerijos projektuose dažnai naudoju sveikuosius skaičius ir laiko žymes.
!pip install humanize
# Importuojant biblioteką importuoti humanize importuoti datą ir laiką kaip dt # Skaičių formatavimas kableliu a = humanize.intcomma(951009) # skaičių konvertavimas į žodžius b = humanize.intword(10046328394) #printing print(a) print(b)
importuoti humanize importuoti datatime kaip dt a = humanize.naturaldate(dt.date(2012, 6, 5)) b = humanize.naturalday(dt.date(2012, 6, 5)) print(a) print(b)
Ercole Palmeri
Lavindami smulkiosios motorikos įgūdžius dažydami, vaikai paruošiami sudėtingesniems įgūdžiams, pavyzdžiui, rašymui. Norėdami nuspalvinti…
Karinio jūrų laivyno sektorius yra tikra pasaulinė ekonominė galia, kuri pasiekė 150 mlrd.
Praėjusį pirmadienį „Financial Times“ paskelbė apie susitarimą su „OpenAI“. FT licencijuoja savo pasaulinio lygio žurnalistiką…
Milijonai žmonių moka už srautinio perdavimo paslaugas, mokėdami mėnesinius abonentinius mokesčius. Paplitusi nuomonė, kad jūs…