Articole

Biblioteci Python uimitoare, dar puțin cunoscute

Programatorul Python caută mereu noi biblioteci, care pot îmbunătăți munca în proiectele de inginerie a datelor și de business intelligence.

În acest articol vedem câteva biblioteci python puțin cunoscute, dar foarte utile:

1. pendulă

Deși multe biblioteci sunt disponibile în Piton pentru DateTime, consider că Pendulum este ușor de utilizat la orice operațiune de dată. Pendulul este biblioteca mea preferată pentru utilizarea zilnică la serviciu. Extinde modulul Python de date și oră încorporat, adăugând un API mai intuitiv pentru gestionarea fusurilor orare și efectuarea de operațiuni de dată și oră, cum ar fi adăugarea de intervale de timp, scăderea datelor și conversia între fusurile orare. Oferă un API simplu și intuitiv pentru formatarea datelor și orelor.

Instalare
!pip install pendulum
Exemplu
# import library

import pendulum
dt = pendulum.datetime(2023, 1, 31)
print(dt)
 
#local() creates datetime instance with local timezone

local = pendulum.local(2023, 1, 31)
print("Local Time:", local)
print("Local Time Zone:", local.timezone.name)

# Printing UTC time

utc = pendulum.now('UTC')
print("Current UTC time:", utc)
 
# Converting UTC timezone into Europe/Paris time

europe = utc.in_timezone('Europe/Paris')
print("Current time in Paris:", europe)
producție

2. ftfy

Ați întâlnit când limba străină din date nu apare corect? Acesta se numește Mojibake. Mojibake este un termen folosit pentru a descrie textul confuz sau amestecat care apare ca urmare a problemelor de codificare sau decodare. De obicei, apare atunci când textul scris cu o codificare de caractere este decodat incorect folosind o codificare diferită. Biblioteca ftfy python vă va ajuta să reparați Mojibake, care este foarte util în cazurile de utilizare a NLP.

Instalare
!pip install ftfy
Exemplu
print(ftfy.fix_text('Corectează propoziţia folosind “ftfyâ€\x9d.')) print(ftfy.fix_text('✔ Fără probleme cu text')) print(ftfy.fix_text('à perturber la réflexion '))
producție

În plus față de Mojibake, ftfy va remedia codificări proaste, terminații de linii proaste și ghilimele proaste. poate înțelege text care a fost decodat ca una dintre următoarele codificări:

  • Latin-1 (ISO-8859–1)
  • Windows-1252 (cp1252 — utilizat în produsele Microsoft)
  • Windows-1251 (cp1251 — versiunea rusă a cp1252)
  • Windows-1250 (cp1250 — versiunea est-europeană a cp1252)
  • ISO-8859–2 (care nu este exact la fel cu Windows-1250)
  • MacRoman (utilizat pe Mac OS 9 și versiuni anterioare)
  • cp437 (utilizat în MS-DOS și în unele versiuni ale promptului de comandă Windows)

3. Schiță

Sketch este un asistent unic de codare AI, conceput special pentru utilizatorii care lucrează cu biblioteca panda în Python. Utilizează algoritmi de învățare automată pentru a înțelege contextul datelor utilizatorului și oferă sugestii relevante de cod pentru a face manipularea datelor și sarcinile de analiză mai ușoare și mai eficiente. Sketch nu solicită utilizatorilor să instaleze pluginuri suplimentare în IDE-ul lor, făcându-l rapid și ușor de utilizat. Acest lucru poate reduce semnificativ timpul și efortul necesar pentru sarcinile legate de date și poate ajuta utilizatorii să scrie un cod mai bun și mai eficient.

Instalare
!pip install schiță
Exemplu

Trebuie să adăugăm o extensie .sketch la cadrul de date panda pentru a folosi această bibliotecă.

.schiță.întreaba

cere este o caracteristică a Sketch care permite utilizatorilor să pună întrebări despre datele lor într-un format de limbaj natural. Oferă un răspuns bazat pe text la interogarea utilizatorului.

# Import de biblioteci import schiță import panda ca pd # Citirea datelor (folosind datele Twitter ca exemplu) df = pd.read_csv("tweets.csv") print(df)
# Întrebarea ce coloane sunt de tipul categoriei df.sketch.ask(„Ce coloane sunt de tipul categoriei?”)
producție
# Pentru a găsi forma cadrului de date df.sketch.ask(„Care este forma cadrului de date”)

.schiță.cum

howto este o caracteristică care oferă un bloc de cod care poate fi folosit ca punct de plecare sau de sfârșit pentru diferite sarcini legate de date. Putem cere fragmente de cod pentru a-și normaliza datele, a crea funcții noi, a urmări datele și chiar a construi modele. Acest lucru va economisi timp și va facilita copierea și lipirea codului; nu trebuie să scrieți codul manual de la zero.

# Solicitarea de a furniza codul tăiat pentru vizualizarea emoțiilor df.sketch.howto(„Vizualizează emoțiile”)
producție

.schiță.aplicați

Funcția .apply ajută la generarea de noi caracteristici, la analizarea câmpurilor și la efectuarea altor manipulări de date. Pentru a folosi această caracteristică, trebuie să avem un cont OpenAI și să folosim cheia API pentru a efectua sarcinile. Nu am încercat această funcție.

Mi-a plăcut să folosesc această bibliotecă, mai ales cum funcționează și mi se pare util.

4. pgeocode

„pgeocode” este o bibliotecă excelentă pe care am întâlnit-o recent și care a fost incredibil de utilă pentru proiectele mele de analiză spațială. De exemplu, vă permite să găsiți distanța dintre două coduri poștale și oferă informații geografice luând ca intrare o țară și un cod poștal.

Instalare
!pip install pgeocode
Exemplu

Obțineți informații geografice pentru anumite coduri poștale

# Verificarea pentru țara „India” nomi = pgeocode.Nominatim('In') # Obținerea de informații geografice prin transmiterea codurilor poștale nomi.query_postal_code(["620018", "620017", "620012"])
producție

„pgeocode” calculează distanța dintre două coduri poștale luând ca intrare țara și codurile poștale. Rezultatul este exprimat în kilometri.

# Găsirea unei distanțe între două coduri poștale distanță = pgeocode.GeoDistance('In') distance.query_postal_code("620018", "620012")
producție

5. rembg

rembg este o altă bibliotecă utilă care îndepărtează cu ușurință fundalul din imagini.

Instalare
!pip install rembg
Exemplu
# Import de biblioteci
din rembg import eliminați importul cv2 # calea imaginii de intrare (fișierul meu: image.jpeg) input_path = 'image.jpeg' # cale pentru salvarea imaginii de ieșire și salvarea ca output.jpeg output_path = 'output.jpeg' # Citirea intrării input image = cv2.imread(input_path) # Eliminarea ieșirii de fundal = remove(input) # Salvarea fișierului cv2.imwrite(output_path, output)
producție

Poate că sunteți deja familiarizați cu unele dintre aceste biblioteci, dar pentru mine, Sketch, Pendulum, pgeocode și ftfy sunt indispensabile pentru munca mea de inginerie a datelor. Mă bazez foarte mult pe ei pentru proiectele mele.

6. Umanizați

Humanize” oferă o formatare simplă și ușor de citit pentru numere, date și ore. Scopul bibliotecii este să preia datele și să le facă mai ușor de utilizat, de exemplu prin conversia unui număr de secunde într-un șir mai ușor de citit, cum ar fi „acum 2 minute”. Biblioteca poate formata datele într-o varietate de moduri, inclusiv formatarea numerelor cu virgule, conversia marcajelor de timp în ore relative și multe altele.

Folosesc adesea numere întregi și marcaje de timp pentru proiectele mele de inginerie a datelor.

Instalare
!pip install humanize
Exemplu (numere întregi)
# Importul bibliotecii import humanize import datetime ca dt # Formatarea numerelor cu virgulă a = humanize.intcomma(951009) # convertirea numerelor în cuvinte b = humanize.intword(10046328394) #printing print(a) print(b)
producție
Exemplu (data și ora)
import humanize import datetime as dt a = humanize.naturaldate(dt.date(2012, 6, 5)) b = humanize.naturalday(dt.date(2012, 6, 5)) print(a) print(b)

Ercole Palmeri

Buletin informativ de inovare
Nu rata cele mai importante știri despre inovație. Înscrieți-vă pentru a le primi pe e-mail.
Etichete: piton

Articole recente

Editorii și OpenAI semnează acorduri pentru a reglementa fluxul de informații procesate de Inteligența Artificială

Luni trecută, Financial Times a anunțat un acord cu OpenAI. FT își licențiază jurnalismul de clasă mondială...

Aprilie 30 2024

Plăți online: Iată cum serviciile de streaming vă fac să plătiți pentru totdeauna

Milioane de oameni plătesc pentru serviciile de streaming, plătind taxe lunare de abonament. Este o părere comună că tu...

Aprilie 29 2024

Veeam oferă cel mai complet suport pentru ransomware, de la protecție la răspuns și recuperare

Coveware de la Veeam va continua să ofere servicii de răspuns la incidente de extorcare cibernetică. Coveware va oferi capacități criminalistice și de remediere...

Aprilie 23 2024

Revoluția verde și digitală: cum întreținerea predictivă transformă industria petrolului și gazelor

Întreținerea predictivă revoluționează sectorul petrolului și gazelor, cu o abordare inovatoare și proactivă a managementului uzinelor...

Aprilie 22 2024