Greinar

Ótrúleg, en lítt þekkt Python bókasöfn

Python forritarinn er alltaf að leita að nýjum bókasöfnum, sem geta bætt vinnuna í gagnaverkfræði og viðskiptagreindarverkefnum.

Í þessari grein sjáum við nokkur lítt þekkt, en mjög gagnleg python bókasöfn:

1. Pendúll

Þótt mörg bókasöfn séu fáanleg í Python fyrir DateTime finnst mér Pendulum auðvelt að nota við hvaða dagsetningaraðgerð sem er. Pendúll er uppáhalds bókaskápurinn minn til daglegra nota í vinnunni. Framlengir innbyggðu Python datetime eininguna, bætir við leiðandi API til að stjórna tímabeltum og framkvæma dagsetningar- og tímaaðgerðir eins og að bæta við tímabilum, draga frá dagsetningum og breyta á milli tímabelta. Veitir einfalt og leiðandi API til að forsníða dagsetningar og tíma.

Uppsetning
!pip install pendulum
dæmi
# import library

import pendulum
dt = pendulum.datetime(2023, 1, 31)
print(dt)
 
#local() creates datetime instance with local timezone

local = pendulum.local(2023, 1, 31)
print("Local Time:", local)
print("Local Time Zone:", local.timezone.name)

# Printing UTC time

utc = pendulum.now('UTC')
print("Current UTC time:", utc)
 
# Converting UTC timezone into Europe/Paris time

europe = utc.in_timezone('Europe/Paris')
print("Current time in Paris:", europe)
Output

2. ftfy

Hefur þú lent í því þegar erlenda tungumálið í gögnunum birtist ekki rétt? Þetta er kallað Mojibake. Mojibake er hugtak sem notað er til að lýsa brengluðum eða spænum texta sem verður til vegna kóðun eða umskráningarvandamála. Það gerist venjulega þegar texti skrifaður með einum stafakóðun er rangt afkóðaður með annarri kóðun. ftfy python bókasafnið mun hjálpa þér að laga Mojibake, sem er mjög gagnlegt í NLP notkunartilfellum.

Uppsetning
!pip setja upp ftfy
dæmi
print(ftfy.fix_text('Leiðréttu setninguna með “ftfyâ€\x9d.')) print(ftfy.fix_text('✓ Engin vandamál með texta')) print(ftfy.fix_text('à perturber la réflexion '))
Output

Til viðbótar við Mojibake mun ftfy laga slæmar kóðun, slæmar línuendingar og slæmar tilvitnanir. gæti skilið texta sem hefur verið afkóðaður sem ein af eftirfarandi kóðun:

  • Latin-1 (ISO-8859–1)
  • Windows-1252 (cp1252 - notað í Microsoft vörum)
  • Windows-1251 (cp1251 - rússneska útgáfan af cp1252)
  • Windows-1250 (cp1250 — austur-evrópska útgáfan af cp1252)
  • ISO-8859–2 (sem er ekki nákvæmlega það sama og Windows-1250)
  • MacRoman (notað á Mac OS 9 og eldri)
  • cp437 (notað í MS-DOS og sumum útgáfum af Windows skipanalínunni)

3. Teikning

Sketch er einstakur AI kóðunaraðstoðarmaður hannaður sérstaklega fyrir notendur sem vinna með pandasasafnið í Python. Það notar reiknirit fyrir vélanám til að skilja samhengi notendagagna og gefur viðeigandi kóðatillögur til að gera gagnavinnslu og greiningarverkefni auðveldari og skilvirkari. Sketch krefst þess ekki að notendur setji upp neinar viðbótarviðbætur í IDE þeirra, sem gerir það fljótlegt og auðvelt í notkun. Þetta getur dregið verulega úr þeim tíma og fyrirhöfn sem þarf til gagnatengdra verkefna og hjálpað notendum að skrifa betri og skilvirkari kóða.

Uppsetning
!pip uppsetningarskissu
dæmi

Við þurfum að bæta .sketch viðbót við pandas dataframe til að nota þetta bókasafn.

.skissu.spurðu

spyrja er eiginleiki Sketch sem gerir notendum kleift að spyrja spurninga um gögn sín á náttúrulegu sniði. Veitir textabundið svar við fyrirspurn notandans.

# Flytja inn bókasöfn flytur inn skissuinnflutning panda sem pdf # Að lesa gögnin (með því að nota Twitter gögn sem dæmi) df = pd.read_csv("tweets.csv") print(df)
# Að spyrja hvaða dálkar eru flokkategund df.sketch.ask("Hvaða dálkar eru flokkagerð?")
Output
# Til að finna lögun gagnarammans df.sketch.ask("Hver er lögun gagnarammans")

.skissa.hvernig

hvernig á að er eiginleiki sem veitir kóðablokk sem hægt er að nota sem upphafs- eða endapunkt fyrir ýmis gagnatengd verkefni. Við getum beðið um kóðabúta til að staðla gögnin þeirra, búa til nýja eiginleika, fylgjast með gögnum og jafnvel smíða líkön. Þetta mun spara tíma og gera það auðvelt að afrita og líma kóðann; þú þarft ekki að skrifa kóðann handvirkt frá grunni.

# Að biðja um að útvega kóða sem er klipptur til að sjá tilfinningarnar df.sketch.howto("Sjáðu tilfinningarnar")
Output

.skissa.beita

.apply aðgerðin það hjálpar til við að búa til nýja eiginleika, flokka reiti og framkvæma aðrar gagnameðferðir. Til að nota þennan eiginleika þurfum við að hafa OpenAI reikning og nota API lykilinn til að framkvæma verkefnin. Ég hef ekki prófað þennan eiginleika.

Ég naut þess að nota þetta bókasafn, sérstaklega Komið það virkar og mér finnst það gagnlegt.

4. síðukóði

„pgeocode“ er frábært bókasafn sem ég rakst á nýlega sem hefur verið ótrúlega gagnlegt fyrir staðbundna greiningarverkefnin mín. Til dæmis gerir það þér kleift að finna fjarlægðina milli tveggja póstnúmera og veitir landfræðilegar upplýsingar með því að taka land og póstnúmer sem inntak.

Uppsetning
!pip setja upp síðukóða
dæmi

Fáðu landfræðilegar upplýsingar fyrir tiltekin póstnúmer

# Leitar eftir landi "Indland" nomi = pgeocode.Nominatim('In') # Fá landfræðilegar upplýsingar með því að senda póstnúmerin nomi.query_postal_code(["620018", "620017", "620012"])
Output

„Pgeocode“ reiknar fjarlægðina milli tveggja póstnúmera með því að taka landið og póstnúmerin sem inntak. Niðurstaðan er gefin upp í kílómetrum.

# Finndu fjarlægð milli tveggja póstnúmera fjarlægð = pgeocode.GeoDistance('In') distance.query_postal_code("620018", "620012")
Output

5. rembg

rembg er annað gagnlegt bókasafn sem fjarlægir bakgrunninn auðveldlega af myndum.

Uppsetning
!pip install rembg
dæmi
# Flytja inn bókasöfn
frá rembg import fjarlægja import cv2 # slóð inntaksmyndar (skráin mín: image.jpeg) input_path = 'image.jpeg' # slóð til að vista úttaksmynd og vista sem output.jpeg output_path = 'output.jpeg' # Að lesa inntakið myndinntak = cv2.imread(input_path) # Fjarlægir bakgrunnsúttak = fjarlægja(inntak) # Vistar skrá cv2.imwrite(output_path, output)
Output

Þú gætir nú þegar kannast við sum af þessum bókasöfnum, en fyrir mig eru Sketch, Pendulum, pgeocode og ftfy ómissandi fyrir gagnaverkfræðivinnuna mína. Ég treysti mikið á þá fyrir verkefnin mín.

6. Manngerð

Humanize“ veitir einfalt, auðvelt að lesa strengjasnið fyrir tölur, dagsetningar og tíma. Markmið safnsins er að taka gögnin og gera þau notendavænni, til dæmis með því að breyta nokkrum sekúndum í læsilegri streng eins og „2 minutes ago“. Safnið getur sniðið gögn á ýmsan hátt, þar á meðal að forsníða tölur með kommum, umbreyta tímastimplum í hlutfallslega tíma og fleira.

Ég nota oft heiltölur og tímastimpla fyrir gagnaverkfræðiverkefnin mín.

Uppsetning
!pip install manngerð
Dæmi (heiltölur)
# Flytja inn bókasafnsinnflutning manngerð innflutnings dagsetningu tíma sem dt # Formatting númera með kommu a = humanize.intcomma(951009) # umbreytir tölum í orð b = humanize.intword(10046328394) #printing print(a) print(b)
Output
Dæmi (dagsetning og tími)
import humanize import datetime as dt a = humanize.naturaldate(dt.date(2012, 6, 5)) b = humanize.naturalday(dt.date(2012, 6, 5)) print(a) print(b)

Ercole Palmeri

Nýsköpunarfréttabréf
Ekki missa af mikilvægustu fréttunum um nýsköpun. Skráðu þig til að fá þau með tölvupósti.
Tags: python

Nýlegar greinar

Útgefendur og OpenAI skrifa undir samninga um að stjórna flæði upplýsinga sem unnið er með gervigreind

Síðasta mánudag tilkynnti Financial Times um samning við OpenAI. FT leyfir heimsklassa blaðamennsku…

30 Apríl 2024

Greiðslur á netinu: Hér er hvernig streymisþjónusta gerir þér kleift að borga að eilífu

Milljónir manna borga fyrir streymisþjónustu og greiða mánaðarlega áskriftargjöld. Það er almenn skoðun að þú…

29 Apríl 2024

Veeam býður upp á umfangsmesta stuðninginn fyrir lausnarhugbúnað, allt frá vernd til viðbragða og bata

Coveware frá Veeam mun halda áfram að veita viðbragðsþjónustu fyrir tölvukúgun. Coveware mun bjóða upp á réttar- og úrbótamöguleika ...

23 Apríl 2024

Græn og stafræn bylting: Hvernig forspárviðhald er að umbreyta olíu- og gasiðnaðinum

Forspárviðhald er að gjörbylta olíu- og gasgeiranum, með nýstárlegri og fyrirbyggjandi nálgun við verksmiðjustjórnun.…

22 Apríl 2024