Во оваа статија гледаме неколку малку познати, но многу корисни библиотеки за питон:
Иако многу библиотеки се достапни во Пајтон за DateTime, сметам дека Pendulum е лесен за употреба при секоја операција со датум. Нишалото е мојата омилена библиотека за моја секојдневна употреба на работа. Го проширува вградениот Python модул за датум време, додавајќи поинтуитивен API за управување со временски зони и извршување операции со датум и време како што се додавање временски интервали, одземање датуми и конвертирање помеѓу временски зони. Обезбедува едноставен и интуитивен API за форматирање датуми и времиња.
!pip install pendulum
# import library
import pendulum
dt = pendulum.datetime(2023, 1, 31)
print(dt)
#local() creates datetime instance with local timezone
local = pendulum.local(2023, 1, 31)
print("Local Time:", local)
print("Local Time Zone:", local.timezone.name)
# Printing UTC time
utc = pendulum.now('UTC')
print("Current UTC time:", utc)
# Converting UTC timezone into Europe/Paris time
europe = utc.in_timezone('Europe/Paris')
print("Current time in Paris:", europe)
Дали сте сретнале кога странскиот јазик во податоците не се појавува правилно? Ова се нарекува Моџибаке. Mojibake е термин кој се користи за опишување на погрешен или измешан текст што се јавува како резултат на проблеми со кодирање или декодирање. Обично се случува кога текстот напишан со кодирање со еден знак е неправилно декодиран со користење на различно кодирање. Библиотеката ftfy python ќе ви помогне да го поправите Mojibake, што е многу корисно во случаите на употреба на NLP.
!pip install ftfy
print(ftfy.fix_text('Поправи ја реченицата користејќи “ftfyâ€\x9d.')) print(ftfy.fix_text('✓ Нема проблеми со текстот')) print(ftfy.fix_text('à perturber la réflexion '))
Покрај Mojibake, ftfy ќе поправа лоши шифрирања, лоши завршетоци на линии и лоши цитати. може да разбере текст кој е декодиран како едно од следниве шифрирања:
Sketch е уникатен асистент за кодирање со вештачка интелигенција дизајниран специјално за корисници кои работат со библиотеката за панди во Python. Користи алгоритми за машинско учење за да го разбере контекстот на корисничките податоци и дава релевантни предлози за код за да ги олесни и поефикасни задачите за манипулација и анализа на податоци. Sketch не бара од корисниците да инсталираат дополнителни приклучоци во нивниот IDE, што го прави брз и лесен за користење. Ова може значително да го намали времето и напорот потребни за задачи поврзани со податоци и да им помогне на корисниците да пишуваат подобар, поефикасен код.
!pip инсталација скица
Треба да додадеме наставка .sketch на податочната рамка на пандите за да ја користиме оваа библиотека.
прашајте е карактеристика на Sketch која им овозможува на корисниците да поставуваат прашања за нивните податоци во формат на природен јазик. Обезбедува одговор базиран на текст на барањето на корисникот.
# Увезени библиотеки увезуваат скица за увоз на панди како pd # Читање на податоците (користејќи ги податоците на Твитер како пример) df = pd.read_csv("tweets.csv") print(df)
# Прашување кои колони се од типот категорија df.sketch.ask („Кои колони се тип на категорија?“)
# За да ја пронајдете формата на податочната рамка df.sketch.ask („Каква е формата на податочната рамка“)
.скица.како да
како да е карактеристика која обезбедува блок од код што може да се користи како почетна или крајна точка за различни задачи поврзани со податоци. Можеме да побараме фрагменти од код за да ги нормализираме нивните податоци, да создаваме нови функции, да следиме податоци, па дури и да градиме модели. Ова ќе заштеди време и ќе го олесни копирањето и залепувањето на кодот; не мора да го пишувате кодот рачно од нула.
# Барање да се обезбеди отсечен код за визуелизирање на емоциите df.sketch.howto („Визуелизирајте ги емоциите“)
.скица.примени
Функцијата .примени помага да се генерираат нови функции, да се анализираат полињата и да се вршат други манипулации со податоци. За да ја користиме оваа функција, треба да имаме OpenAI сметка и да го користиме копчето API за извршување на задачите. Не сум ја пробал оваа функција.
Особено уживав во користењето на оваа библиотека како работи, и сметам дека е корисно.
„pgeocode“ е одлична библиотека на која неодамна налетав и која беше неверојатно корисна за моите проекти за просторна анализа. На пример, ви овозможува да го пронајдете растојанието помеѓу два поштенски кодови и обезбедува географски информации со земање земја и поштенски код како влез.
!pip инсталирај pgeocode
Добијте географски информации за одредени поштенски кодови
# Се проверува за земја „Индија“ nomi = pgeocode.Nominatim('Во') # Добивање гео-информации со предавање на поштенските кодови nomi.query_postal_code(["620018", "620017", "620012"])
„pgeocode“ го пресметува растојанието помеѓу два поштенски кодови земајќи ја земјата и поштенските кодови како влез. Резултатот е изразен во километри.
# Наоѓање растојание помеѓу два поштенски кодови растојание = pgeocode.GeoDistance('In') distance.query_postal_code("620018", "620012")
rembg е уште една корисна библиотека која лесно ја отстранува позадината од сликите.
!pip инсталирај rembg
# Увоз на библиотеки
од увоз на rembg отстрани увоз cv2 # патека на влезна слика (моја датотека: image.jpeg) input_path = 'image.jpeg' # патека за зачувување на излезна слика и зачувување како излез.jpeg output_path = 'output.jpeg' # Читање на влезот внесување слика = cv2.imread(влезен_пат) # Отстранување на излезот во заднина = отстранете(влез) # Зачувување на датотеката cv2.imwrite(излезна_пат, излез)
Можеби веќе сте запознаени со некои од овие библиотеки, но за мене, Sketch, Pendulum, pgeocode и ftfy се неопходни за мојата работа за инженерство на податоци. Многу се потпирам на нив за моите проекти.
Humanize“ обезбедува едноставно, лесно читливо форматирање низа за броеви, датуми и времиња. Целта на библиотеката е да ги земе податоците и да ги направи попријателски за корисниците, на пример со конвертирање на одреден број секунди во почитлива низа како „пред 2 минути“. Библиотеката може да ги форматира податоците на различни начини, вклучително и форматирање на броеви со запирки, конвертирање на временски печати во релативни времиња и многу повеќе.
Често користам цели броеви и временски ознаки за моите проекти за инженерство на податоци.
!pip install humanize
# Увоз на библиотека хуманизирај увезување датум на време како dt # Форматирање на броеви со запирка a = humanize.intcomma(951009) # претворање на броеви во зборови b = humanize.intword(10046328394) #печатење print(a) print(b)
увоз хуманизирање увоз датум време како dt a = humanize.naturaldate(dt.date(2012, 6, 5)) b = humanize.naturalday(dt.date(2012, 6, 5)) print(a) print(b)
Ercole Palmeri
Coveware од Veeam ќе продолжи да обезбедува услуги за одговор на инциденти на сајбер изнуда. Coveware ќе понуди форензика и способности за санација…
Предвидливото одржување го револуционизира секторот за нафта и гас, со иновативен и проактивен пристап кон управувањето со постројките.…
Обединетото Кралство CMA издаде предупредување за однесувањето на Big Tech на пазарот на вештачка интелигенција. Таму…
Уредбата за „Case Green“, формулирана од Европската унија за подобрување на енергетската ефикасност на зградите, го заврши својот законодавен процес со…