Neste artigo vemos algumas bibliotecas python pouco conhecidas, mas muito úteis:
Embora muitas bibliotecas estejam disponíveis em Python para DateTime, acho Pendulum fácil de usar em qualquer operação de data. Um pêndulo é minha estante favorita para meu uso diário no trabalho. Estende o módulo Python datetime integrado, adicionando uma API mais intuitiva para gerenciar fusos horários e executar operações de data e hora, como adicionar intervalos de tempo, subtrair datas e converter entre fusos horários. Fornece uma API simples e intuitiva para formatar datas e horas.
!pip install pendulum
# import library
import pendulum
dt = pendulum.datetime(2023, 1, 31)
print(dt)
#local() creates datetime instance with local timezone
local = pendulum.local(2023, 1, 31)
print("Local Time:", local)
print("Local Time Zone:", local.timezone.name)
# Printing UTC time
utc = pendulum.now('UTC')
print("Current UTC time:", utc)
# Converting UTC timezone into Europe/Paris time
europe = utc.in_timezone('Europe/Paris')
print("Current time in Paris:", europe)
Você já encontrou quando o idioma estrangeiro nos dados não aparece corretamente? Isso se chama Mojibake. Mojibake é um termo usado para descrever texto ilegível ou embaralhado que ocorre como resultado de problemas de codificação ou decodificação. Geralmente ocorre quando o texto escrito com uma codificação de caractere é decodificado incorretamente usando uma codificação diferente. A biblioteca python ftfy ajudará você a corrigir o Mojibake, o que é muito útil em casos de uso de NLP.
!pip instalar ftfy
print(ftfy.fix_text('Corrija a frase usando “ftfy€\x9d.')) print(ftfy.fix_text('✔ Sem problemas com o texto')) print(ftfy.fix_text('à perturber la réflexion '))
Além do Mojibake, o ffty corrige codificações incorretas, terminações de linha incorretas e citações incorretas. pode entender o texto que foi decodificado como uma das seguintes codificações:
O Sketch é um assistente de codificação AI exclusivo projetado especificamente para usuários que trabalham com a biblioteca pandas em Python. Ele usa algoritmos de aprendizado de máquina para entender o contexto dos dados do usuário e fornece sugestões de código relevantes para tornar as tarefas de manipulação e análise de dados mais fáceis e eficientes. O Sketch não exige que os usuários instalem nenhum plug-in adicional em seu IDE, tornando-o rápido e fácil de usar. Isso pode reduzir significativamente o tempo e o esforço necessários para tarefas relacionadas a dados e ajudar os usuários a escrever códigos melhores e mais eficientes.
!pip esboço de instalação
Precisamos adicionar uma extensão .sketch ao dataframe do pandas para usar esta biblioteca.
perguntar é um recurso do Sketch que permite aos usuários fazer perguntas sobre seus dados em um formato de linguagem natural. Fornece uma resposta baseada em texto para a consulta do usuário.
# Importando bibliotecas import sketch import pandas as pd # Lendo os dados (usando dados do twitter como exemplo) df = pd.read_csv("tweets.csv") print(df)
# Perguntando quais colunas são do tipo categoria df.sketch.ask("Quais colunas são do tipo categoria?")
# Para encontrar a forma do dataframe df.sketch.ask("Qual é a forma do dataframe")
.esboço.como fazer
howto é um recurso que fornece um bloco de código que pode ser usado como ponto inicial ou final para várias tarefas relacionadas a dados. Podemos solicitar trechos de código para normalizar seus dados, criar novos recursos, rastrear dados e até construir modelos. Isso economizará tempo e facilitará a cópia e a colagem do código; você não precisa escrever o código manualmente do zero.
# Pedindo para fornecer um recorte de código para visualizar as emoções df.sketch.howto("Visualizar as emoções")
.sketch.apply
A função .apply ele ajuda a gerar novos recursos, analisar campos e executar outras manipulações de dados. Para usar esse recurso, precisamos ter uma conta OpenAI e usar a chave API para executar as tarefas. Eu não tentei esse recurso.
Gostei de usar esta biblioteca, especialmente como funciona e acho útil.
“pgeocode” é uma biblioteca excelente que encontrei recentemente e que tem sido incrivelmente útil para meus projetos de análise espacial. Por exemplo, ele permite que você encontre a distância entre dois códigos postais e fornece informações geográficas usando um país e um código postal como entrada.
!pip instalar pgeocódigo
Obtenha informações geográficas para códigos postais específicos
# Verificando o país "Índia" nomi = pgeocode.Nominatim('In') # Obtendo informações geográficas passando os códigos postais nomi.query_postal_code(["620018", "620017", "620012"])
“pgeocode” calcula a distância entre dois códigos postais tomando como entrada o país e os códigos postais. O resultado é expresso em quilômetros.
# Encontrando a distância entre dois códigos postais distance = pgeocode.GeoDistance('In') distance.query_postal_code("620018", "620012")
rembg é outra biblioteca útil que remove facilmente o fundo das imagens.
!pip instalar rembg
# Importando bibliotecas
from rembg import remove import cv2 # caminho da imagem de entrada (meu arquivo: image.jpeg) input_path = 'image.jpeg' # caminho para salvar a imagem de saída e salvar como output.jpeg output_path = 'output.jpeg' # Lendo a entrada image input = cv2.imread(input_path) # Removendo background output = remove(input) # Salvando arquivo cv2.imwrite(output_path, output)
Você já deve estar familiarizado com algumas dessas bibliotecas, mas para mim, Sketch, Pendulum, pgeocode e ffty são indispensáveis para o meu trabalho de engenharia de dados. Eu confio muito neles para meus projetos.
Humanize” fornece formatação de string simples e fácil de ler para números, datas e horas. O objetivo da biblioteca é pegar os dados e torná-los mais fáceis de usar, por exemplo, convertendo um número de segundos em uma string mais legível como "2 minutos atrás". A biblioteca pode formatar dados de várias maneiras, incluindo formatação de números com vírgulas, conversão de carimbos de data/hora em horas relativas e muito mais.
Costumo usar números inteiros e timestamps para meus projetos de engenharia de dados.
!pip instalar humanizar
# Importando biblioteca import humanize import datetime as dt # Formatando números com vírgula a = humanize.intcomma(951009) # convertendo números em palavras b = humanize.intword(10046328394) #printing print(a) print(b)
import humanize import datetime as dt a = humanize.naturaldate(dt.date(2012, 6, 5)) b = humanize.naturalday(dt.date(2012, 6, 5)) print(a) print(b)
Ercole Palmeri
Uma operação de oftalmoplastia usando o visualizador comercial Apple Vision Pro foi realizada na Policlínica Catania…
O desenvolvimento de habilidades motoras finas por meio da coloração prepara as crianças para habilidades mais complexas, como escrever. Colorir…
O setor naval é uma verdadeira potência económica global, que navegou para um mercado de 150 mil milhões...
Na segunda-feira passada, o Financial Times anunciou um acordo com a OpenAI. O FT licencia seu jornalismo de classe mundial…