bens

Bibliotecas Python incríveis, mas pouco conhecidas

O programador Python está sempre em busca de novas bibliotecas, que possam melhorar o trabalho em projetos de engenharia de dados e inteligência de negócios.

Neste artigo vemos algumas bibliotecas python pouco conhecidas, mas muito úteis:

1. Pêndulo

Embora muitas bibliotecas estejam disponíveis em Python para DateTime, acho Pendulum fácil de usar em qualquer operação de data. Um pêndulo é minha estante favorita para meu uso diário no trabalho. Estende o módulo Python datetime integrado, adicionando uma API mais intuitiva para gerenciar fusos horários e executar operações de data e hora, como adicionar intervalos de tempo, subtrair datas e converter entre fusos horários. Fornece uma API simples e intuitiva para formatar datas e horas.

Instalação
!pip install pendulum
Exemplo
# import library

import pendulum
dt = pendulum.datetime(2023, 1, 31)
print(dt)
 
#local() creates datetime instance with local timezone

local = pendulum.local(2023, 1, 31)
print("Local Time:", local)
print("Local Time Zone:", local.timezone.name)

# Printing UTC time

utc = pendulum.now('UTC')
print("Current UTC time:", utc)
 
# Converting UTC timezone into Europe/Paris time

europe = utc.in_timezone('Europe/Paris')
print("Current time in Paris:", europe)
saída

2. Fofinho

Você já encontrou quando o idioma estrangeiro nos dados não aparece corretamente? Isso se chama Mojibake. Mojibake é um termo usado para descrever texto ilegível ou embaralhado que ocorre como resultado de problemas de codificação ou decodificação. Geralmente ocorre quando o texto escrito com uma codificação de caractere é decodificado incorretamente usando uma codificação diferente. A biblioteca python ftfy ajudará você a corrigir o Mojibake, o que é muito útil em casos de uso de NLP.

Instalação
!pip instalar ftfy
Exemplo
print(ftfy.fix_text('Corrija a frase usando “ftfy€\x9d.')) print(ftfy.fix_text('✔ Sem problemas com o texto')) print(ftfy.fix_text('à perturber la réflexion '))
saída

Além do Mojibake, o ffty corrige codificações incorretas, terminações de linha incorretas e citações incorretas. pode entender o texto que foi decodificado como uma das seguintes codificações:

  • Latim-1 (ISO-8859–1)
  • Windows-1252 (cp1252 — usado em produtos Microsoft)
  • Windows-1251 (cp1251 — a versão russa do cp1252)
  • Windows-1250 (cp1250 — a versão da Europa Oriental de cp1252)
  • ISO-8859–2 (que não é exatamente igual ao Windows-1250)
  • MacRoman (usado no Mac OS 9 e anteriores)
  • cp437 (usado no MS-DOS e algumas versões do prompt de comando do Windows)

3 Esboço

O Sketch é um assistente de codificação AI exclusivo projetado especificamente para usuários que trabalham com a biblioteca pandas em Python. Ele usa algoritmos de aprendizado de máquina para entender o contexto dos dados do usuário e fornece sugestões de código relevantes para tornar as tarefas de manipulação e análise de dados mais fáceis e eficientes. O Sketch não exige que os usuários instalem nenhum plug-in adicional em seu IDE, tornando-o rápido e fácil de usar. Isso pode reduzir significativamente o tempo e o esforço necessários para tarefas relacionadas a dados e ajudar os usuários a escrever códigos melhores e mais eficientes.

Instalação
!pip esboço de instalação
Exemplo

Precisamos adicionar uma extensão .sketch ao dataframe do pandas para usar esta biblioteca.

.esboço.ask

perguntar é um recurso do Sketch que permite aos usuários fazer perguntas sobre seus dados em um formato de linguagem natural. Fornece uma resposta baseada em texto para a consulta do usuário.

# Importando bibliotecas import sketch import pandas as pd # Lendo os dados (usando dados do twitter como exemplo) df = pd.read_csv("tweets.csv") print(df)
# Perguntando quais colunas são do tipo categoria df.sketch.ask("Quais colunas são do tipo categoria?")
saída
# Para encontrar a forma do dataframe df.sketch.ask("Qual é a forma do dataframe")

.esboço.como fazer

howto é um recurso que fornece um bloco de código que pode ser usado como ponto inicial ou final para várias tarefas relacionadas a dados. Podemos solicitar trechos de código para normalizar seus dados, criar novos recursos, rastrear dados e até construir modelos. Isso economizará tempo e facilitará a cópia e a colagem do código; você não precisa escrever o código manualmente do zero.

# Pedindo para fornecer um recorte de código para visualizar as emoções df.sketch.howto("Visualizar as emoções")
saída

.sketch.apply

A função .apply ele ajuda a gerar novos recursos, analisar campos e executar outras manipulações de dados. Para usar esse recurso, precisamos ter uma conta OpenAI e usar a chave API para executar as tarefas. Eu não tentei esse recurso.

Gostei de usar esta biblioteca, especialmente como funciona e acho útil.

4. pgeocódigo

“pgeocode” é uma biblioteca excelente que encontrei recentemente e que tem sido incrivelmente útil para meus projetos de análise espacial. Por exemplo, ele permite que você encontre a distância entre dois códigos postais e fornece informações geográficas usando um país e um código postal como entrada.

Instalação
!pip instalar pgeocódigo
Exemplo

Obtenha informações geográficas para códigos postais específicos

# Verificando o país "Índia" nomi = pgeocode.Nominatim('In') # Obtendo informações geográficas passando os códigos postais nomi.query_postal_code(["620018", "620017", "620012"])
saída

“pgeocode” calcula a distância entre dois códigos postais tomando como entrada o país e os códigos postais. O resultado é expresso em quilômetros.

# Encontrando a distância entre dois códigos postais distance = pgeocode.GeoDistance('In') distance.query_postal_code("620018", "620012")
saída

5. rembg

rembg é outra biblioteca útil que remove facilmente o fundo das imagens.

Instalação
!pip instalar rembg
Exemplo
# Importando bibliotecas
from rembg import remove import cv2 # caminho da imagem de entrada (meu arquivo: image.jpeg) input_path = 'image.jpeg' # caminho para salvar a imagem de saída e salvar como output.jpeg output_path = 'output.jpeg' # Lendo a entrada image input = cv2.imread(input_path) # Removendo background output = remove(input) # Salvando arquivo cv2.imwrite(output_path, output)
saída

Você já deve estar familiarizado com algumas dessas bibliotecas, mas para mim, Sketch, Pendulum, pgeocode e ffty são indispensáveis ​​para o meu trabalho de engenharia de dados. Eu confio muito neles para meus projetos.

6. Humanizar

Humanize” fornece formatação de string simples e fácil de ler para números, datas e horas. O objetivo da biblioteca é pegar os dados e torná-los mais fáceis de usar, por exemplo, convertendo um número de segundos em uma string mais legível como "2 minutos atrás". A biblioteca pode formatar dados de várias maneiras, incluindo formatação de números com vírgulas, conversão de carimbos de data/hora em horas relativas e muito mais.

Costumo usar números inteiros e timestamps para meus projetos de engenharia de dados.

Instalação
!pip instalar humanizar
Exemplo (Inteiros)
# Importando biblioteca import humanize import datetime as dt # Formatando números com vírgula a = humanize.intcomma(951009) # convertendo números em palavras b = humanize.intword(10046328394) #printing print(a) print(b)
saída
Exemplo (data e hora)
import humanize import datetime as dt a = humanize.naturaldate(dt.date(2012, 6, 5)) b = humanize.naturalday(dt.date(2012, 6, 5)) print(a) print(b)

Ercole Palmeri

Boletim de inovação
Não perca as notícias mais importantes sobre inovação. Cadastre-se para recebê-los por e-mail.
Tags: python

Artigos recentes

Intervenção inovadora em Realidade Aumentada, com visualizador Apple na Policlínica de Catânia

Uma operação de oftalmoplastia usando o visualizador comercial Apple Vision Pro foi realizada na Policlínica Catania…

3 Maio 2024

Os benefícios das páginas para colorir para crianças - um mundo de magia para todas as idades

O desenvolvimento de habilidades motoras finas por meio da coloração prepara as crianças para habilidades mais complexas, como escrever. Colorir…

2 Maio 2024

O futuro está aqui: como a indústria naval está revolucionando a economia global

O setor naval é uma verdadeira potência económica global, que navegou para um mercado de 150 mil milhões...

1 Maio 2024

Editoras e OpenAI assinam acordos para regular o fluxo de informações processadas por Inteligência Artificial

Na segunda-feira passada, o Financial Times anunciou um acordo com a OpenAI. O FT licencia seu jornalismo de classe mundial…

Abril 30 2024