Pandas: Converta dados de forma simples

Converta dados usando Pandas uma das bibliotecas mais utilizada para transformação, manipulação e análise de dados.

Na era da informação, lidar com dados se tornou imprescindível para muitas áreas, desde pequenas a grandes empresas estão utilizando alguma estratégia de inteligência utilizando dados, é um mercado que cresceu muito e cada dia demanda mais profissionais.

Uma das ferramentas muito utilizadas nesse meio é a linguagem de programação Python, pois nela possui diversas ferramentas já consolidadas para tratamento e análise de dados, uma das mais utilizadas é a biblioteca Pandas.

O que é Pandas

Pandas é uma biblioteca de software em Python que fornece estruturas de dados de alto desempenho, e fácil de usar, além de fornecer ferramentas para análise dedos.

Essa biblioteca é amplamente utilizada por profissionais que trabalham especificamente com dados, também é amplamente utilizada para projetos de aprendizado de maquina.

Configurando o ambiente

Para conseguir implementar os exemplos a seguir, utilizamos de uma das bibliotecas mais utilizadas quando falamos em analise e tratamento de dados dentro do Python, trata-se da biblioteca Pandas.

Ela facilitar o trabalho com dados tabulares como planilhas e banco de dados, além de ter recursos bem interessantes quando precisamos exportar as informações analisadas.

Instalando a biblioteca

Para fazer a instalação dessa biblioteca é bem simples, basta executar a linha de comando abaixo, lembrando que você já deve ter o ambiente de programação em Python devidamente instalado em sua maquina.

pip install pandas openpyxl
Terminal

Ler arquivo CSV e exportar para Excel

Essa implementação é relativamente simples utilizando Pandas, nesse exemplo estamos apenas importando os dados e gravando o mesmo em arquivo, sem fazer nenhuma manipulação, mas entre essas duas operações você pode adicionar qualquer manipulação nesses dados.

import pandas as pd

# Ler o arquivo CSV
df = pd.read_csv('seuarquivo.csv')

# Implementação de tratamento ou anlise de dados

# Exportar para um arquivo Excel
df.to_excel('saida.xlsx', index=False, engine='openpyxl')
Python

Explicando a implementação

Nesse exemplo seguimos os seguintes passos:

Importamos a biblioteca pandas e usamos a função read_csv, para ler o arquivo CSV especificado com o caminho seuarquivo.csv, o resultado dessa leitura estamos armazenando em um DataFrame do Pandas, variável df.

Após ter essas informações em memória dentro da variável df, vamos fazer a exportação desses dados utilizando a função to_excel da biblioteca Pandas, para isso precisamos passar alguns parâmetros para a função, o primeiro deles é o nome do arquivo de saída que no nosso caso definimos como ‘saida.xlsx’, o segundo parâmetro index=False, vai evitar que o índice do DataFrame seja incluído no arquivo de saída, e por fim o último parametro engine=openpyxl, especifica qual biblioteca vamos utilizar para criar o arquivo Excel.

Para personalizar essa implementação basta substituir os caminhos dos arquivo de entrada e saída no código, e claro colocar algum tratamento ou análise dos dados caso seja necessário.

Ler arquivo CSV e exportar para JSON

Essa implementação é bem recorrente no mundo de análise ou tratamento de dados, e também é bem simples utilizando a biblioteca Pandas. Veja o exemplo:

import pandas as pd

# Ler o arquivo CSV
df = pd.read_csv('seuarquivo.csv')

# Analise ou tratamento de dados

# Converter para JSON e salvar em um arquivo
df.to_json('saida.json', orient='records', lines=True)
Python

Explicando a implementação

Nesse exemplo seguimos a seguinte implementação

  • Importamos a biblioteca pandas e atribuímos o aliás pd.
  • Fizemos o uso da função read_csv para ler o arquivo em CSV, passando o caminho do arquivo e armazenando o resultado em um DataFrame do pandas nossa variável df.
  • Utilizamos a função to_json da biblioteca para gravar as informações contidas dentro do DataFrame em formato JSON, perceba que além do caminho de saída do arquivo também passamos mais dois argumentos: orient=’records’ que orienta a que os registros contidos dentro do DataFrame seja convertidos em objetos JSON e lines=true, que indica que cada registro deve ocupar uma linha do arquivo.

Veja outros artigos sobre Python.

Conclusão

Pandas é uma biblioteca extremamente versátil e poderosa, quando trabalhamos com análise e tratamento de dados, é um conhecimento indispensável para profissionais dessa área. O uso do Python é unanimidade nessa área além de ser compátivel com diversas ferramentas para analise e tratamento de dados presentes na maioria das clouds.

Mauricio Lima
Mauricio Lima

Bacharel em Ciência da Computação, profissional dedicado ao desenvolvimento de software e entusiasta da tecnologia.

Artigos: 65