🐼Biblioteca Pandas - Parte 1

O Pandas é uma biblioteca poderosa e flexível para a manipulação de dados em Python. É amplamente utilizada por analistas de dados, cientistas de dados e profissionais de estatística para trabalhar com dados estruturados, como tabelas, e facilita a análise, limpeza e visualização dos dados. Este capítulo abordará as funcionalidades principais do Pandas, incluindo a criação de DataFrames, operações de manipulação, análise e visualização.
1. O Que é Pandas?
Pandas é uma biblioteca de código aberto que fornece estruturas de dados de alto desempenho e ferramentas de análise para a linguagem Python. Sua principal estrutura de dados, o DataFrame, é uma tabela bidimensional, semelhante a uma planilha do Excel ou a uma tabela SQL, que pode armazenar dados de diferentes tipos (números, strings, datas, etc.).
2. Instalando o Pandas
Para começar a usar o Pandas, você precisará instalá-lo. Se você ainda não o tem instalado, pode fazê-lo usando o pip
:
pip install pandas
3. Importando o Pandas
Após a instalação, você pode importar a biblioteca em seu script Python:
import pandas as pd
4. Estruturas de Dados do Pandas
O Pandas fornece duas principais estruturas de dados:
4.1. Series
Uma Series
é uma estrutura unidimensional que pode armazenar dados de qualquer tipo (inteiros, strings, números de ponto flutuante, objetos Python, etc.). Cada valor em uma Series
tem um rótulo associado, conhecido como índice.
Exemplo de uso:
import pandas as pd
# Criando uma Series
s = pd.Series([1, 2, 3, 4, 5], index=['a', 'b', 'c', 'd', 'e'])
print(s)
4.2. DataFrame
Um DataFrame
é uma estrutura bidimensional, ou seja, pode ser considerado como uma tabela com linhas e colunas. Cada coluna pode ter um tipo de dado diferente, como inteiros, strings e números de ponto flutuante.
Exemplo de uso:
import pandas as pd
# Criando um DataFrame
data = {
'Nome': ['Alice', 'Bob', 'Charlie'],
'Idade': [25, 30, 35],
'Cidade': ['São Paulo', 'Rio de Janeiro', 'Belo Horizonte']
}
df = pd.DataFrame(data)
print(df)
5. Operações Básicas com DataFrames
5.1. Visualizando Dados
Você pode visualizar as primeiras ou últimas linhas de um DataFrame usando os métodos head()
e tail()
:
# Visualizar as 2 primeiras linhas
print(df.head(2))
# Visualizar as 2 últimas linhas
print(df.tail(2))
5.2. Acessando Dados
Você pode acessar dados em um DataFrame usando o índice de linhas e colunas:
# Acessar uma coluna
print(df['Nome'])
# Acessar uma linha específica
print(df.loc[0]) # Acessar a primeira linha
# Acessar um valor específico
print(df.at[0, 'Nome']) # Acessar o nome na primeira linha
5.3. Filtrando Dados
Você pode filtrar dados com base em condições:
# Filtrar pessoas com idade maior que 28
filtro = df[df['Idade'] > 28]
print(filtro)
5.4. Adicionando e Removendo Colunas
Para adicionar uma nova coluna, basta atribuí-la ao DataFrame:
# Adicionar uma nova coluna
df['Salário'] = [5000, 7000, 6000]
print(df)
Para remover uma coluna, utilize o método drop()
:
# Remover a coluna 'Salário'
df = df.drop(columns=['Salário'])
print(df)
6. Manipulação de Dados
6.1. Ordenação
Você pode ordenar um DataFrame com base em uma coluna específica:
# Ordenar por idade
df = df.sort_values(by='Idade')
print(df)
6.2. Agrupamento
O Pandas permite agrupar dados usando o método groupby()
:
# Agrupar por cidade e calcular a média de idade
media_idade = df.groupby('Cidade')['Idade'].mean()
print(media_idade)
6.3. Aplicando Funções
Você pode aplicar funções a colunas ou linhas usando o método apply()
:
# Aplicar uma função para dobrar a idade
df['Idade_dobrada'] = df['Idade'].apply(lambda x: x * 2)
print(df)
7. Análise de Dados
7.1. Estatísticas Descritivas
O Pandas fornece métodos para calcular estatísticas descritivas de um DataFrame:
# Estatísticas descritivas
print(df.describe())
7.2. Tratamento de Dados Faltantes
O Pandas possui várias funções para lidar com dados faltantes:
# Remover linhas com dados faltantes
df = df.dropna()
# Preencher dados faltantes com um valor específico
df['Idade'].fillna(value=30, inplace=True)
8. Exportando e Importando Dados
O Pandas permite que você importe e exporte dados facilmente de e para diferentes formatos, como CSV, Excel e SQL.
8.1. Importando Dados
# Importar dados de um arquivo CSV
df = pd.read_csv('dados.csv')
8.2. Exportando Dados
# Exportar dados para um arquivo CSV
df.to_csv('dados_exportados.csv', index=False)
9. Conclusão
O Pandas é uma ferramenta essencial para quem trabalha com análise de dados em Python. Com suas estruturas de dados flexíveis e poderosas, você pode facilmente manipular, analisar e visualizar dados de maneira eficiente. Pratique os exemplos apresentados neste capítulo e explore a documentação do Pandas para aprofundar seu conhecimento e habilidades na manipulação de dados.
Esse capítulo fornece uma visão geral completa sobre o Pandas, com exemplos práticos e explicações claras. Se precisar de mais detalhes ou de outros tópicos, é só avisar!
Atualizado