O Pandas é uma das bibliotecas mais populares para análise de dados em Python. Ele permite manipular e analisar grandes volumes de dados de forma eficiente. Neste artigo, vamos explorar alguns comandos essenciais do Pandas com exemplos práticos.
Criando um DataFrame
Um DataFrame
é uma estrutura de dados tabular similar a uma planilha do Excel. Vamos criar um DataFrame contendo informações de nome, idade e cidade:
import pandas as pd
# Criando um DataFrame com nome, idade e cidade
df = pd.DataFrame(
{
"name": ["Airton", "Maira", "João", "Santos"],
"idade": [32, 40, 50, 80],
"cidade": ["New York", "São Paulo", "João Pessoa", "Rio de Janeiro"],
}
)
Verificando os Tipos de Dados
Podemos verificar os tipos de dados de cada coluna do DataFrame usando dtypes
:
print(df.dtypes)
Saída:
name object
idade int64
cidade object
dtype: object
Exibindo o DataFrame
Podemos visualizar o DataFrame de forma completa usando:
print(df)
Saída:
name idade cidade
0 Airton 32 New York
1 Maira 40 São Paulo
2 João 50 João Pessoa
3 Santos 80 Rio de Janeiro
Trabalhando com Colunas (Series)
Cada coluna do DataFrame é chamada de Series. Podemos acessar os dados de uma coluna específica da seguinte maneira:
Filtrar por Nome
Para filtrar os dados onde o nome seja “Airton”:
print(df[df["name"] == "Airton"])
Saída:
name idade cidade
0 Airton 32 New York
Selecionando Colunas Específicas
Selecionar apenas a coluna name
:
print(df["name"])
Saída:
0 Airton
1 Maira
2 João
3 Santos
Name: name, dtype: object
Selecionar apenas a coluna idade
:
print(df["idade"])
Saída:
0 32
1 40
2 50
3 80
Name: idade, dtype: int64
Selecionar apenas a coluna cidade
:
print(df["cidade"])
Saída:
0 New York
1 São Paulo
2 João Pessoa
3 Rio de Janeiro
Name: cidade, dtype: object
Obtendo Estatísticas dos Dados
Podemos obter algumas estatísticas básicas sobre os dados numéricos usando describe()
:
df.describe()
Saída:
idade
count 4.000000
mean 50.500000
std 20.045779
min 32.000000
25% 38.000000
50% 45.000000
75% 57.500000
max 80.000000
Obtendo o Valor Mínimo e Máximo
Obter a maior idade:
print(df["idade"].max())
Saída:
80
Obter a menor idade:
print(df["idade"].min())
Saída:
32
Filtrando Dados
Podemos filtrar os dados para mostrar apenas as pessoas com idade maior que 35 anos:
print(df[df["idade"] > 35])
Saída:
name idade cidade
1 Maira 40 São Paulo
2 João 50 João Pessoa
3 Santos 80 Rio de Janeiro
Conclusão
O Pandas oferece uma maneira fácil e eficiente de manipular e analisar dados em Python. Neste artigo, cobrimos alguns dos principais comandos para criar, acessar e filtrar dados em um DataFrame. Com esses conceitos básicos, você já pode começar a explorar e analisar seus próprios conjuntos de dados de forma eficiente!