Discretização intervalar

Operação que mapeia uma coluna de valores contínuos em uma coluna de buckets (blocos, faixas) definidos(as) pelo usuário.

Conectores

Entrada	Saída
Dados a serem tratados	Dados tratados e modelo

Tarefa

Nome da Tarefa

Aba Execução

Parâmetro	Detalhe
Atributos	Uma ou mais colunas que contenham os valores a serem limpos, ou substituídos
Nome do(s) novo(s) atributo(s)	Nome dos novos atributos criados na operação*
Divisores (lista de valores com no mínimo de 3 elementos, usado para definir as faixas, separados por vírgula, -INF e INF são valores válidos)*	Lista de valores com no mínimo 3 elementos utilizados para definir as faixas, separados por vírgulas
Como tratar dados inválidos?	Como devem ser tratados os dados inválidos

OBS: *Se o nome dos novos atributos forem omitidos, o nome resultante terá um sufixo seguido pelo nome original.

Aba Aparência

Aba Resultados

Definições

Como tratar dados inválidos?

Existem as seguintes opções:

Ignorar: Os dados inválidos são ignorados no mapeamento em buckets.
Manter: Os dados inválidos serão mapeados em um bucket especial.
Gerar erro: O programa lança uma exceção.

Exemplo de Utilização

Objetivo: determinar a quantidade de tripulantes sobreviventes do desastre do titanic por faixa etária, com o intervalo de 10 anos entre elas.
Base de Dados: Titanic

Fluxo de trabalho

Adicione uma base de dados por meio da operação Ler de dados e selecione “Converter dados inválidos para NULO” na opção O que fazer em caso de dados inválidos.
Adicione a operação Limpar dados ausentes, selecione “age” como Atributo(s) e “Substituir com a média” como Tipo de limpeza.
Para tratar apenas dos sobreviventes do desastre, adicione a operação Filtrar por função. Utilizando o campo Filtro, selecione “Survived == 1” como Expressão, na opção Editar valor.
Esta operação é opcional, o objetivo dela é determinar o infinito inferior da coluna Age. Ao ordenar os valores, é possível visualizar um preview dos dados e identificar o menor valor. Desta forma temos o limite inferior dos nossos intervalos. Portanto, adicione a operação Ordenar. Abra o editor do campo Atributo(s), selecione “age” como Atributos e “Ascending” como Função.

Execute o fluxo:
Agora é possível visualizar o menor valor inferior.
Adicione a operação Intervalar e selecione “Age” como Atributos. Preencha “Age_buckets” no campo Nome(s) do(s) novo(s) atributo(s), “0,10,20,30,40,50,60,INF” em Divisores e “Ignorar” em Como tratar dados inválidos?.

Execute e observe as categorias geradas após a execução da operação:
Como o limite superior é desconhecido, foi utilizado o valor INF e optado por ignorar quaisquer valores que não estejam mapeados.
Adicione a operação Agrupar linhas por função para visualizar os buckets gerados. Escolha “Age_buckets” no campo Selecione o(s) atributos para agregação. Utilizando o campo Função de agregação, selecione “Age_buckets” como Atributo, “Count” como Função e “Mapped_Age” como Alias.
Para gerar o gráfico de barras é necessário ordenar os buckets, portanto, adicione a operação Ordenar novamente. Utilizando “Age_buckets” como Atributo e “Ascending” como Função, na opção Abrir o Editor.

Executando a operação, é possível visualizar cada um dos buckets gerados na operação anterior.
Adicione a operação Gráfico de barras. Selecione “Age_bucktes” no campo Atributo para o eixo X e “Mapped_age” no campo Atributos para o eixo Y. Preencha “Sobreviventes do desastre no Titanic” no campo Título, “Buckets de Idade (10 em 10 anos)” no campo Título para o eixo X e “Número de sobreviventes” no campo Título para o eixo Y.
Execute o fluxo e visualize o resultado.

Cada barra equivale ao um bucket de idade, composto pelo intervalo de 10 em 10 anos. Observamos que o intervalo de 20 a 30 anos apresenta o maior número de sobreviventes.

Dúvidas e/ou sugestões envie um e-mail para suporte@lemonade.org.br

← Discretização - Por Quantis Amostragem - Divisão Percentual →