Discretização intervalar
Operação que mapeia uma coluna de valores contínuos em uma coluna de buckets (blocos, faixas) definidos(as) pelo usuário.
Conectores
Entrada | Saída |
---|---|
Dados a serem tratados | Dados tratados e modelo |
Tarefa
Nome da Tarefa
Aba Execução
Parâmetro | Detalhe |
---|---|
Atributos | Uma ou mais colunas que contenham os valores a serem limpos, ou substituídos |
Nome do(s) novo(s) atributo(s) | Nome dos novos atributos criados na operação* |
Divisores (lista de valores com no mínimo de 3 elementos, usado para definir as faixas, separados por vírgula, -INF e INF são valores válidos)* | Lista de valores com no mínimo 3 elementos utilizados para definir as faixas, separados por vírgulas |
Como tratar dados inválidos? | Como devem ser tratados os dados inválidos |
OBS: *Se o nome dos novos atributos forem omitidos, o nome resultante terá um sufixo seguido pelo nome original.
Definições
Como tratar dados inválidos?
Existem as seguintes opções:
- Ignorar: Os dados inválidos são ignorados no mapeamento em buckets.
- Manter: Os dados inválidos serão mapeados em um bucket especial.
- Gerar erro: O programa lança uma exceção.
Exemplo de Utilização
Objetivo: determinar a quantidade de tripulantes sobreviventes do desastre do titanic por faixa etária, com o intervalo de 10 anos entre elas.
Base de Dados: Titanic
Adicione uma base de dados por meio da operação Ler de dados e selecione “Converter dados inválidos para NULO” na opção O que fazer em caso de dados inválidos.
Adicione a operação Limpar dados ausentes, selecione “age” como Atributo(s) e “Substituir com a média” como Tipo de limpeza.
Para tratar apenas dos sobreviventes do desastre, adicione a operação Filtrar por função. Utilizando o campo Filtro, selecione “Survived == 1” como Expressão, na opção Editar valor.
Esta operação é opcional, o objetivo dela é determinar o infinito inferior da coluna Age. Ao ordenar os valores, é possível visualizar um preview dos dados e identificar o menor valor. Desta forma temos o limite inferior dos nossos intervalos. Portanto, adicione a operação Ordenar. Abra o editor do campo Atributo(s), selecione “age” como Atributos e “Ascending” como Função.
Execute o fluxo:
Agora é possível visualizar o menor valor inferior.Adicione a operação Intervalar e selecione “Age” como Atributos. Preencha “Age_buckets” no campo Nome(s) do(s) novo(s) atributo(s), “0,10,20,30,40,50,60,INF” em Divisores e “Ignorar” em Como tratar dados inválidos?.
Execute e observe as categorias geradas após a execução da operação:
Como o limite superior é desconhecido, foi utilizado o valor INF e optado por ignorar quaisquer valores que não estejam mapeados.Adicione a operação Agrupar linhas por função para visualizar os buckets gerados. Escolha “Age_buckets” no campo Selecione o(s) atributos para agregação. Utilizando o campo Função de agregação, selecione “Age_buckets” como Atributo, “Count” como Função e “Mapped_Age” como Alias.
Para gerar o gráfico de barras é necessário ordenar os buckets, portanto, adicione a operação Ordenar novamente. Utilizando “Age_buckets” como Atributo e “Ascending” como Função, na opção Abrir o Editor.
Executando a operação, é possível visualizar cada um dos buckets gerados na operação anterior.
Adicione a operação Gráfico de barras. Selecione “Age_bucktes” no campo Atributo para o eixo X e “Mapped_age” no campo Atributos para o eixo Y. Preencha “Sobreviventes do desastre no Titanic” no campo Título, “Buckets de Idade (10 em 10 anos)” no campo Título para o eixo X e “Número de sobreviventes” no campo Título para o eixo Y.
Execute o fluxo e visualize o resultado.
Cada barra equivale ao um bucket de idade, composto pelo intervalo de 10 em 10 anos. Observamos que o intervalo de 20 a 30 anos apresenta o maior número de sobreviventes.
Dúvidas e/ou sugestões envie um e-mail para suporte@lemonade.org.br