Por Quantis

Operação que mapeia uma coluna de valores (features) contínuos em uma coluna de recursos (features) categóricos.

Conectores

Entrada Saída
Dados a serem tratados Dados tratados e modelo

Tarefa

Nome da Tarefa

Aba Execução

Parâmetro Detalhe
Atributos Uma ou mais colunas que contenham os valores a serem limpos, ou substituídos
Nome do(s) novo(s) atributo(s) Nome dos novos atributos criados na operação*
Número de categorias (buckets) Número de categorias a serem criadas
Erro relativo (entre [0.0 1.0]) Precisão do alvo relativo para o algoritmo quantil utilizado para gerar as categorias

OBS:: *Se o nome dos novos atributos forem omitidos, o nome resultante terá um sufixo seguido pelo nome original.

Aba Aparência

Aba Resultados

Exemplo de Utilização

Objetivo: determinar a quantidade de tripulantes sobreviventes do desastre do titanic por faixa etária, com o intervalo de 10 anos entre elas.
Base de Dados: Titanic

Fluxo de trabalho

  1. Adicione uma base de dados por meio da operação Ler dados e selecione “Converter dados inválidos para NULO” na opção O que fazer em caso de dados inválidos.
    Operação Ler dados

  2. Adicione a operação Tratar dados ausentes, selecione “age” como Atributo(s) e “Substituir com a média” como Tipo de limpeza.
    Operação Tratar dados ausentes

  3. Para tratar apenas dos sobreviventes do desastre, adicione a operação Filtrar por função. Utilizando o campo Filtro, selecione “Survived == 1” como Expressão, na opção Editar valor.
    Operação Filtrar por função

  4. Adicione a operação Por quantis e selecione “age” como Atributos. Preencha “age_quantis” no campo Nome(s) do(s) novo(s) atributo(s), 8 em Número de categorias (buckets) e 0,02 em Erro relativo.
    Operação Por quantis

  5. Adicione a operação Agrupar linhas por função para visualizar os buckets gerados. Escolha “Age_buckets” no campo Selecione o(s) atributos para agregação. Utilizando o campo Função de agregação, selecione “age_quantis” como Atributo, “Count” como Função e “mapped_age_quantis” como Nome novo.
    Operação Agrupar linhas por função

  6. Para gerar o gráfico de barras é necessário ordenar os buckets, portanto, adicione a operação Ordenar novamente. Utilizando “age_quantis” como Atributos e “Ascending” como Função, na opção Abrir o Editor.
    Operação Ordenar
    Execute e observe os resultados. Aqui podemos visualizar cada um dos quantis gerados na operação anterior.
    Resultado de ordenação
    Resultado de ordenação\

  7. Adicione a operação Gráfico de barras. Selecione “age_quantis” no campo Atributo para o eixo X e “mapped_age_quantis” no campo Atributos para o eixo Y. Preencha “Número de sobreviventes por idade” no campo Título, “Quantis de idades” no campo Título para o eixo X e “Número de sobreviventes” no campo Título para o eixo Y.
    Resultado Gráfico de barras\

  8. Execute o fluxo e visualize o resultado.
    Resultado Gráfico de barras
    Cada barra equivale ao um quantil de idade, composto pelo intervalo de 10 em 10 anos. Observamos que o intervalo de 30 a INF anos apresenta o maior número de sobreviventes.


Dúvidas e/ou sugestões envie um e-mail para suporte@lemonade.org.br