Por Quantis
Operação que mapeia uma coluna de valores (features) contínuos em uma coluna de recursos (features) categóricos.
Conectores
Entrada | Saída |
---|---|
Dados a serem tratados | Dados tratados e modelo |
Tarefa
Nome da Tarefa
Aba Execução
Parâmetro | Detalhe |
---|---|
Atributos | Uma ou mais colunas que contenham os valores a serem limpos, ou substituídos |
Nome do(s) novo(s) atributo(s) | Nome dos novos atributos criados na operação* |
Número de categorias (buckets) | Número de categorias a serem criadas |
Erro relativo (entre [0.0 1.0]) | Precisão do alvo relativo para o algoritmo quantil utilizado para gerar as categorias |
OBS:: *Se o nome dos novos atributos forem omitidos, o nome resultante terá um sufixo seguido pelo nome original.
Exemplo de Utilização
Objetivo: determinar a quantidade de tripulantes sobreviventes do desastre do titanic por faixa etária, com o intervalo de 10 anos entre elas.
Base de Dados: Titanic
Adicione uma base de dados por meio da operação Ler dados e selecione “Converter dados inválidos para NULO” na opção O que fazer em caso de dados inválidos.
Adicione a operação Tratar dados ausentes, selecione “age” como Atributo(s) e “Substituir com a média” como Tipo de limpeza.
Para tratar apenas dos sobreviventes do desastre, adicione a operação Filtrar por função. Utilizando o campo Filtro, selecione “Survived == 1” como Expressão, na opção Editar valor.
Adicione a operação Por quantis e selecione “age” como Atributos. Preencha “age_quantis” no campo Nome(s) do(s) novo(s) atributo(s), 8 em Número de categorias (buckets) e 0,02 em Erro relativo.
Adicione a operação Agrupar linhas por função para visualizar os buckets gerados. Escolha “Age_buckets” no campo Selecione o(s) atributos para agregação. Utilizando o campo Função de agregação, selecione “age_quantis” como Atributo, “Count” como Função e “mapped_age_quantis” como Nome novo.
Para gerar o gráfico de barras é necessário ordenar os buckets, portanto, adicione a operação Ordenar novamente. Utilizando “age_quantis” como Atributos e “Ascending” como Função, na opção Abrir o Editor.
Execute e observe os resultados. Aqui podemos visualizar cada um dos quantis gerados na operação anterior.
\Adicione a operação Gráfico de barras. Selecione “age_quantis” no campo Atributo para o eixo X e “mapped_age_quantis” no campo Atributos para o eixo Y. Preencha “Número de sobreviventes por idade” no campo Título, “Quantis de idades” no campo Título para o eixo X e “Número de sobreviventes” no campo Título para o eixo Y.
\Execute o fluxo e visualize o resultado.
Cada barra equivale ao um quantil de idade, composto pelo intervalo de 10 em 10 anos. Observamos que o intervalo de 30 a INF anos apresenta o maior número de sobreviventes.
Dúvidas e/ou sugestões envie um e-mail para suporte@lemonade.org.br