Tratar Dados Ausentes
A operação Tratar Dados Ausentes é utilizada para remover ou substituir valores ausentes dos campos de dados.
Conectores
Entrada | Saída |
---|---|
Dados a serem tratados | Dados tratados |
Tarefa
Nome da Tarefa
Aba Execução
Parâmetro | Detalhe |
---|---|
Atributos | Uma ou mais colunas que contenham os valores a serem removidos, ou substituídos. |
Tipo de Limpeza | O tipo de limpeza a ser executado nos dados |
Valor | Valor a ser utilizado nos casos de substituição |
Razão mínima de valores ausentes | Razão mínima entre o total de valores ausentes e o total de registros a serem considerados para que a operação seja executada |
Razão máxima de valores ausentes | Razão máxima entre o total de valores ausentes e o total de registros a serem considerados para que a operação seja executada. |
Definições
Tipos de Limpeza
Exemplo 1
A limpeza pode ser feita das seguintes formas:
- Substituir com a média:
- Calcula a média dos valores da coluna e utiliza este número para substituir os valores ausentes.
- Substituir por valor:
- Substitui todos os valores ausentes pelo valor determinado pelo usuário.
- Substituir com a mediana aproximada (10% da precisão relativa):
- Calcula a mediana e utiliza este número para substituir todos os valores ausentes.
- Substituir com a moda:
- Substitui todos os valores ausentes pelo valor que se repete com maior frequência.
- Remover toda a linha:
- Remove completamente a linha da base de dados que contenha um ou mais valores ausentes.
- Remover toda a coluna
- Remove completamente a coluna que contenha um ou mais valores ausentes.
Observação
- Esta operação não altera a fonte dos dados, ela sempre gera um novo conjunto de dados no fluxo de execução com todas as mudanças realizadas.
Valor
Razão mínima e máxima de valores ausentes
Exemplo 3 Em alguns casos a melhor medida para limpeza dos dados ausentes é a remoção completa da linha ou coluna da base. Estes casos acontecem quando o número de ausentes em um determinado atributo ultrapassa um critério limite que faça valer a pena o uso de qualquer outra técnica de limpeza. Para muitos analistas este critério é definido como sendo a razão entre número de itens ausentes e o número de itens encontrados para um determinado atributo.
Exemplo de Utilização
O objetivo e a base de dados abaixo serão utilizados nos três exemplos a seguir.
Objetivo: Encontrar as inconsistências e os valores ausentes desta base e utilizar a operação Tratar Dados Ausentes para corrigi-los.
Base de Dados: Titanic
Exemplo 1
Substituir pela média:
Adicione uma base de dados por meio da operação Ler dados.
Adicione a operação Tratar dados Ausentes adicione “Age” no campo atributos e selecione o tipo substituir pela média no campo Tipo de Limpeza.
Execute e observe o resultado.
Observe que é possível verificar qual valor foi utilizado para substituir os ausentes. Para o resultado da operação Ler Dados, observe que os passageiros de PassengerId 6, 18 e 20 não possuem valor no campo idade, ou seja, é null.
Agora observe o resultado da operação Tratar Dados Ausentes. Os passageiros de PassengerId 6, 18 e 20 receberam a média das idades, ou seja, 18.90.
Exemplo 2
Substituir por um valor:
Adicione uma base de dados por meio da operação Ler dados, assim como o Exemplo 1.
Adicione a operação Tratar dados Ausentes adicione “Age” no campo atributos e selecione o tipo substituir por valor no campo Tipo de Limpeza, preencha “99” no campo valor.
Execute e observe o resultado.
Verifique o valor que foi utilizado para substituir os ausentes.
A idade dos passageiros de PassengerId 6, 18 e 20 foi substituída por 99.
Exemplo 3
Remover uma linha inteira:
Calcule a razão e utilize recursos da ferramenta para determinar se as linhas da base ou a coluna devem ser completamente removidas. Para calcular a razão entre os número de itens ausentes e válidos para a coluna Age, será utilizado o seguinte fluxo:
Adicione uma base de dados por meio da operação Ler dados, assim como o Exemplo 1.
Utilize a operação Transformar valores por função. Ela é responsável por informar se um determinado item é ausente ou válido.
Execute e observe na visualização da tabela que uma nova coluna booleana de nome is_null aparece determinando o valor true para valores ausentes e false para todo o contrário.
Agrupe e conte o número de itens da coluna is_null. Para isto adicione a operação Agrupar linhas por função com os seguintes parâmetros:
Execute e observe o resultado da tabela:
De acordo com a tabela:- Número de itens ausentes = 177
- Número Total de itens = 1309
- Razão entre o número de itens ausentes e o total de itens da coluna Age: 177/1309 = 0.135 ou 0.1 (10%)
Dez por cento (10%) dos dados presentes na coluna Age são ausentes. Com este dado, determine um limiar que seja capaz de definir as condições para todas as linhas ausentes ou toda a coluna seja inteiramente removida.
Agora crie um novo fluxo, ele será similar aos exemplos 1 e 2.
Adicione uma base de dados por meio da operação Ler dados.
Adicione a operação Tratar dados Ausentes. Preencha “Age” no campo Atributos e selecione o tipo Remover toda a linha. No campo Razão mínima de valores ausentes, preencha “0.0” e no campo Razão máxima de valores ausentes, preencha “0.2”.
Analise os seguintes parâmetros da ferramenta:- Razão mínima de valores ausentes
- Razão máxima de valores ausentes
Estes parâmetros são os dois fatores que determinam se uma operação de limpeza será executada para os atributos escolhidos. Os valores padrões são 0.00 para razão mínima e 1.00 para razão máxima, isto é, se estes valores não forem definidos pelo usuário eles não interferem na realização do processo de limpeza.
Neste estudo encontra-se que a coluna Age tem 10% de dados ausentes, logo para que a operação seja executada, este valor precisa estar contemplado no intervalo mínimo e máximo.
Observe os seguintes parâmetros:
O intervalo define como razão mínima para execução o valor 0% ou (0.0) e para razão máxima 20% (ou 0.2). Como o valor que foi encontrado está dentro deste intervalo, a operação de remoção completa da linha com valores nulos será executada.Execute e observe os resultados.
Observe que os passageiros com PassengerId 6, 18 e 20 foram removidas na preview do resultado.
Dúvidas e/ou sugestões envie um e-mail para suporte@lemonade.org.br