Árvore de Decisão

O objetivo da operação Árvore de Decisão é criar um modelo representado por uma árvore, a qual é composta por nós e folhas. Os nós são utilizados para decidir (de acordo com os atributos de entrada da base de dados) qual caminho tomar para separar os exemplos em classes e as folhas agrupam esses exemplos de acordo com as suas respectivas classes.

Conectores

Entrada	Saída
Dados utilizados para treinar o modelo	Dados de saída e modelo do algoritmo de classificação

Tarefa

Nome da Tarefa

Aba Execução

Parâmetro	Detalhe
Atributo(s) previsor(es)	Atributo(s) que será(ão) usado(s) para treinamento
Atributo com o rótulo	Atributo a ser classificado
Atributos com a predição	Atributo contendo a predição do modelo
Pesos	Pesos do algoritmo em um ensemble
Manter identificadores dos nós em cache	Se selecionado, o algoritmo evita passar o modelo atual para os executores da próxima iteração
Intervalo para checkpoint (cache)	Frequência com a qual fazer checkpoints
Impureza	Medida para quantificar a impureza de cada nó
No. máximo de bins	Número de bins utilizados quando discretizando uma variável contínua
Profundidade máxima	Maior profundidade permitida da árvore de decisão
Ganho mínimo de informação	Mínimo de ganho de informação para que haja a utilização de um atributo na divisão de um nó
Mínimo de instâncias por nó	O número mínimo de instâncias (exemplos) que precisam estar em um nó folha de cada árvore. O seu Valor padrão é 1
Métrica para validação cruzada	Define a métrica utilizada dentro da validação cruzada (se aplicável) para avaliar o modelo de classificação dentro das k partições
Atributo com o número da partição (fold)	Define o atributo a ter o número da partição para realizar uma validação cruzada (se aplicável
Usar classificação um-contra-todos (one-vs-rest)	Se selecionado, o algoritmo realizará classificação um-contra-todos ao invés de classificação tradicional (neste caso, binária ou multi-classe)

Aba Aparência

Aba Resultados

Definições

Impureza

Tipos de impureza:

Coeficiente Gini: É uma métrica de desigualdade que varia entre zero e um. O coeficiente Gini dita que se selecionarmos aleatoriamente uma amostra arbitrária da base de dados e essa amostra sempre conter exemplos da mesma classe, isso significa que a amostra de dados é dita como pura, resultando em um coeficiente de Gini igual a um. Caso contrário, a amostra de dados é dita como impura, resultando em um coeficiente de Gini igual a zero.
Entropia: É uma medida de teoria da informação que calcula o grau de desorganização em um sistema. Também é utilizada para caracterizar a (im)pureza de uma amostra de dados. Se a amostra for completamente homogênea/pura (i.e., todos os exemplos estiverem na mesma classe), então a entropia é zero. Se a amostra for dividida em partes iguais (por exemplo, classe positiva com 50% dos exemplos e classe negativa com os 50% restantes dos exemplos), então terá entropia de um, caracterizando uma amostra impura/não-homogênea.

Exemplo de Utilização

Objetivo: Utilizar o modelo de Árvore de Decisão para classificar a espécie da planta Íris.
Base de Dados: Íris

Fluxo de trabalho- Ler dados

Leia a base de dados Irís por meio da operação Ler dados.
Utilize a operação Converter categórico para numérico para converter os valores do atributo classe em valores numéricos. Para isso, utilize “class” no campo Atributos, String como Tipo de indexador e “class_index” como Nome para novo(s) atributos indexados.
Utilize a operação Divisão percentual para dividir a base de dados em treino e teste. No parâmetro Percentual, calibre-o utilizando 50% dos dados para treinar (1.ª parte) e 50% para testar (2.ª parte).
Na operação Árvore de decisão, selecione “petal_length”, “petal_width”, “sepal_length” e “sepal_width” no campo Atributo(s) previsor(es). Selecione “class_index” no campo Atributo com o rótulo e preencha “resultado” no campo Atributo com a predição (novo). Deixe os demais parâmetros inalterados.
Na operação Aplicar Modelo, selecione “petal_length”, “petal_width”, “sepal_length” e “sepal_width” no campo Atributo(s) previsor(es) e preencha “resultado” no campo Nome do novo atributo (herdado do modelo).
Na operação Avaliar Modelo, selecione “resultado” no campo Atributo usado para predição. Selecione “class_index” no campo Atributo usado como label. E selecione a métrica “F1” como Métrica para avaliação.
Execute o fluxo e visualize o resultado, i.e., a matriz de confusão gerada para as predições do modelo de árvore de decisão e, consequentemente, a tabela representando as métricas de classificação (derivadas da matriz de confusão).

Dúvidas e/ou sugestões envie um e-mail para suporte@lemonade.org.br

← Classificação - Gradient Boosted Tree Associação - Regras de Associação →