Gradient Boosted Tree
A operação Gradient-Boosted Trees (GBT) possui como objetivo criar um modelo baseado em ensembles de Árvores de decisão. Para isso, o GBT iterativamente treina (a partir de uma base de dados de entrada) um conjunto de árvores de decisão minimizando uma dada função de perda. A ideia do GBT é criar vários modelos (de árvore de decisão) considerados mais simples (ou fracos) a fim de criar um modelo mais poderoso e robusto, por combinar resultados desses vários modelos fracos. Atualmente, somente suporta problemas de classificação multi-classe (i.e., com mais de duas classes) caso seja realizada classificação um-contra-todos.
Conectores
Entrada | Saída |
---|---|
Dados utilizados para treinar o modelo | Dados de saída e Modelo do algoritmo de classificação |
Tarefa
Nome da Tarefa
Aba Execução
Parâmetro | Detalhe |
---|---|
Atributo(s) previsor(es) | Atributo(s) que será(ão) usado(s) para treinamento |
Atributo com o rótulo | Atributo a ser classificado |
Atributos com a predição | Atributo contendo a predição do modelo |
Pesos | Pesos do algoritmo em um ensemble |
Manter identificadores dos nós em cache | Se selecionado, o algoritmo evita passar o modelo atual para os executores da próxima iteração |
Intervalo para checkpoint (cache) | Frequência com a qual fazer checkpoints |
Tipo de perda | Função de perda a ser minimizada. Atualmente, somente a função logística está disponível para esta operação |
No. máximo de bins | Número de bins utilizados quando discretizando uma variável contínua |
Profundidade máxima | Profundidade máxima permitida nas árvores de decisão |
Taxa de subamostragem | Fração do conjunto de dados que será passado para cada árvore |
Iterações máximas | O número máximo de iterações do algoritmo boosting |
Ganho mínimo de informação | Mínimo de information gain para que haja a utilização de uma feature na divisão de um nó |
Mínimo de instâncias por nó | O número mínimo de instâncias (exemplos) que precisam estar em um nó folha de cada árvore. O seu valor padrão é 1 |
Tamanho do passo | Tamanho do passo a ser utilizado em cada iteração do GBT |
Métrica para validação cruzada | Define a métrica utilizada dentro da validação cruzada (se aplicável) para avaliar o modelo de classificação dentro das k partições |
Atributo com o número da partição (fold) | Define o atributo a ter o número da partição para realizar uma validação cruzada (se aplicável) |
Usar classificação um-contra-todos (one-vs-rest) | Se selecionado, o algoritmo realizará classificação um-contra-todos ao invés de classificação tradicional (neste caso, binária) |
Exemplo de Utilização
Objetivo: Utilizar o modelo do Gradient Boosted Tree (GBT) para classificar se uma pessoa possui ou não a doença diabetes.
Base de Dados: Pima Indians Diabetes
Leia a base de dados por meio da operação Ler dados.
Utilize a operação Divisão percentual para dividir a base de dados em treino e teste. No parâmetro Percentual, calibre-o utilizando 50% dos dados para treinar (1.ª parte) e 50% para testar (2.ª parte).
Na operação Gradient Boosted Tree, selecione “Age”, “BMI”, “BloodPressure”, “DiabetesPedigreeFunction”, “Glucose”, “Insulin”, “Pregnancies” e “SkinThickness” no campo Atributo(s) previsor(es). Selecione “class” no campo Atributo com o rótulo e preencha “resultado” no campo Atributo com a predição (novo). Deixe os demais parâmetros inalterados.
Na operação Aplicar Modelo, selecione “Age”, “BMI”, “BloodPressure”, “DiabetesPedigreeFunction”, “Glucose”, “Insulin”, “Pregnancies” e “SkinThickness” no campo Atributo(s) previsor(es) e preencha “resultado” no campo Nome do novo atributo (herdado do modelo).
Na operação Avaliar Modelo, selecione “resultado” no campo Atributo usado para predição. Selecione “class” no campo Atributo usado como label e a métrica “F1” como Métrica para avaliação.
Execute o fluxo e visualize o resultado, i.e., a matriz de confusão gerada para as predições do modelo de árvore de decisão e, consequentemente, a tabela representando as métricas de classificação (derivadas da matriz de confusão).
Dúvidas e/ou sugestões envie um e-mail para suporte@lemonade.org.br