Regressão Linear Generalizada

Regressão linear generalizada, é uma versão generalizada do modelo de regressão linear que estima uma função linear que minimiza a distância entre os pontos do modelo à função usando uma distribuição para a função de perda genérica, não assumindo uma distribuição normal assim como na regressão linear.

Conectores

Entrada	Saída
Dados utilizados para treinar o modelo	Dados de saída e Modelo do algoritmo de regressão

Tarefa

Nome da Tarefa

Aba Execução

Parâmetro	Detalhe
Atributo(s) previsor(es)	Atributo que será usado para treinamento
Atributo com o rótulo	Atributo a ser predito
Atributos com a predição	Atributo contendo a predição do modelo
Iterações máximas	Define o número máximos de iterações para a convergência do algoritmo, quanto maior mais iterações serão permitidas para encontrar a função linear para os dados, o valor padrão é 100
Regularização	Valor para regularizar o fitting da função de perda do algoritmo, o valor padrão é 0
Mix. para ElasticNet (entre 0 e 1)	Parâmetro de ajuste usado para a minimização da função objetivo usando uma combinação de L1 e L2. Valor por padrão é 0
Família	Função de distribuição que representa a dispersão do modelo de predição, este é uma generalização da família de dispersão exponencial.
Link prediction	Parâmetro que gera a relação entre a predição linear e a média da função de distribuição do modelo
Parâmetro de regularização	Valor para regularizar o fitting da função de perda do algoritmo, esse parâmetro é usado para evitar overfitting, o valor padrão é 0
Solucionador (Solver)	Algoritmo gera a solução da otimização do problema de regressão. Valor padrão dessa variável é auto
Métrica para validação cruzada	Define a métrica utilizada dentro da validação cruzada (se aplicável) para avaliar o modelo de classificação dentro das k partições
Atributo com o número da partição (fold)	Define o atributo a ter o número da partição para realizar uma validação cruzada (se aplicável)

Aba Aparência

Aba Resultados

Exemplo de Utilização

Objetivo: utilizar os dados horsepower (cavalos de potência de cada carro) e o price (preço do carro) para estimar o preço a partir da potência do veículo.
Base de Dados: mtcars

Fluxo de trabalho - Ler Dados

Adicione uma base de dados por meio da operação Ler dados.
Usando a operação Divisão Percentual divida a base de dados em treino e teste utilizando uma distribuição de 70% para treino e 30% para teste.
Na operação Regressão Linear Generalizado coloque o número de Iterações Máximas como 100, preencha 10 no campo Profundidade Máxima, deixe o valor de Solver como Auto e o parâmetro de regularização como 0.35. Use a função Gaussiana no campo Family como probabilidade de distribuição e a função de identidade no campo Link Prediction.
Na operação Aplicar Modelo, selecione *“Horse_Power” no campo Atributos com features e preencha “prediction” no campo Nome do novo atributo.
Na operação Avaliar Modelo, selecione “Price” no campo *Atributo usado para predição. Selecione “prediction” no campo Atributo usado como label. E selecione a métrica “Root Mean Square Error” como métrica para avaliação.
Execute o Fluxo e visualize o resultado.

O valor predito é de 5238.423. No primeiro gráfico residual da predição que investiga o uso da do modelo de predição, podemos ver que a distribuição apresentada se adequa às suposições para o uso da regressão linear generalizada. No segundo gráfico vemos a distribuição dos dados reais que era desejado prever e a reta vermelha que representa a predição feita pelo modelo, podemos ver que a regressão encaixa bem nos dados desejados.

Dúvidas e/ou sugestões envie um e-mail para suporte@lemonade.org.br

← Aba Resultados Regressão - Regressor Linear →