Regressão Linear Generalizada
Regressão linear generalizada, é uma versão generalizada do modelo de regressão linear que estima uma função linear que minimiza a distância entre os pontos do modelo à função usando uma distribuição para a função de perda genérica, não assumindo uma distribuição normal assim como na regressão linear.
Conectores
| Entrada | Saída |
|---|---|
| Dados utilizados para treinar o modelo | Dados de saída e Modelo do algoritmo de regressão |
Tarefa
Nome da Tarefa
Aba Execução
| Parâmetro | Detalhe |
|---|---|
| Atributo(s) previsor(es) | Atributo que será usado para treinamento |
| Atributo com o rótulo | Atributo a ser predito |
| Atributos com a predição | Atributo contendo a predição do modelo |
| Iterações máximas | Define o número máximos de iterações para a convergência do algoritmo, quanto maior mais iterações serão permitidas para encontrar a função linear para os dados, o valor padrão é 100 |
| Regularização | Valor para regularizar o fitting da função de perda do algoritmo, o valor padrão é 0 |
| Mix. para ElasticNet (entre 0 e 1) | Parâmetro de ajuste usado para a minimização da função objetivo usando uma combinação de L1 e L2. Valor por padrão é 0 |
| Família | Função de distribuição que representa a dispersão do modelo de predição, este é uma generalização da família de dispersão exponencial. |
| Link prediction | Parâmetro que gera a relação entre a predição linear e a média da função de distribuição do modelo |
| Parâmetro de regularização | Valor para regularizar o fitting da função de perda do algoritmo, esse parâmetro é usado para evitar overfitting, o valor padrão é 0 |
| Solucionador (Solver) | Algoritmo gera a solução da otimização do problema de regressão. Valor padrão dessa variável é auto |
| Métrica para validação cruzada | Define a métrica utilizada dentro da validação cruzada (se aplicável) para avaliar o modelo de classificação dentro das k partições |
| Atributo com o número da partição (fold) | Define o atributo a ter o número da partição para realizar uma validação cruzada (se aplicável) |
Exemplo de Utilização
Objetivo: utilizar os dados horsepower (cavalos de potência de cada carro) e o price (preço do carro) para estimar o preço a partir da potência do veículo.
Base de Dados: mtcars

Adicione uma base de dados por meio da operação Ler dados.

Usando a operação Divisão Percentual divida a base de dados em treino e teste utilizando uma distribuição de 70% para treino e 30% para teste.

Na operação Regressão Linear Generalizado coloque o número de Iterações Máximas como 100, preencha 10 no campo Profundidade Máxima, deixe o valor de Solver como Auto e o parâmetro de regularização como 0.35. Use a função Gaussiana no campo Family como probabilidade de distribuição e a função de identidade no campo Link Prediction.

Na operação Aplicar Modelo, selecione *“Horse_Power” no campo Atributos com features e preencha “prediction” no campo Nome do novo atributo.

Na operação Avaliar Modelo, selecione “Price” no campo *Atributo usado para predição. Selecione “prediction” no campo Atributo usado como label. E selecione a métrica “Root Mean Square Error” como métrica para avaliação.

Execute o Fluxo e visualize o resultado.


O valor predito é de 5238.423. No primeiro gráfico residual da predição que investiga o uso da do modelo de predição, podemos ver que a distribuição apresentada se adequa às suposições para o uso da regressão linear generalizada. No segundo gráfico vemos a distribuição dos dados reais que era desejado prever e a reta vermelha que representa a predição feita pelo modelo, podemos ver que a regressão encaixa bem nos dados desejados.
Dúvidas e/ou sugestões envie um e-mail para suporte@lemonade.org.br