Support Vector Machines

O Support Vector Machines (SVM) é um algoritmo de aprendizado de máquina supervisionado baseado em kernels que é utilizado para problemas de classificação. Basicamente, o SVM encontra uma linha de separação, usualmente conhecida como hiperplano entre dados pertencentes de duas classes arbitrárias. Essa linha tenta maximizar a distância entre os pontos mais próximos em relação a cada uma das classes. Nesta versão, implementa somente uma versão específica do SVM linear. Por esse motivo, somente suporta problemas de classificação multi-classe (i.e., com mais de duas classes) caso seja realizada classificação um-contra-todos.

Conectores

Entrada Saída
Dados utilizados para treinar o modelo Dados de saída e Modelo do algoritmo de classificação

Tarefa

Nome da Tarefa

Aba Execução

Parâmetro Detalhe
Atributo com Features Atributo(s) que será(ão) usado(s) para treinamento
Atributo com o rótulo Atributo a ser classificado
Atributos com a predição (novo) Atributo contendo a predição do modelo
Pesos Peso do algoritmo em um Ensemble
Iterações máximas Número máximo de iterações (>=0)
Aplicar padronização Indica se é para padronizar os atributos antes de treinar o modelo
Limiar para a classificação binária Ajustar a probabilidade de previsão de cada classe
Tolerância para a convergência Tolerância de convergência para algoritmos iterativos (>=0.0)
Atributo com pesos Atributos passados ao modelo que terão um peso diferenciado
Métrica para validação cruzada Define a métrica utilizada dentro da validação cruzada (se aplicável) para avaliar o modelo de classificação dentro das k partições
Atributo com o número da partição (fold) Define o atributo a ter o número da partição para realizar uma validação cruzada (se aplicável)
Usar classificação um-contra-todos (one-vs-rest) Se selecionado, o algoritmo realizará classificação um-contra-todos ao invés de classificação tradicional (neste caso, binária)

Aba Aparência

Aba Resultados

Exemplo de Utilização

Objetivo: Utilizar o modelo do Support Vector Machines (SVM) para classificar se uma pessoa possui ou não a doença diabetes
Base de Dados: Pima Indians Diabetes

Fluxo de trabalho - Ler dados

  1. Leia a base de dados por meio da operação Ler dados.

  2. Utilize a operação Divisão percentual para dividir a base de dados em treino e teste. No parâmetro Percentual, calibre-o utilizando 50% dos dados para treinar (1.ª parte) e 50% para testar (2.ª parte).

  3. Na operação Support Vector Machines (SVM), selecione “Age”, “BMI”, “BloodPressure”, “DiabetesPedigreeFunction”, “Glucose”, “Insulin”, “Pregnancies” e “SkinThickness” no campo Atributos com features. Selecione “class” no campo Atributo com o rótulo e preencha “resultado” no campo Atributo com a predição (novo). Deixe os demais parâmetros inalterados.
    Formulario Support Vector Machines - parte 1 Formulario Support Vector Machines - parte 2

  4. Na operação Aplicar Modelo, selecione “Age”, “BMI”, “BloodPressure”, “DiabetesPedigreeFunction”, “Glucose”, “Insulin”, “Pregnancies” e “SkinThickness” no campo Atributos com features e preencha “resultado” no campo Nome do novo atributo (herdado do modelo).

  5. Na operação Avaliar Modelo, selecione “resultado” no campo Atributo usado para predição. Selecione “class” no campo Atributo usado como label e a métrica “F1” como Métrica para avaliação.

  6. Execute o fluxo e visualize o resultado, i.e., a matriz de confusão gerada para as predições do modelo de árvore de decisão e, consequentemente, a tabela representando as métricas de classificação (derivadas da matriz de confusão).
    Gráfico - resultado
    Tabela - resultado


Dúvidas e/ou sugestões envie um e-mail para suporte@lemonade.org.br