K-Means

Método de clusterização k-means.

Entrada	Saída
Dados utilizados para treinar o modelo	Dados de saída e Modelo do algoritmo de agrupamento

Nome da Tarefa

Parâmetro	Detalhe
Quantidade de agrupamentos (K)	Número de clusters a serem formados tal como a quantidade de centróides
Tolerância	Tolerância relativa para declarar convergência do algoritmo
Tipo	Tipo de k-means a ser utilizado
Geração dos centróides iniciais	Estratégia a ser utilizada para gerar os centróides iniciais
Número máx. de iterações	Quantidade máxima de iterações
Atributo(s) previsor(es)	Atributos a ser utilizado para clusterizar as amostras do conjunto de dados
Atributos com a Predição (novo)	Nome do novo atributo atribuído criado pelo algoritmo de agrupamento especificado
Métrica para validação cruzada
Atributo com o número da partição (fold)

Definições

Tipos de k-means:

Tradicional: Frequentemente utilizado para agrupar amostras do conjunto de dados em uma quantidade pré-especificada de grupos.
Bisecting K-Means: Bisecting k-means difere-se do K-means tradicional por ser um agrupamento hierárquico.

Tipos:

K-Means || K-Means ++ variant: Versão paralelizada do K-means++ para inicialização dos centróides iniciais. Os centróides iniciais gerados pelo K-means++ possuem uma garantia de aproximação da solução ótima.
Aleatório: Inicialização aleatória dos centróides.

Objetivo: Utilizar o k-means para agrupar as espécies da Íris.
Base de Dados: Íris

Fluxo de trabalho - Ler dados

Adicione uma base de dados por meio da operação Ler dados.
Na operação K-means, preencha 3 no campo Quantidade de agrupamentos(k), 0.0001 no campo Tolerância, “k-Means tradicional” no campo Tipo, “K-Means || K-Means ++ variant” no campo Geração de centróides iniciais e 50 no campo Número max. de interações. Selecione “petal_length”, “petal_width”, “sepal_length” e “sepal_width” como Atributo(s) previsor(es) e “prediction” como Atributo com a predição (novo).
Na operação Tabela, não preencha nada.
Execute o fluxo e visualize o resultado.
Com a execução do modelo a predição de cada um dos três clusteres pode ser obtido visualizando o resultado apresentado pela tabela de visualização.

Dúvidas e/ou sugestões envie um e-mail para suporte@lemonade.org.br