K-Means
Método de clusterização k-means.
Conectores
Entrada | Saída |
---|---|
Dados utilizados para treinar o modelo | Dados de saída e Modelo do algoritmo de agrupamento |
Tarefa
Nome da Tarefa
Aba Execução
Parâmetro | Detalhe |
---|---|
Quantidade de agrupamentos (K) | Número de clusters a serem formados tal como a quantidade de centróides |
Tolerância | Tolerância relativa para declarar convergência do algoritmo |
Tipo | Tipo de k-means a ser utilizado |
Geração dos centróides iniciais | Estratégia a ser utilizada para gerar os centróides iniciais |
Número máx. de iterações | Quantidade máxima de iterações |
Atributo(s) previsor(es) | Atributos a ser utilizado para clusterizar as amostras do conjunto de dados |
Atributos com a Predição (novo) | Nome do novo atributo atribuído criado pelo algoritmo de agrupamento especificado |
Métrica para validação cruzada | |
Atributo com o número da partição (fold) |
Definições
Tipo
Tipos de k-means:
- Tradicional: Frequentemente utilizado para agrupar amostras do conjunto de dados em uma quantidade pré-especificada de grupos.
- Bisecting K-Means: Bisecting k-means difere-se do K-means tradicional por ser um agrupamento hierárquico.
Geração dos Centróides Iniciais
Tipos:
- K-Means || K-Means ++ variant: Versão paralelizada do K-means++ para inicialização dos centróides iniciais. Os centróides iniciais gerados pelo K-means++ possuem uma garantia de aproximação da solução ótima.
- Aleatório: Inicialização aleatória dos centróides.
Exemplo de Utilização
Objetivo: Utilizar o k-means para agrupar as espécies da Íris.
Base de Dados: Íris
Adicione uma base de dados por meio da operação Ler dados.
Na operação K-means, preencha 3 no campo Quantidade de agrupamentos(k), 0.0001 no campo Tolerância, “k-Means tradicional” no campo Tipo, “K-Means || K-Means ++ variant” no campo Geração de centróides iniciais e 50 no campo Número max. de interações. Selecione “petal_length”, “petal_width”, “sepal_length” e “sepal_width” como Atributo(s) previsor(es) e “prediction” como Atributo com a predição (novo).
Na operação Tabela, não preencha nada.
Execute o fluxo e visualize o resultado.
Com a execução do modelo a predição de cada um dos três clusteres pode ser obtido visualizando o resultado apresentado pela tabela de visualização.
Dúvidas e/ou sugestões envie um e-mail para suporte@lemonade.org.br