Latent Dirichlet Allocation (LDA)
Método de clusterização não supervisionada de documentos em tópicos.
Conectores
Entrada | Saída |
---|---|
Dados utilizados para treinar o modelo | Dados de saída e Modelo do algoritmo de agrupamento |
Tarefa
Nome da Tarefa
Aba Execução
Parâmetro | Detalhe |
---|---|
Atributo(s) previsor(es) | Atributo que será usado para treinamento |
Atributos com a Predição (novo) | |
Otimizador | Otimizador a ser utilizado para aprender o modelo. |
Número de Tópicos (K) | |
Número máximo de iterações | |
Concentração de documentos (alfa) | Parâmetro alpha da distribuição de Dirichlet, o qual controla a priori a distribuição de documentos sobre os tópicos |
Concentração de tópicos (beta) | Parâmetro beta da distribuição de Dirichlet, o qual controla a priori a distribuição de tópicos sobre os termos |
Métrica para validação cruzada | |
Atributo com o número da partição (fold) |
Definições
Tipos de Optimizer
Otimizador EM (Expectation Maximization): utiliza o método Expectation Maximization na função de verossimilhança para estimar os parâmetros.
Otimizador Online: utiliza inferência variacional online para a estimativa dos parâmetros. A cada iteração um subconjunto do corpus é processado e a distribuição de termos por tópicos são atualizadas.
Exemplo de Utilização
Objetivo: utilizar o método de clusterização LDA para encontrar tópicos em comentários de filmes.
Base de Dados: Sentiment Labelled Sentences
Adicione uma base de dados por meio da operação Ler dados.
Na operação Amostrar, selecione “Extrair os primeiros N registros dos dados” como Tipo de amostragem ou partição e digite o valor “200” para o campo Total de registros.
Utilize a operação Dividir texto por delimitador. Selecione a opção “Simples, use espaços como delimitador” para o campo Tipo. Preencha “value” no campo Atributos, “text_tokens” no campo Nome do novo atributo e o valor “2” no campo Tamanho mínimo das partes.
Utilize a operação Remover palavras comuns. Preencha “text_tokens” no campo Atributos e selecione “inglês” no campo Idioma (opcional).
Utilize a operação Contar frequência dos termos. Selecione “text_tokens2” para o campo Atributo. Preencha “text_vector” no campo Nome do novo atributo. Selecione a opção “Contar a frequência do termo” no campo Tipo. Preencha o valor “10000” no campo Tamanho do vocabulário. Preencha o valor “1” para ambos os cambpos Frequência mínima de documento e Frequência Mínima do Termo.
Utilize a operação Latent Dirichlet Allocation (LDA). Selecione “text_vector” para o campo Atributo(s) previsor(es). Preencha “prediction” no campo Atributo com a predição (novo). Selecione a opção “Otimizador EM (Expectation Maximization)” para o campo Otimizador. Preencha o valor “10” no campo Número de tópicos (K). Preencha o valor “200” para o campo Número máximo de iterações.
Execute o fluxo e visualize os resultados.
Dúvidas e/ou sugestões envie um e-mail para suporte@lemonade.org.br