Latent Dirichlet Allocation (LDA)

Método de clusterização não supervisionada de documentos em tópicos.

Conectores

Entrada	Saída
Dados utilizados para treinar o modelo	Dados de saída e Modelo do algoritmo de agrupamento

Tarefa

Nome da Tarefa

Aba Execução

Parâmetro	Detalhe
Atributo(s) previsor(es)	Atributo que será usado para treinamento
Atributos com a Predição (novo)
Otimizador	Otimizador a ser utilizado para aprender o modelo.
Número de Tópicos (K)
Número máximo de iterações
Concentração de documentos (alfa)	Parâmetro alpha da distribuição de Dirichlet, o qual controla a priori a distribuição de documentos sobre os tópicos
Concentração de tópicos (beta)	Parâmetro beta da distribuição de Dirichlet, o qual controla a priori a distribuição de tópicos sobre os termos
Métrica para validação cruzada
Atributo com o número da partição (fold)

Aba Aparência

Aba Resultados

Definições

Tipos de Optimizer

Otimizador EM (Expectation Maximization): utiliza o método Expectation Maximization na função de verossimilhança para estimar os parâmetros.
Otimizador Online: utiliza inferência variacional online para a estimativa dos parâmetros. A cada iteração um subconjunto do corpus é processado e a distribuição de termos por tópicos são atualizadas.

Exemplo de Utilização

Objetivo: utilizar o método de clusterização LDA para encontrar tópicos em comentários de filmes.
Base de Dados: Sentiment Labelled Sentences

Fluxo de trabalho

Adicione uma base de dados por meio da operação Ler dados.
Na operação Amostrar, selecione “Extrair os primeiros N registros dos dados” como Tipo de amostragem ou partição e digite o valor “200” para o campo Total de registros.
Utilize a operação Dividir texto por delimitador. Selecione a opção “Simples, use espaços como delimitador” para o campo Tipo. Preencha “value” no campo Atributos, “text_tokens” no campo Nome do novo atributo e o valor “2” no campo Tamanho mínimo das partes.
Utilize a operação Remover palavras comuns. Preencha “text_tokens” no campo Atributos e selecione “inglês” no campo Idioma (opcional).
Utilize a operação Contar frequência dos termos. Selecione “text_tokens2” para o campo Atributo. Preencha “text_vector” no campo Nome do novo atributo. Selecione a opção “Contar a frequência do termo” no campo Tipo. Preencha o valor “10000” no campo Tamanho do vocabulário. Preencha o valor “1” para ambos os cambpos Frequência mínima de documento e Frequência Mínima do Termo.
Utilize a operação Latent Dirichlet Allocation (LDA). Selecione “text_vector” para o campo Atributo(s) previsor(es). Preencha “prediction” no campo Atributo com a predição (novo). Selecione a opção “Otimizador EM (Expectation Maximization)” para o campo Otimizador. Preencha o valor “10” no campo Número de tópicos (K). Preencha o valor “200” para o campo Número máximo de iterações.
Execute o fluxo e visualize os resultados.

Dúvidas e/ou sugestões envie um e-mail para suporte@lemonade.org.br

← Operações Textuais - Contar Freqência dos Termos Discretização - Por Quantis →