Processar Tópicos

Operação que descreve os tópicos encontrados pelo método de clusterização LDA pelos seus termos com maiores pesos. Cada tópico encontrado pelo LDA possui uma distribuição sobre os termos do dicionário, os termos com maiores pesos são os mais relevantes para discriminar o tópico.

Conectores

Entrada Saída
Dados de Entrada, Modelo e Vocabulário utilizados para analisar a clusterização LDA Para cada tópico retorna os seus termos mais importantes e seus respectivos pesos

Tarefa

Nome da Tarefa

Aba Execução

Parâmetro Detalhe
Termos por tópico (max) Quantidade máxima de termos a serem selecionados por tópico

Aba Aparência

Aba Resultados

Exemplo de Utilização

Objetivo: utilizar o processamento de tópicos para descrever os tópicos encontrados pelo LDA.
Base de Dados: Sentiment Labelled Sentences

Fluxo de trabalho

  1. Adicione uma base de dados por meio da operação Ler dados.

  2. Na operação Amostrar selecione as 200 primeiras amostras do dataset para criar o modelo LDA.
    Operação Amostrar

  3. Utilize a operação Transformar para remover pontuação, acentuação e colocar todas as palavras em minúsculo. Criando um novo atributo lowered_text o qual possui o texto original transformado.
    Operação Transformar

  4. Utilize a operação Dividir Texto separe o texto em tokens utilizando espaço como delimitador, utilizando “Simples, use espaços como delimitado” no campo Tipo. Preencha o campo Atributos com “lowered_text” e o campo Nome do novo atributo com “text_tokens”. Coloque 2 no campo Tamanho Mínimo de Tokens.
    Operação Dividir texto

  5. Remova as stopwords. Para isso, carregue o arquivo com a definição das stopwords utilizando a operação Ler Dados. Utilize o operador Remover palavras comum, selecione “text_tokens” como Atributos e “text_token2” como Nome do novo Atributo que irá conter o texto sem as stopwords.
    Operação Ler dados Operação Remove

  6. Utilize a operação Converter Palavras em Vetores e crie um vetor com a frequência de cada termo usando TF-IDF. Selecione “text_tokens2” como Atributo, “text_vector” como Nome do novo atributo, “Contar a frequência do termo” como Tipo, 20000 como Tamanho do vocabulário, e 30 como Frequência mínima de documento e Frequência Mínima do Termo.
    Operação Converter palavras em vetor

  7. Na operação Agrupamento LDA, selecione o Online Variational Bayes como otimizador e uma quantidade máxima de 50 tópicos. Selecione o vetor “text_vector” para os Atributos a serem usados e preencha “topics” no campo Atributo com a predição.
    Operação Agrupamento LDA Operação Modelo de agrupamento

  8. Execute e visualize as tarefas descritas acima, os termos com maiores pesos de cada tópico são obtidos pelo processamento de tópicos. Resultado


Dúvidas e/ou sugestões envie um e-mail para suporte@lemonade.org.br