Contar frequência dos termos
É uma operação de processamento de texto que conta a quantidade de ocorrências dos termos do texto.
Conectores
Entrada | Saída |
---|---|
Uma base de dados | Múltiplas fontes com os dados modificados |
Tarefa
Nome da Tarefa
Aba Execução
Parâmetro | Detalhe |
---|---|
Atributo | Atributo de entrada |
Nome do novo atributo | Nome para a nova coluna criada |
Tipo | Tipo de transformação |
Tamanho do vocabulário | Tamanho do vocabulário a ser avaliado |
Frequência mínima de documentos | Frequência mínima de documentos |
Frequência mínima do termo | Frequência mínima do termo |
Definições
Tipos
- Frequência das palavras: Contabiliza a frequência dos termos dentro do conjunto avaliado.
- Tabela hash de termos por frequência: Mapeia a sequência de palavras para suas frequências de termos, gerando uma tabela hash.
- word2vec: O Word2vec produz como saída um espaço vetorial, em que cada palavra da base é atribuída a um vetor correspondente no espaço, de modo que as palavras que compartilham contextos comuns na base fiquem localizadas próximas umas das outras no espaço.
Exemplo de Utilização
Objetivo: Contar a frequência dos termos.
Base de Dados: Sentiment Labelled Sentences
Use a operação Ler dados para que seja feita a leitura da base. Selecione a fonte de dados “imdb_labelled.txt”.
Use a operação de Dividir texto por delimitador. Selecione “Simples, use espaços como delimitadores” para o campo Tipo. Selecione “value” para o campo Atributo e “1” para o campo Tamanho Mínimo das Partes.
Na operação Contar frequência dos termos, defina “value_tokenized” para o campo Atributo, no campo Tipo coloque “Contar a frequência do termo”, no campo Tamanho do Vocabulário coloque o valor “100000” e no campo Frequência Mínima do Termo (TF) coloque “1”.
Execute o Fluxo e observe os resultados.
Dúvidas e/ou sugestões envie um e-mail para suporte@lemonade.org.br