Contar frequência dos termos
É uma operação de processamento de texto que conta a quantidade de ocorrências dos termos do texto.
Conectores
| Entrada | Saída |
|---|---|
| Uma base de dados | Múltiplas fontes com os dados modificados |
Tarefa
Nome da Tarefa
Aba Execução
| Parâmetro | Detalhe |
|---|---|
| Atributo | Atributo de entrada |
| Nome do novo atributo | Nome para a nova coluna criada |
| Tipo | Tipo de transformação |
| Tamanho do vocabulário | Tamanho do vocabulário a ser avaliado |
| Frequência mínima de documentos | Frequência mínima de documentos |
| Frequência mínima do termo | Frequência mínima do termo |
Definições
Tipos
- Frequência das palavras: Contabiliza a frequência dos termos dentro do conjunto avaliado.
- Tabela hash de termos por frequência: Mapeia a sequência de palavras para suas frequências de termos, gerando uma tabela hash.
- word2vec: O Word2vec produz como saída um espaço vetorial, em que cada palavra da base é atribuída a um vetor correspondente no espaço, de modo que as palavras que compartilham contextos comuns na base fiquem localizadas próximas umas das outras no espaço.
Exemplo de Utilização
Objetivo: Contar a frequência dos termos.
Base de Dados: Sentiment Labelled Sentences

Use a operação Ler dados para que seja feita a leitura da base. Selecione a fonte de dados “imdb_labelled.txt”.

Use a operação de Dividir texto por delimitador. Selecione “Simples, use espaços como delimitadores” para o campo Tipo. Selecione “value” para o campo Atributo e “1” para o campo Tamanho Mínimo das Partes.

Na operação Contar frequência dos termos, defina “value_tokenized” para o campo Atributo, no campo Tipo coloque “Contar a frequência do termo”, no campo Tamanho do Vocabulário coloque o valor “100000” e no campo Frequência Mínima do Termo (TF) coloque “1”.

Execute o Fluxo e observe os resultados.

Dúvidas e/ou sugestões envie um e-mail para suporte@lemonade.org.br