Gerar N-Gramas

Gera N-gramas a partir de um vetor de texto. Sendo que N-gramas são todas as combinações possíveis de palavras adjacentes e N representa o número de palavras a serem agrupadas. Veja no exemplo abaixo um 3-grama da frase “Ser ou não ser eis a questão”.

“Ser ou não”, “ou não ser”, “não ser eis”, “ser eis a”, “eis a questão”.

Conectores

Entrada Saída
Dados a serem ordenados Dados ordenados

Tarefa

Nome da Tarefa

Aba Execução

Parâmetro Detalhe
Número de elementos por n-grama
Atributos Atributos contendo vetores de texto para gerar os n-gramas
Nome(s) do(s) novo(s) atributo(s) Nome do novo atributo. Pode-se adicionar mais de um nome separado por vírgula caso tenha sido selecionado mais de um atributo

Aba Aparência

Aba Resultados

Exemplo de Utilização

Objetivo: Gerar N-gramas a partir de um vetor de texto.
Base de Dados: Quotes

Fluxo de trabalho

  1. Use a função Ler dados e selecione a base "quotes".
    Operação Ler dados

  2. Use a operação de Dividir texto por delimitador. Selecione “Simples, usando espaços como delimitadores” para o campo Tipo. Preencha “value” no campo Atributos. No campo Tamanho mínimo das partes (tokens) preencha o valor “2”.
    Operação Dividir texto por delimitador

  3. Adicione a operação Gerar N-Gramas. Preencha 2 no campo Número de Elementos por n-grama. Selecione o atributo “value_tokenized” para o campo Atributos.
    Operação Gerar N-Gramas

  4. Execute o fluxo e observe os resultados.
    Resultado


Dúvidas e/ou sugestões envie um e-mail para suporte@lemonade.org.br