Gerar N-Gramas
Gera N-gramas a partir de um vetor de texto. Sendo que N-gramas são todas as combinações possíveis de palavras adjacentes e N representa o número de palavras a serem agrupadas. Veja no exemplo abaixo um 3-grama da frase “Ser ou não ser eis a questão”.
“Ser ou não”, “ou não ser”, “não ser eis”, “ser eis a”, “eis a questão”.
Conectores
Entrada | Saída |
---|---|
Dados a serem ordenados | Dados ordenados |
Tarefa
Nome da Tarefa
Aba Execução
Parâmetro | Detalhe |
---|---|
Número de elementos por n-grama | |
Atributos | Atributos contendo vetores de texto para gerar os n-gramas |
Nome(s) do(s) novo(s) atributo(s) | Nome do novo atributo. Pode-se adicionar mais de um nome separado por vírgula caso tenha sido selecionado mais de um atributo |
Exemplo de Utilização
Objetivo: Gerar N-gramas a partir de um vetor de texto.
Base de Dados: Quotes
Use a função Ler dados e selecione a base "quotes".
Use a operação de Dividir texto por delimitador. Selecione “Simples, usando espaços como delimitadores” para o campo Tipo. Preencha “value” no campo Atributos. No campo Tamanho mínimo das partes (tokens) preencha o valor “2”.
Adicione a operação Gerar N-Gramas. Preencha 2 no campo Número de Elementos por n-grama. Selecione o atributo “value_tokenized” para o campo Atributos.
Execute o fluxo e observe os resultados.
Dúvidas e/ou sugestões envie um e-mail para suporte@lemonade.org.br