Dividir Texto por Delimitador

Transforma o texto de um ou mais atributos em um vetor de texto, usando espaços ou uma expressão regular como delimitadores. Todas as aparições do delimitador são removidas e onde estavam ocorre a divisão do texto.

Conectores

Entrada	Saída
Dados de entrada com atributo em texto para ser dividido	Dados de saída com o texto dividido em um vetor

Tarefa

Nome da Tarefa

Aba Execução

Parâmetro	Detalhe
Tipo	Qual será o tipo de delimitador para dividir. (espaços ou expressão regular)
Atributos	Quais serão os campos que serão divididos
Nome do novo atributo (alias)	Nome do novo atributo. Pode-se adicionar mais de um nome separado por vírgula caso tenha sido selecionado mais de um atributo
Expressão. (Sintaxe Java)	Expressão regular para definir quais serão os delimitadores usados na divisão
Tamanho mínimo das partes (tokens). Partes menores serão descartadas	Define o tamanho mínimo de cada item do vetor final

Aba Aparência

Aba Resultados

Definições

Tipos de Limpeza

Simples: Usa espaços como delimitadores.
Regular: Usa uma expressão regular como delimitador.

Exemplos de Utilização

Objetivo: Mostrar os dois tipos de delimitadores em uma base de citações de autores famosos e uma lista de stop words para a língua inglesa descrita neste link: https://github.com/igorbrigadir/stopwords/blob/master/en/ranksnl_oldgoogle.txt
Base de Dados: Quotes Fluxo de trabalho

Exemplo 1

Use a operação Ler dados e selecione a base “quotes”.
Use a operação de Dividir texto por delimitador. Selecione “Simples, use espaços como delimitadores” para o campo Tipo. Selecione o atributo “value” para o campo Atributos. Preencha o valor “2” no campo Tamanho mínimo das partes (tokens).
Use a operação Ler dados mais uma vez e selecione a base “stopwords”.
Adicione a operação Remover palavras comuns (stopwords). Selecione o atributo “value_tokenized” para o campo Atributos. No campo Segunda Fonte de Dados selecione o atributo “stop_words”.
Execute o fluxo e observe os resultados.

Exemplo 2

Utilize o mesmo fluxo do Exemplo 1.\
Na operação Dividir texto por delimitador, altere o valor do campo Tipo para “Use uma expressão regular para determinar os delimitadores”. No campo Expressão (apenas se tipo for expressão regular) digite “\.|,” (barra invertida, ponto, barra vertical e vírgula).
Execute o fluxo e observe os resultados.

Avaliando os resultados dessa vez é possível ver que as divisões foram realizadas de maneira diferente, sendo que não há mais os caracteres escolhidos nessa saída. Na tabela abaixo foram escolhidos o ponto final e a vírgula.

Exemplo 3

Utilize o mesmo fluxo do Exemplo 1.
Na operação Dividir texto por delimitador, selecione novamente o atributo “Simples, use espaços como delimitadores” para o campo Tipo. Altere o valor do campo Tamanho mínimo das partes (tokens) para “5”.
Execute o fluxo e observe os resultados.

É possível observar que todas as palavras com a quantidade de caracteres menor que o valor definido (5) foram descartadas.

Dúvidas e/ou sugestões envie um e-mail para suporte@lemonade.org.br

← Operações Textuais - Gerar N-Gramas Operações Textuais - Contar Freqência dos Termos →