Dividir Texto por Delimitador
Transforma o texto de um ou mais atributos em um vetor de texto, usando espaços ou uma expressão regular como delimitadores. Todas as aparições do delimitador são removidas e onde estavam ocorre a divisão do texto.
Conectores
Entrada | Saída |
---|---|
Dados de entrada com atributo em texto para ser dividido | Dados de saída com o texto dividido em um vetor |
Tarefa
Nome da Tarefa
Aba Execução
Parâmetro | Detalhe |
---|---|
Tipo | Qual será o tipo de delimitador para dividir. (espaços ou expressão regular) |
Atributos | Quais serão os campos que serão divididos |
Nome do novo atributo (alias) | Nome do novo atributo. Pode-se adicionar mais de um nome separado por vírgula caso tenha sido selecionado mais de um atributo |
Expressão. (Sintaxe Java) | Expressão regular para definir quais serão os delimitadores usados na divisão |
Tamanho mínimo das partes (tokens). Partes menores serão descartadas | Define o tamanho mínimo de cada item do vetor final |
Definições
Tipos de Limpeza
- Simples: Usa espaços como delimitadores.
- Regular: Usa uma expressão regular como delimitador.
Exemplos de Utilização
Objetivo: Mostrar os dois tipos de delimitadores em uma base de citações de autores famosos e uma lista de stop words para a língua inglesa descrita neste link: https://github.com/igorbrigadir/stopwords/blob/master/en/ranksnl_oldgoogle.txt
Base de Dados: Quotes
Exemplo 1
Use a operação Ler dados e selecione a base “quotes”.
Use a operação de Dividir texto por delimitador. Selecione “Simples, use espaços como delimitadores” para o campo Tipo. Selecione o atributo “value” para o campo Atributos. Preencha o valor “2” no campo Tamanho mínimo das partes (tokens).
Use a operação Ler dados mais uma vez e selecione a base “stopwords”.
Adicione a operação Remover palavras comuns (stopwords). Selecione o atributo “value_tokenized” para o campo Atributos. No campo Segunda Fonte de Dados selecione o atributo “stop_words”.
Execute o fluxo e observe os resultados.
Exemplo 2
Utilize o mesmo fluxo do Exemplo 1.\
Na operação Dividir texto por delimitador, altere o valor do campo Tipo para “Use uma expressão regular para determinar os delimitadores”. No campo Expressão (apenas se tipo for expressão regular) digite “\.|,” (barra invertida, ponto, barra vertical e vírgula).
Execute o fluxo e observe os resultados.
Avaliando os resultados dessa vez é possível ver que as divisões foram realizadas de maneira diferente, sendo que não há mais os caracteres escolhidos nessa saída. Na tabela abaixo foram escolhidos o ponto final e a vírgula.
Exemplo 3
Utilize o mesmo fluxo do Exemplo 1.
Na operação Dividir texto por delimitador, selecione novamente o atributo “Simples, use espaços como delimitadores” para o campo Tipo. Altere o valor do campo Tamanho mínimo das partes (tokens) para “5”.
Execute o fluxo e observe os resultados.
É possível observar que todas as palavras com a quantidade de caracteres menor que o valor definido (5) foram descartadas.
Dúvidas e/ou sugestões envie um e-mail para suporte@lemonade.org.br