Remover palavras comuns (stopwords)
Remove todas as aparições das stop words em um vetor de texto. As stop words são definidas por uma lista de palavras que pode variar de acordo com o objetivo.
Conectores
Entrada | Saída |
---|---|
Dados de entrada com texto para remover stop words e dados contendo um atributo com stop words | Dados de saída com um campo de texto sem as stop words |
Tarefa
Nome da Tarefa
Aba Execução
Parâmetro | Detalhe |
---|---|
Atributos | Quais atributos terão as ‘stop words’ removidas |
Nome do novo atributo (alias) | Nome do novo atributo. Pode-se adicionar mais de um nome separado por vírgula caso tenha sido selecionado mais de um atributo |
Lista de stop words | Palavras a serem removidas |
Atributo da segunda fonte de dados com as stop words | Atributo da segunda entrada contendo as palavras a serem removidas |
Diferenciar maiúsculas/minúsculas | Diferencia maiúsculas de minúsculas para encontrar as ‘stop words’ |
Idioma (opcional) | Se informado, será usada a lista padrão da língua |
Exemplos de Utilização
Objetivo: Demonstrar as três formas diferentes de utilizar a operação Remover palavras comuns (stopwords).
Base de Dados: Quotes e Base de stop words
Exemplo 1
Use a operação Ler dados e selecione a base “quotes”.
Use a operação de Dividir texto por delimitador. Selecione “Simples, use espaços como delimitadores” para o campo Tipo. Selecione o atributo “value” para o campo Atributos. Preencha o valor “2” no campo Tamanho mínimo das partes (tokens).
Use a operação Ler dados mais uma vez e selecione a base “stopwords”.
Adicione a operação Remover palavras comuns (stopwords). Selecione o atributo “value_tokenized” para o campo Atributos. No campo Segunda Fonte de Dados selecione o atributo “stop_words”.
Execute o fluxo e visualize os resultados.
Exemplo 2
Repita os passos 1 e 2 do Exemplo 1.
Na operação Remover palavras comuns (stopwords), adicione uma lista de palavras separadas por vírgula no campo Lista de stop words.
Execute o fluxo e observe os resultados
Exemplo 3
Repita os passos 1 e 2 do Exemplo 1.
Na operação Remover palavras comuns (stopwords), selecione o idioma “inglês” no campo Idioma (opcional).
Execute o fluxo e observe os resultados.
Na base de dados usada como exemplo houve a remoção das mesmas palavras usando a lista padrão e a outra. Isso ocorreu, pois as palavras mais comuns, como conectores e artigos, costumam estar na maioria das listas.
Dúvidas e/ou sugestões envie um e-mail para suporte@lemonade.org.br