Importação de bases de dados

Após a criação do usuário e reconhecimento do layout básico da plataforma, você poderá prosseguir para a importação de bases de dados, que podem ser utilizadas como entrada em processos de fluxos de trabalhos. Para iniciar a importação de uma base, clique na primeira aba na parte superior da página, chamada Base de dados: Bases de Dados
A tela de importação de bases de dados aparecerá, e é nela que será feito o gerenciamento das bases de dados que você escolher utilizar. Para carregar uma base de dados clique no botão Adicionar:
Tabela - Bases de Dados
A seguir, clique em Escolha na seção chamada “Sistema de arquivos distribuído (HDFS)”:
Sistema de arquivos distribuídos
Você poderá arrastar o arquivo do seu gerenciador de arquivos ou selecioná-lo manualmente:
Importar - Sistema de arquivos distribuídos
Para este tutorial, utilizaremos a base de dados Iris, uma das mais reconhecidas na literatura de reconhecimento de padrões. Faça o download dessa base de dados para seu computador para um arquivo chamado “iris.csv”. Uma outra opção é criar um arquivo no seu computador chamado “iris.csv” e copiar manualmente os dados presentes no link indicado para o esse arquivo. A seguir, selecione ou arraste esse arquivo para a plataforma Lemonade e, a sua base de dados estará disponível quando você clicar novamente na aba Base de dados na parte superior da página.
Tabela - Bases de Dados
Com o arquivo carregado, a base de dados aparece na tela com algumas opções de gerenciamento e informações básicas, como seu ID de identificação na plataforma, nome, descrição, formato, data de criação, o nome do usuário responsável pelo carregamento e suas tags. Além disso, outras opções de gerenciamento são:
Lixeira - Excluir: Exclui a base de dados da plataforma.
Seta - Baixar: Efetua o download da base de dados que foi carregada para a plataforma.

Ao clicar no nome nome da base de dados, prosseguimos para a aba de Informações básicas. Informações como nome da base de dados e descrição da mesma podem ser alteradas nessa aba.
Informações da Base de Dados

  • Na tela de edição, alguns campos de destaque são: Formato: Explicita o formato em que o arquivo da base de dados está. No exemplo, a base está no formato CSV.

    • Tags: Define rótulos pré-existentes para essa base dados. Por exemplo, “Base de classificação”, “Base de regressão”, “Base do experimento X”, etc.
    • Armazenamento: Indica onde a base de dados está armazenada e qual sistema de arquivos está sendo utilizado para armazená-la. Essa opção não pode ser modificada.
    • Tratar esses valores como valores nulos (opcional): Define um valor (ou uma expressão) a ser tratado como nulo ou ausente na base de dados. Caso esse valor apareça, o mesmo será convertido para null na plataforma Lemonade. Exemplos de possíveis opções: “n/a”, “none”, “NA” ou “?”.
    • Usar a primeira linha como cabeçalho: Se marcado, define que a primeira linha da base de dados como cabeçalho.
    • Multilinhas (atributo com quebra de linha): Se marcado, define que existirá um atributo explícito indicando a quebra de linha.
    • Delimitador de atributos (apenas CSV): Indica o delimitador de atributos (ou variáveis) utilizado pela plataforma para arquivos no formato CSV. Possíveis opções: “,” (vírgula), “;” (ponto-e-vírgula), “.” (ponto), “{tab}”, “{new_line \n}” ou “{new_line \r\n}”.
    • Delimitador de registro (apenas CSV): Indica o delimitador de registros (exemplos ou instâncias) utilizado pela plataforma para arquivos no formato CSV. Possíveis opções: “,” (vírgula), “;” (ponto-e-vírgula), “.” (ponto), “{tab}”, “{new_line \n}” ou “{new_line \r\n}”.
    • Delimitador de texto (apenas CSV): Indica o delimitador de texto (String) utilizado pela plataforma para arquivos no formato CSV. Possíveis opções: “ '' ” (aspas duplas) ou “ ‘ ” (aspas simples).
    • Codificação (opcional): Indica o tratamento de codificação de caracteres a ser usado na base de dados. Possíveis opções: “ISO-8859-1”, “UTF-8” ou “UTF-16”.
  • Em relação às opções de botões, têm-se:

    • Salvar: Salva a base de dados com as modificações realizadas pelo usuário.
    • Cancelar: Cancela a edição da base e volta para a aba de bases de dados.
    • Inferir esquema: Infere o esquema de atributos da base de dados, sem necessitar da adição manual. Para isso, é obrigatoriamente necessário especificar o delimitador de texto no caso do CSV. Caso a base tenha cabeçalho, o usuário deverá a marcar a opção Usar a primeira linha como cabeçalho. No caso da base Iris, o delimitador de texto é a o caractere de vírgula (“ , “) e a mesma não possui cabeçalho predefinido.
    • Pré-visualização: Pré-visualiza a base de dados no formato atualmente definido, seja ele o formato padrão da plataforma ou no formato alterado pelo usuário.

    Pré Visualização

Para editar os atributos da base de dados, clique na aba Atributos dentro da seção Base de dados. É possível editar os nomes dos atributos (mesmo quando existe cabeçalho predefinido), alterar o tipo desses atributos (decimal, data, caractere, texto, etc), alterar o seu formato e sua representação em relação a dados ausentes ou nulos (por exemplo, “n/a”, “none”, “NA” ou “?”) . Neste tutorial, apenas iremos renomear os nomes dos atributos inferidos da base Iris para os seus verdadeiros nomes (sepal length, sepal width, petal length, petal width e class), Portanto, o esquema da base de dados Iris ficará da seguinte forma:
Editar atributos

Para salvar as mudanças feitas nos atributos, clique em Salvar, e para pré-visualizar a base formatada, clique em Pré-visualização. A imagem a seguir será mostrada para o usuário, como pré-visualização da base editada.
Pré Visualização


Dúvidas e/ou sugestões envie um e-mail para suporte@lemonade.org.br