Ciência de Dados

A Ciência de Dados surge como uma nova área que visa materializar processos e práticas para explorar, analisar e gerar modelos que permitem a descrição e previsão de uma ampla variedade de tipos de dados. Por fim, esses processos e práticas melhoram o desempenho e eficácia das organizações e qualidade de vida dos cidadãos.

A Ciência de Dados modela e transforma os dados para subsidiar o processo de decisão por meio do pensamento computacional, em direção a tomada de decisão baseada em dados. decision making.

Cientista de Dados

Profissional da década

Profile:

  • Habilidade analítica
  • Capacidade de investigação
  • Empreendedorismo
  • Conhecimento do negócio
  • Habilidades de programação

Data Science in Practice

If you torture the data long enough, it will confess. - Ronald Coase "Se você torturar os dados por tempo suficiente, eles confessarão." Ronald Coase

Gerenciamento de dados: várias plataformas gerais ou especializadas para todos os tipos de dados.

Mineração de dados: várias implementações de cada técnica

Experiência do usuário: o cientista de dados precisa programar?

NÃO! Ele (a) precisa apenas pensar algoritmicamente.

LEMONADE no contexto da ciência de dados

Viabilizadores:

  • Ampla disponibilidade de implementações de algoritmos
  • Amplo espectro de bancos de dados e tecnologias de armazenamento
  • Soluções comerciais de processamento massivamente paralelo
  • Tecnologia de virtualização madura
  • Tecnologia de transpilação em tempo real é uma realidade
  • Consciência do potencial dos dados

Motivations

  • Os cientistas de dados não precisam programar, literalmente
  • Os cientistas de dados precisam abstrair tarefas algorítmicas
  • As plataformas baseadas na Web (Cloud-fashion) oferecem um bom suporte interativo
  • A programação visual é uma necessidade

Mineração de Dados

A mineração de dados é o processo de descobrir padrões perspicazes, interessantes e novos, bem como modelos descritivos, compreensíveis e preditivos a partir de dados em larga escala (Fonte: ). É um campo que envolve várias áreas do conhecimento, como sistemas de banco de dados, estatísticas, aprendizado de máquina e reconhecimento de padrões. Além disso, a mineração de dados faz parte de um processo maior de descoberta de conhecimento que inclui tarefas de pré-processamento como, por exemplo, extração e limpeza de dados. E também etapas de pós-processamento, como interpretação de modelos e padrões.

Aprendizado de Máquina

O aprendizado de máquina é um campo da Inteligência Artificial (IA). É o campo de estudo que fornece aos computadores a habilidade de aprender sem ser explicitamente programado (Arthur Samuel, 1959). Ou seja, um programa de computador que é capaz de aprender automaticamente e melhorar através da experiência, agindo de forma semelhante aos seres humanos. O processo de aprendizagem é feito através de dados que são utilizados como entrada para esses algoritmos. Os algoritmos buscam encontrar padrões nesses dados que serão utilizados para melhorar o processo de tomada de decisão.

Data science 101

Técnicas, algorítmos e modelos

Recursos

Kaggle

"Cortana Intelligence Gallery enables our growing community of developers and data scientists to share their analytics solutions".

Análise de grafos

https://blog.cloudera.com/blog/2016/10/how-to-do-scalable-graph-analytics-with-apache-spark/

Regressão

https://hortonworks.com/tutorial/predicting-airline-delays-using-sparkr/

Análise de sentimentos

https://hortonworks.com/tutorial/sentiment-analysis-with-apache-spark/