Ciência de Dados
A Ciência de Dados surge como uma nova área que visa materializar processos e práticas para explorar, analisar e gerar modelos que permitem a descrição e previsão de uma ampla variedade de tipos de dados. Por fim, esses processos e práticas melhoram o desempenho e eficácia das organizações e qualidade de vida dos cidadãos.
A Ciência de Dados modela e transforma os dados para subsidiar o processo de decisão por meio do pensamento computacional, em direção a tomada de decisão baseada em dados. decision making.
Cientista de Dados
Profissional da década
Profile:
- Habilidade analítica
- Capacidade de investigação
- Empreendedorismo
- Conhecimento do negócio
- Habilidades de programação
Data Science in Practice
"Se você torturar os dados por tempo suficiente, eles confessarão." Ronald Coase
Gerenciamento de dados: várias plataformas gerais ou especializadas para todos os tipos de dados.
Mineração de dados: várias implementações de cada técnica
Experiência do usuário: o cientista de dados precisa programar?
NÃO! Ele (a) precisa apenas pensar algoritmicamente.
LEMONADE no contexto da ciência de dados
Viabilizadores:
- Ampla disponibilidade de implementações de algoritmos
- Amplo espectro de bancos de dados e tecnologias de armazenamento
- Soluções comerciais de processamento massivamente paralelo
- Tecnologia de virtualização madura
- Tecnologia de transpilação em tempo real é uma realidade
- Consciência do potencial dos dados
Motivations
- Os cientistas de dados não precisam programar, literalmente
- Os cientistas de dados precisam abstrair tarefas algorítmicas
- As plataformas baseadas na Web (Cloud-fashion) oferecem um bom suporte interativo
- A programação visual é uma necessidade
Mineração de Dados
A mineração de dados é o processo de descobrir padrões perspicazes, interessantes e novos, bem como modelos descritivos, compreensíveis e preditivos a partir de dados em larga escala (Fonte: ). É um campo que envolve várias áreas do conhecimento, como sistemas de banco de dados, estatísticas, aprendizado de máquina e reconhecimento de padrões. Além disso, a mineração de dados faz parte de um processo maior de descoberta de conhecimento que inclui tarefas de pré-processamento como, por exemplo, extração e limpeza de dados. E também etapas de pós-processamento, como interpretação de modelos e padrões.
Aprendizado de Máquina
O aprendizado de máquina é um campo da Inteligência Artificial (IA). É o campo de estudo que fornece aos computadores a habilidade de aprender sem ser explicitamente programado (Arthur Samuel, 1959). Ou seja, um programa de computador que é capaz de aprender automaticamente e melhorar através da experiência, agindo de forma semelhante aos seres humanos. O processo de aprendizagem é feito através de dados que são utilizados como entrada para esses algoritmos. Os algoritmos buscam encontrar padrões nesses dados que serão utilizados para melhorar o processo de tomada de decisão.
Data science 101
Técnicas, algorítmos e modelos
Recursos
Kaggle
Cortana Intelligence Gallery
"Cortana Intelligence Gallery enables our growing community of developers and data scientists to share their analytics solutions".
Análise de grafos
https://blog.cloudera.com/blog/2016/10/how-to-do-scalable-graph-analytics-with-apache-spark/
Regressão
https://hortonworks.com/tutorial/predicting-airline-delays-using-sparkr/
Análise de sentimentos
https://hortonworks.com/tutorial/sentiment-analysis-with-apache-spark/
← Sobre Instalação →