André Claudino
A quantidade de dados gerada é difícil de ser processada por métodos tradicionais.
A transmissão e processamento precisa ser rápida para evitar gargalos ou permitir análises
Formatos variados de representaçao (estruturado, ou não, imagens, sons, etc)
O fluxo de dados é inconsistente (picos de acesso ou demanda)
A combinação dos dados de diferentes fontes não é trivial
Dados precisam estar corretos
A informação precisa ser útil
SELECT
count(1),
sk_date
FROM
"sk_freight"."calculate"
GROUP BY
sk_date
ORDER BY
sk_date DESC
LIMIT 50;
val df = spark
.read
.csv("pedidos.csv")
df
.withColumn("marketplace", col("cnpj") != "00776574000660")
.save("pedidos_com_marketplace.csv")
val df = spark
.read
.csv("pedidos.csv")
df
.withColumn("marketplace", col("cnpj") != "00776574000660")
.save("pedidos_com_marketplace.csv")
echo "deb https://dl.bintray.com/sbt/debian /" | sudo tee -a /etc/apt/sources.list.d/sbt.list
sudo apt-key adv --keyserver hkp://keyserver.ubuntu.com:80 --recv 2EE0EA64E40A89B84B2DF73499E82A75642AC823
sudo apt-get update
sudo apt-get install sbt