Big Data: Em conclusão

Um pouco mais de dois anos atrás, me foi dada a oportunidade de escrever sobre Big Data para o site. Eu era, e sou, muito orgulhoso de que a realização. Eu trabalhei uma vez que o tempo para me educar sobre esta parte crescente da cena do banco de dados e analytics, e compartilhar o que eu aprendi com os leitores aqui. Eu também tentei acompanhar fatos relatados com alguma opinião e análise.

Empresa social; LinkedIn revela a sua nova plataforma de blogs; Big Data Analytics; não é a idade de grandes OLAP;? Big Data Analytics; DataRobot visa automatizar baixo pendurado fruto de ciência de dados; Big Data Analytics; fundador MapR John Schroeder desce, COO para substituir

Crianças nos dias de hoje, quando eu cheguei aqui, eu sabia muito sobre Business Intelligence (BI), mas não tanto sobre Big Data em si. Eu suspeitava que os dois estavam separados apenas arbitrariamente, e ao longo do período de dois anos, eu já confirmou essa suspeita. Enquanto isso, Big Data era (e ainda é) principalmente sobre Hadoop. E Hadoop tinha o seu próprio ecossistema separada de ferramentas, fornecedores e profissionais.

Ele também tinha o seu próprio paradigma de consulta em MapReduce, um modo em lote, a abordagem processual (isto é, não-declarativa) para trabalhar com dados que é nativamente programados em Java. MapReduce pode escalar mais de um grande número de nós de servidores em clusters Hadoop, manipulação de grandes volumes de dados. Mas tem a sua sobrecarga e novamente, é um modo de lote, em vez de interativo, tecnologia.

Eu vou vir limpo agora e dizer-lhe que eu sempre pensei que este era primitivo e absurdo. No mundo BI, os praticantes têm SQL (e às vezes MDX) habilidades com as quais eles criam consultas declarativas que retornam conjuntos de resultados de forma interativa e, com ajuste adequado, muito rapidamente. Java? Modo em lote? Me da um tempo.

E o que dizer de segurança e gerenciamento baseado em funções? governança de dados, como o gerenciamento de dados mestre, e linhagem? Ou até mesmo algumas ferramentas front-end com uma interface amigável em vez de forçar as pessoas a trabalhar na linha de comando? O mundo BI tinha confrontado e em grande parte dirigidas a esses requisitos, e ainda assim o mundo Big Data foi (um pouco arrogante) ignorá-los.

Percorremos um longo caminho, baby; Avanço rápido de hoje e estes mundos estão rapidamente se unindo. 2013 foi o ano de soluções SQL-on-Hadoop que acomodaram habilidades SQL especialistas banco de dados importantes ‘e deu a volta MapReduce. Este ano, o Hadoop 2.0 e seu componente fios acondicionados MapReduce em seu lugar: como apenas um algoritmo de entre muitos que Hadoop irá acomodar.

Hue oferece uma interface de usuário baseada em navegador agradável para Hadoop, Ambari fornece extensões de gerenciamento; Sentry começa a fornecer segurança baseada em funções, e a iniciativa Stinger e sua descendência, Tez, tirar proveito de fios para assar SQL-on-Hadoop interativo para a direita em Apache Hive. E agora S parque traz a tecnologia in-memory para Hadoop, também.

Um caminho a percorrer; A evolução do ecossistema Hadoop foi movido pelo impressionantemente alta velocidade. Nós já fechou um monte de lacunas nos últimos dois anos. Mas nós ainda não está feito.

Como eu disse antes, os cientistas de dados não escala. Big Data tem o mesmo tipo de revolução self-service que o BI tem tido. E a próxima área que está maduro para o aumento da maturidade é Predictive Analytics / aprendizagem de máquina (uma vez chamado de “mineração de dados”, antes que o termo se tornou politicamente incorreto). As ferramentas neste espaço ainda são muito difíceis de usar, mesmo os poucos que oferecem interfaces visuais.

É ótimo que podemos construir modelos preditivos com relativa facilidade. Mas a noção de que uma pequena população de pessoas que conhecem as ferramentas, e do programa em R, são necessárias para fazer isso é insustentável. As ferramentas precisam ser acessíveis para os usuários de negócios e, ironicamente, eles precisam ser mais espertos do que são agora. A noção de que os algoritmos de aprendizado de máquina precisa ser selecionado e ajustado manualmente é bobagem – ele só faz os cientistas de dados em homens de meia, quando eles deveriam ser nossos concierges e assessores.

Mesmo aqui, porém, o gelo está começando a quebrar. Eu conheci há três dias com Stephen Púrpura, o CEO da Context start-up Relevante, que oferece tecnologia de aprendizado de máquina que é inteligente e faz usuários escudo de ter que escolher algoritmos. Ele analisa os dados para seus usuários, determina o melhor algoritmo de usar, e inteligentemente achata a complexidade de seus modelos de volta para o número de variáveis ​​de entrada, permitindo-lhe escalar e trabalhar incrivelmente rápido. demonstração da empresa tem a fórmula do herói aprendizado motor para a área de um triângulo. Do princípio. Em menos de 10 segundos.

chute; Por mais que eu repreender o mundo Hadoop por ter começado artificialmente silos e distante, que fez a indústria um grande serviço: levou o mundo principalmente-ossificada de bases de dados, data warehouses e BI e tornou dinâmica novamente.

De repente, os operadores históricos teve que responder, agregar valor aos seus produtos, e inovar rapidamente. É difícil imaginar que ter acontecido sem Hadoop. E assim é com a minha própria mudança. I vai se juntar GigaOm Research próxima semana como Diretor de Pesquisa para o Big Data e Analytics.

Sem as grandes mudanças que têm ocorrido na indústria, eu não teria tido a oportunidade de escrever sobre eles, acho que através deles ou análises presentes neles. Eu certamente não estaria em condições de aderir a uma empresa de análise como um Diretor, ou qualquer outra coisa.

toda a minha carreira foi construída em dados, voltando para o desenvolvimento dBase II eu fiz em 1985, através do meu trabalho com bancos de dados de cliente / servidor e BI. Eu construí minha carreira dessa maneira porque todo o software relacionado com dados. Essa parte não é nova. A mudança que Big Data tem provocado é a frequência com que gravar os dados, como muito do que nós podemos manter, e como usamos e analisar esses dados para nosso benefício.

I esperar uma melhoria em todas as frentes. Estou animado com o futuro.

LinkedIn revela a sua nova plataforma de blogs

É esta a idade de Big OLAP?

DataRobot visa automatizar fruto maduro da ciência de dados

fundador MapR John Schroeder desce, COO para substituir