Estou me divertindo aprendendo sobre o Hadoop e os vários projetos em torno dele e atualmente tenho 2 estratégias diferentes Estou pensando em construir um sistema para armazenar uma grande coleção de dados do tick do mercado, estou apenas começando com HadoopHDSF e HBase, mas esperando que alguém possa me ajudar Planta uma semente de sistema que não terei que juntar mais tarde usando essas tecnologias. Abaixo está um esboço do meu sistema e requisitos com alguns casos de uso de consulta e uso de dados e, finalmente, meu pensamento atual sobre a melhor abordagem da pouca documentação que eu li. É uma pergunta aberta e, com prazer, gosto de qualquer resposta que seja perspicaz e aceite o melhor, sinta-se livre para comentar sobre qualquer ou todos os pontos abaixo. - Requisitos do sistema Duncan Krebs - Ser capaz de aproveitar o armazenamento de dados para testes históricos de back-back de sistemas, histórico de gráficos de dados e futuros dados de mineração. Uma vez armazenados, os dados sempre serão somente leitura, o acesso rápido aos dados é desejado, mas não é imprescindível quando o teste de volta. Esquema estático - Muito simples, eu quero capturar 3 tipos de mensagens do feed: Timestamp incluindo data, dia, hora Cotação incluindo Símbolo, timestamp, ask, askSize, bid, bidSize, volume. (Cerca de 40 colunas de dados) Comércio incluindo Símbolos, timestamp, preço, tamanho, troca. (Cerca de 20 colunas de dados) Dados Inserir Casos de Uso - Ou a partir de um fluxo de dados ao vivo ou pesquisa por meio de Casos de Uso de Consulta de Dados da API do corretor - abaixo demonstra como eu gostaria de consultar logicamente meus dados. Obter-me todas as cotações, negócios, carimbos para o GOOG no 9222014 Obter-me todos os negócios para GOOG, FB ANTES de 912014 E APÓS 512014 Obter-me o número de negociações para estes 50 símbolos por cada dia nos últimos 90 dias. O Santo Graal - Pode MapReduce ser usado para casos de uso como estes abaixo. Gerar meta-dados dos dados do mercado bruto através de agentes distribuídos. Por exemplo, escreva um trabalho que computará o volume de negociação médio em um intervalo de 1 minuto para todos os estoques e todas as sessões armazenadas no banco de dados. Crie o trabalho para ter um agente para cada estocagem que eu digo para que estoque e sessão ele deve calcular esse valor. (É o que o MapReduce pode fazer). No classpath dos agentes posso adicionar meu próprio código util para que o caso de uso acima, por exemplo, possa publicar seu valor em um repo central ou no servidor de mensagens. Posso implantar um agente como um pacote OSGI Crie diferentes tipos de agentes para diferentes tipos de métricas e pontuações que são executadas todas as manhãs antes da negociação prévia ao mercado Comércio de alta freqüência. Também estou interessado se alguém puder compartilhar alguma experiência usando o Hadoop no contexto de sistemas de negociação de alta freqüência. Apenas entrando nessa tecnologia, meu senso inicial é que o Hadoop pode ser ótimo para armazenar e processar grandes volumes de dados de ticks históricos, se alguém estiver usando isso para negociação em tempo real. Eu estou interessado em aprender mais - Duncan Krebs Com base na minha compreensão de seus requisitos , O Hadoop seria realmente uma boa solução para armazenar seus dados e executar suas consultas usando o Hive. Armazenamento: você pode armazenar os dados no Hadoop em uma estrutura de diretório como: Dentro da pasta de horas, os dados específicos para essa hora do dia podem residir. Uma vantagem de usar essa estrutura é que você pode criar tabelas externas na Hive sobre esses dados com suas partições em anos, meses, dias e horas. Algo como isto: chegando à parte das consultas, uma vez que você tenha os dados armazenados no formato mencionado acima, você pode facilmente executar consultas simples. Obter-me todas as cotações, tradições, carimbos para o GOOG no 9222014 Obter-me todos os negócios para GOOG, FB ANTES de 912014 E APÓS 512014 Você pode executar todas essas consultas de agregação uma vez por dia e usar o resultado para apresentar as métricas antes do mercado anterior Negociação. Como a Hive corre internamente, mapreduce estas consultas não serão muito rápidas. Para obter resultados mais rápidos, você pode usar alguns dos projetos de memória como Impala ou Spark. Eu usei o Impala para executar consultas em minhas mesas de colméia e vi uma grande melhoria no tempo de execução para minhas consultas (cerca de 40x). Além disso, você não precisaria fazer nenhuma alteração na estrutura dos dados. Casos de uso de inserção de dados. Você pode usar ferramentas como Flume ou Kafka para inserir dados em tempo real para Hadoop (e, portanto, para as tabelas de colméia). O Flume é linearmente escalável e também pode ajudar no processamento de eventos durante a transferência durante a transferência. Em geral, uma combinação de múltiplas tecnologias de dados grandes pode fornecer uma solução realmente decente para o problema que você propôs, e essa solução seria dimensionada em grandes quantidades de dados. Plataforma baseada em Hadoop TickSmith, com sua plataforma TickVault baseada na tecnologia hadoop, é líder em Grandes aplicações de dados para o ecossistema de corretagem e serviços financeiros. A plataforma é utilizada para centralização e distribuição de dados, vigilância de mercado, gerenciamento de riscos, descoberta de estratégia e análise. É ideal para grupos comerciais e de risco, reguladores, trocas e fornecedores de dados que precisam acumular, transformar, analisar e disseminar grandes escalas de dados financeiros de múltiplas fontes. Principais recursos Otimizados para gerenciar o histórico do comércio e citar dados, notícias e eventos. Processamento, análise, transformação e normalização poderosos. Transfira e transmite dados e relatórios de forma interna e externa por meio de APIs, WEB Interfaces e painéis. Trabalhando com terabytes e petabytes de dados, particularmente, , Deve ser fácil. A plataforma, baseada na tecnologia hadoop, foi projetada para acelerar o desenvolvimento e o gerenciamento de dados internos, fornecendo APIs e integrando ferramentas comerciais existentes, como Matlab, R, Excel, etc. Um portal web unificado fornece dados fáceis Acesso e distribuição. Todos os acessos são protegidos por módulos de direito que permitem permissões finas. A plataforma gerencia dados tanto estruturados como não estruturados, incluindo dados de marca de amplificação de troca, dados de referência, mensagens FIX, dados de back-office, conteúdo de mídia financeira, PDFs, séries temporais, declarações e muito mais. Entregue como uma solução completa, a plataforma pode ser adicionada aos clusters Hadoop existentes. Também está disponível como serviço e entregue como um aparelho que inclui todo o hardware. TickVault on Amazon Web Service Estudo de caso que explica como o National Bank of Canada implantou com sucesso a plataforma TickVault na AWS para analisar centenas de terabytes de comércio e cotação de dados. Leia o estudo de caso completo Temos capacidades de análise de pós-comércio mais rápidas e melhores usando o TickVault e o AWS. Como resultado, podemos melhorar e otimizar nossas operações de negociação e gerar mais receita para o Banco Nacional do Canadá. quot Pascal Bergeron, Diretor de Soluções da Indústria de Comércio Algorítico Últimas Notícias 19 de dezembro de 2016 Comentários desativados na Plataforma de Gerenciamento de Dados Big Big TickVault Compatível com Thomson História da Reuters Tick Montreal, 20 de dezembro de 2016 - TickSmiths A TickVault Platform agora é compatível com o Thomson Reuters Tick History, proporcionando à comunidade comprada uma solução interna para gerenciar esses dados em sua totalidade através de uma única interface. . 6 de dezembro de 2016 Comentários encerrados em 9 de dezembro de 2016 Seminário MiFiD II com Clurdera e TickSmith MiFiD II Seminário Web de Melhor Execução de Execução Registre-se aqui Regulamentação MiFiD II no horizonte significa que as organizações financeiras precisarão aderir aos requisitos até 3 de janeiro de 2018. Essa data pode Parecem ser longos. 19 de outubro de 2016 Comments Off no CME Group colabora com o TickSmith para fornecer acesso amigável aos dados históricos. TickVault simplifica a distribuição de 450 Terabytes de dados históricos da CME DataMine CHICAGO e MONTREAL, 19 de outubro de 2016, o CME Group, líder mundial e mais diversificado Mercado de derivativos e TickSmith, um líder em Big. 11 de julho de 2016 Comments Off no TickSmith Adiciona o Módulo de Inventário de Arquivos à sua Plataforma de Gerenciamento de Dados Premiada A nova funcionalidade simplifica o gerenciamento e distribuição de milhões de arquivos para instituições financeiras, incluindo hedge funds, bancos, revendedores e trocas. MONTREAL 11 de julho de 2016 TickSmiths TickVault Platform foi aprimorada com File Inventory,. Inside Story Acumulando e trabalhando com escalas crescentes, os dados financeiros, particularmente o histórico de negociação e negociação, estão se mostrando problemáticos para o nosso Grupo de derivativos de ações globais. As tecnologias tradicionais e os bancos de dados relacionais não conseguiram acompanhar. Os pedidos de dados históricos do mercado aumentaram à medida que nossa participação no mercado cresceu. A plataforma TickSmiths oferecerá aos clientes acesso a nossos dados comerciais históricos, bem como um conjunto poderoso de relatórios e análises. Com o lançamento da nossa plataforma de corretagem web aprimorada, queríamos melhorar a visualização de dados, a criação de gráficos e visualizações de portfólio intra-dia. Embora esse processo pareça bastante direto, ele requer grandes quantidades de dados que precisam ser normalizados e ajustados, o TickSmith ajudou a agilizar essa operação e nos permitiu adicionar mais funcionalidades à nossa plataforma. Outubro 10, 2009 MapReduce definitivamente ganha força, especialmente, mas De modo algum apenas na forma de Hadoop. Depois do Hadoop World. Jeff Hammerbacher de Cloudera me acompanhou rapidamente através de 25 clientes que tirou dos arquivos Cloudera8217s. Fatos e métricas variaram amplamente, é claro: alguns estão em produção pesada com Hadoop e estão intimamente envolvidos com Cloudera. Outros são usuários ativos do Hadoop, mas são muito secretos. No entanto, outros se inscreveram no treinamento inicial do Hadoop na semana passada. Alguns têm clusters Hadoop nos milhares de nós. Muitos têm clusters Hadoop na faixa dos nós 50-100. Outros estão apenas prototipando o uso de Hadoop. E parece ser 8220OEMing8221 um pequeno cluster Hadoop em cada peça de equipamento vendido. Muitos exportam dados do Hadoop para um DBMS relacional muitos outros apenas deixá-lo em HDFS (Hadoop Distributed File System), e. Com o Hive como linguagem de consulta, ou exatamente em um caso Jaql. Alguns são nomes familiares, em empresas da web ou de outra forma. Outros parecem ser bastante obscuros. As indústrias incluem serviços financeiros, telecomunicações (apenas Ásia e muito novas), bioinformática (e outras pesquisas), inteligência e muitos web andor advertisingmedia. As áreas de aplicação mencionadas 8212 e essas sobreposições em alguns casos 8212 incluem: Análise de registro e análise de cliques de vários tipos. Análise de marketing. Aprendizagem de máquina e extração de dados sofisticada Processamento de imagem Processamento de mensagens XML. Rastreamento da Web e processamento de texto Arquivamento geral, incluindo dados relacionaltabulares, e. Para a conformidade Nós fomos sobre esta lista tão rapidamente que nós didn8217t entrar em muitos detalhes em qualquer usuário. Mas um exemplo que se destacou foi de uma empresa de atendimento de anúncios que possuía uma tubulação de agregação 82208, constituída por 70-80 empregos MapReduce. Eu também falei ontem de novo com Omer Trajman da Vertica, que me surpreendeu ao indicar que um número alto de usuários de Vertica8217s estava em produção com o Hadoop 8212, ou seja, mais de 10 dos clientes de produção da Vertica8217s. (A Vertica realizou recentemente a sua 100ª venda e, claro, nem todos os compradores ainda estão em produção.) O uso da VerticaHadoop parece ter começado na base de serviços financeiros da Vertica8217s 8212, especificamente na negociação financeira 8212 com análises na web e outras coisas interessantes depois. Com base nos atuais esforços de prototipagem, a Omer espera que a bioinformática seja o terceiro mercado de produção da VerticaHadoop, com as telecomunicações em quarto lugar. Não surpreendentemente, o modelo geral de uso de VerticaHadoop parece ser: fazer algo com os dados em Hadoop Dump para Vertica para ser consultado O que achei surpreendente é que os dados geralmente não são reduzidos por esta análise, mas sim explodiram em tamanho. Por exemplo. Uma loja completa de dados de negociação de hipotecas pode ter alguns terabytes de tamanho, mas o processamento de pós baseado em Hadoop pode aumentar isso em 1 ou 2 ordens de grandeza. (Observa-se a importância e a magnitude de 8220cocos8221 dados no processamento de dados científicos). E, finalmente, conversei com a Aster há alguns dias sobre o uso de seu conector nClusterHadoop. Aster caracterizou os usuários do AsterHadoop8217 O uso do Hadoop como sendo da variedade batchETL, que é o caso de uso clássico que um concede ao Hadoop, mesmo que se acredite que MapReduce deve ser comumente feito diretamente no SGBD. Assine nosso feed completo 9 Respostas a 8220Como 30 empresas estão usando Hadoop8221 Vlad em 11 de outubro de 2009 3:34 am Eu fiz alguns cálculos com base nos dados publicamente disponíveis na Internet. O famoso Yahoo Terasort record 8211 classificando 1 TB de dados (na verdade, 10 bilhões de 100 bytes de gravação) em um cluster de servidor Hadoop 3400 em 60 segundos. Omitirei os detalhes do cálculo, mas a CPU média. O uso do disco IO e da rede IO durante a execução foi: 1, 5-6 e 30, respectivamente. Estes não são números exatos, é claro, mas as estimativas baseadas no algoritmo de classificação usado, a configuração do cluster8217s, a potência das CPUs do servidor, a capacidade máxima de NIC (1Gb) e a capacidade do IO de 4 discos SATA. Então, o gargalo é definitivamente rede (acho que não é apenas para triagem, mas para muitos outros problemas). Mas parece que o cluster do Yahoo é subóptimo do ponto de vista do rendimento sustentado máximo ou o Hadoop não pode saturar o link de 1Gb. OK, imagine que não usamos hardware básico, mas servidores mais otimizados e configurações de rede. Como cerca de 2 10Gb porta NIC por servidor e 128 8211 porta 10GB switch. Apenas um. Ao aumentar o rendimento da rede de 30MB para 2GBs (2 10Gb port NIC por servidor) seg, podemos reduzir o número de servidores em um cluster por fator de 70 (50 servidores) e ainda manter a mesma execução de 60 segundos. É possível ordenar 2 GB por segundo (20 milhões de registros de 100 bytes) em um servidor. Claro que é. O cluster Yahoo custa aproximadamente 7 milhões. Eu posso construir meu cluster por menos de 1 milhão e não estamos falando sobre consumo de energia e outros custos associados. MapReduce e commodity hardware won8217t poupar dinheiro. Não compre barato. Curt, você sabe quantos desses clientes V estão 8220 na nuvem8221 (ou seja: they8217re executando em V AMIs na EC2) e quantos deles estão naquela 10 ou então você menciona Vlad em 11 de outubro de 2009 10:40 pmMapReduce é Fortemente promovido, por algum motivo, pelo Yahoo e Facebook, mas não pelo Google. O Google (e a Microsoft) já desenvolveram a próxima geração 8220Hadoops8221 (Pregel e Dryad), mas ainda não estão disponíveis para público em geral e não de código aberto. Mesmo as informações sobre o Pregel são limitadas. Para mim, a situação lembra a União Soviética em meados dos anos 80. Não podendo criar seus próprios supercomputadores, os soviéticos tentaram fazer engenharia reversa para os americanos (Cray, etc.). Você pode reproduzir o que já foi feito, mas você sempre está atrasado. UPD. Dryad pode ser baixado do site MS, mas apenas para pesquisa acadêmica. RC em 12 de outubro de 2009 3:46 am É Dryad muito melhor do que Hadoop Em caso afirmativo, quais são as melhorias Vlad em 12 de outubro de 2009 3:53 pm do Livro Branco de Dryad: 8220 A diferença fundamental entre os dois sistemas (Dryad e MapReduce) é essa Um aplicativo Dryad pode especificar uma DAG de comunicação arbitrária em vez de exigir uma seqüência de operações mapdistributesortreduce. Em particular, os vértices do gráfico podem consumir múltiplas entradas e gerar múltiplas saídas, de diferentes tipos. Para muitas aplicações isso simplifica o mapeamento do algoritmo para a implementação, nos permite construir uma biblioteca maior de sub-rotinas básicas e, juntamente com a capacidade de explorar canos TCP e memória compartilhada para bordas de dados, pode trazer ganhos de desempenho substanciais. Ao mesmo tempo, nossa implementação é geral o suficiente para suportar todos os recursos descritos no papel MapReduce.8221 Andrew S em 19 de outubro de 2009 7:54 pmVlad, a diferença é que os soviéticos não têm fonte aberta por trás deles. Um padrão mais comum na história recente foi: 1. A solução de software proprietário surge 2. Uma boa solução de código aberto com recursos similares sai mais tarde. 3. A solução de código aberto ganha grandes apoiadores, desenvolvedores de topo, empresas de tecnologia de ponta, líderes acadêmicos 4. Solução de código aberto eclipsa solução proprietária no uso por causa da disponibilidade fácil e documentação 5. Solução proprietária desaparece porque se torna rentável mudar para abrir Solução fonte. Hadoop está em algum lugar (3) e parcialmente em (4). 8230 Nada disso é incompatível com levantamentos anteriores de casos de uso de Hadoop. 8230 8230 seja diretor-gerente do Bank of Americas para grandes dados e análises. Há um ano atrás, a Vertica indicou que cerca de 10% de seus clientes estavam em produção com a Hadoop, uma tendência liderada por seus clientes de serviços financeiros. No 8230 Pesquise nos nossos blogs e papéis brancos Os blogs do Monash Research O SGBD 2 cobre o gerenciamento de banco de dados, as análises e as tecnologias relacionadas. Text Technologies abrange a mineração de texto, pesquisa e software social. O Strategic Messaging analisa a estratégia de marketing e mensagens. O relatório Monash examina questões de tecnologia e políticas públicas. O Software Memories conta o histórico da indústria de software. Consultoria de usuários Construindo uma lista curta Refinando seu plano estratégico. Podemos ajudar. Assessoria de vendedor Nós contamos aos fornecedores o que está acontecendo - e, mais importante, o que eles devem fazer sobre isso. Destaques da Monash Research
No comments:
Post a Comment