terça-feira, 25 de novembro de 2008

Pentaho Data Integrator (Kettle) - Primeiras Impressões

Olá moçada!!

Passei uma semana fora, ministrando um treinamento do Informatica em BH, e já estou de volta.

Na bagagem trouxe uma ferramenta ETL free, o Pentaho Data Integrator 3.04, mais conhecido como Kettle. Além da ferramenta ETL, a Pentaho (http://www.pentaho.com/) possui toda a suíte de ferramentas para BI e Data Mining. Como minha especialidade é ETL, já estou estudando o Kettle e estou bastante surpreso com o poder desta ferramenta. Apesar de ela ser uma ferramenta Open Source, eu encontrei nela algumas características jamais vistas por mim em outras ferramentas e que torna a construção de processos ETL ainda mais fáceis.

Para estudo, fiz os mesmos exercícios ministrados no meu treinamento de Informatica PowerCenter no Kettle e aí que vem a surpresa: apesar de ser o meu primeiro contato nesta ferramenta, consegui sem maiores dificuldades fazer a construção de 4 processos e por incrível que pareça, num tempo mais rápido do que se eu tivesse fazendo no Informatica. :)

O Kettle é muito bom. É uma mistura de DataStage com Informatica. Componentizado como as duas ferramentas. Quase uma centena de objetos para usar. Uma maravilha! Só peca até o momento dos meus estudos em dois aspectos: possui poucas funções próprias para transformações de dados. Quase tudo o que você precisa fazer de transformação de dados você faz num componente de script em Java. Você precisa conhecer o básico da linguagem Java para poder trabalhar com esta ferramenta. Como eu já trabalhei com Java alguns anos atrás, não tive muita dificuldade. A vantagem de se ter essa programação em Java é de tornar as transformações de dados mais flexíveis, isto é, você não fica "engessado" com as funções pré-definidas pela ferramenta e faz a transformação que você quiser, do seu jeito. :)

A outra desvantagem é que, quando você precisa passar um campo de um objeto pro outro, e, nesse próximo objeto, você não for mais utilizá-lo, é preciso que se tenha um objeto "Select Values" para isso (para alterar o data type ou alterar o nome do campo é necessário também o mesmo objeto).

Um objeto que eu achei fantástico, foi o "Combination lookup/Update". Ele faz a lógica de geração de surrogate key nas tabelas de dimensão, tudo num mesmo objeto. Só para visualizar o quanto ele ajuda na construção destas dimensões, mostro abaixo dois mapas idênticos, com a mesma lógica, um feito no Informatica PowerCenter 7.1 e o outro feito no Kettle 3:

Mapa no Kettle

Mapa no Informatica PowerCenter

No Kettle, com dois objetos apenas, fiz a lógica que no Powercenter precisaria de 7 objetos!!

Para mais informações sobre o Pentaho Data Integrator (Kettle), basta entrar no site http://www.pentaho.com/
Você pode baixar a ferramenta ETL e as demais da suíte de BI.

Continuo aqui com os meus estudos.

Abraço a todos

sexta-feira, 14 de novembro de 2008

Informatica World 2009


Olá moçada!

Escrevo aqui de novo para divulgar o encontro anual da empresa Informatica que será realizado nos dias 2, 3 e 4 de junho do ano que vem em Las Vegas.

O pacote de inscrição está a partir de $1,295.00.

Os temas abordados serão:
PowerCenter Performance Tuning
PowerCenter Security 8.x
Integration Data Quality New Features with PowerCenter
Using PowerCenter for Real-Time Data Integration

fonte: www.informatica.com

PowerCenter Versus DataStage

Estou de volta e hoje farei um comparativo entre as duas ferramentas: o Powercenter, da empresa Informatica e o DataStage, da IBM.

Faço aqui um comparativo das versões Informatica PowerCenter 7.1.4 e o DataStage 7.5
Estou ancioso para poder utilizar o PowerCenter versão 8, porém não consigo encontrar uma versão demonstração para poder testar. Se alguém tiver essa versão, favor me envie.

A experiência que tenho para desenvolvimento de processos ETL através do DataStage se resume a 3 meses de serviços prestados a uma empresa de telecomunicações em Minas Gerais. A primeira diferença, e mais básica, é essa: no DataStage, os processos ETL são chamados de jobs, já no PowerCenter denominamos de mapas.

Uma vantagem do Powercenter é a sua linguagem para transformação de dados, que é muito parecida com a sintaxe utilizada no Oracle, e o manual que vem junto com a instalação do client é muito bom, com exemplos de funcionamento e tudo mais. Já no DataStage encontrei algumas dificuldades na sintaxe dos comandos e percebi que alguns desenvolvedores preferem fazer a maioria das transformações dos dados no próprio SQL nas OCI's.

As duas ferramentas são componentizadas, isto é, para desenvolvimento dos processos você vai precisar de pouca ou nenhuma digitação, facilitando assim o aprendizado. Tudo pode ser feito através de objetos que simulam códigos SQL's.

O DataStage leva vantagem no que diz respeito a integração de ferramentas. Em uma só ferramenta, o Designer, você pode criar, executar e acompanhar o processo. Já no PowerCenter, vai ser necessário 3 ferramentas: o Desiger, o Workflow Manager e o Workflow Monitor.

Uma outra diferença em termos de nomenclaturas é que no DataStage temos as Hasheds que possuem a mesma utilidade das Lookups do Informatica.

Bem pessoal, fico por aqui!
O post fica aberto a mais discussões sobre as duas ferramentas!

Marcos David Caliman

quinta-feira, 13 de novembro de 2008

Sobre a Empresa Informatica

Antes de começar a escrever sobre a ferramenta Informatica PowerCenter, gostaria de postar algumas informações sobre a empresa que a desenvolve, a Informatica Corporation.

A Informatica foi fundada em 1993 na Califórnia -USA, e possui mais de 3300 clientes pelo mundo, sendo 91 clientes entre as 100 maiores fortunas dos Estados Unidos.

Aqui no Brasil possui como clientes a Vale do Rio Doce, Oi, Natura, Banco Santander, Caixa Econômica do Brasil, Arcelor Mittal Tubarão, dentre outras.

Além da suite Powercenter para integração de dados, ela possui uma ferramenta OLAP denominada Data Analyzer, uma ferramenta para gerenciamento de metadados conhecida como Metadata Manager, e os produtos PowerConnect e PowerExchange para conexão com mainframes e aplicações como o SAP BW.

Uma pesquisa divulgada na semana passada, realizada pelo instituto Gartner, mostra um quadrante mágico de ferramentas de integração de dados, que traz a Informatica juntamente com IBM e SAP - BO como empresas líderes de mercado.

Abaixo, podemos visualizar todas as outras empresas de integração de dados. Quanto mais perto do quadrante 4 (superior a direita) melhor a empresa está posicionada no mercado.

fonte: www.informatica.com

Mais informações sobre a empresa em: www.informatica.com

Primeiro Post

Este blog tem como objetivo principal discutir características da ferramenta de extração de dados Informatica Powercenter, na qual eu trabalho fazem 4 anos em projetos para Arcelor Mittal Tubarão - Vitória ES (antiga CST).

Apesar do nome do blog estar ligado diretamente a esta ferramenta, pretendo também escrever sobre outras ferramentas disponíveis no mercado como o DataStage, no qual eu também já trabalhei em projetos pra Vivo-BH, e ferramentas ETL free.

Meu intuito com este blog é de poder compartilhar informações e aprender cada dia um pouco mais, e torná-lo a maior concentração de informações sobre o Informatica PowerCenter do Brasil.

Marcos David Caliman