Passei uma semana fora, ministrando um treinamento do Informatica em BH, e já estou de volta.
Na bagagem trouxe uma ferramenta ETL free, o Pentaho Data Integrator 3.04, mais conhecido como Kettle. Além da ferramenta ETL, a Pentaho (http://www.pentaho.com/) possui toda a suíte de ferramentas para BI e Data Mining. Como minha especialidade é ETL, já estou estudando o Kettle e estou bastante surpreso com o poder desta ferramenta. Apesar de ela ser uma ferramenta Open Source, eu encontrei nela algumas características jamais vistas por mim em outras ferramentas e que torna a construção de processos ETL ainda mais fáceis.
Para estudo, fiz os mesmos exercícios ministrados no meu treinamento de Informatica PowerCenter no Kettle e aí que vem a surpresa: apesar de ser o meu primeiro contato nesta ferramenta, consegui sem maiores dificuldades fazer a construção de 4 processos e por incrível que pareça, num tempo mais rápido do que se eu tivesse fazendo no Informatica. :)
O Kettle é muito bom. É uma mistura de DataStage com Informatica. Componentizado como as duas ferramentas. Quase uma centena de objetos para usar. Uma maravilha! Só peca até o momento dos meus estudos em dois aspectos: possui poucas funções próprias para transformações de dados. Quase tudo o que você precisa fazer de transformação de dados você faz num componente de script em Java. Você precisa conhecer o básico da linguagem Java para poder trabalhar com esta ferramenta. Como eu já trabalhei com Java alguns anos atrás, não tive muita dificuldade. A vantagem de se ter essa programação em Java é de tornar as transformações de dados mais flexíveis, isto é, você não fica "engessado" com as funções pré-definidas pela ferramenta e faz a transformação que você quiser, do seu jeito. :)
A outra desvantagem é que, quando você precisa passar um campo de um objeto pro outro, e, nesse próximo objeto, você não for mais utilizá-lo, é preciso que se tenha um objeto "Select Values" para isso (para alterar o data type ou alterar o nome do campo é necessário também o mesmo objeto).
Um objeto que eu achei fantástico, foi o "Combination lookup/Update". Ele faz a lógica de geração de surrogate key nas tabelas de dimensão, tudo num mesmo objeto. Só para visualizar o quanto ele ajuda na construção destas dimensões, mostro abaixo dois mapas idênticos, com a mesma lógica, um feito no Informatica PowerCenter 7.1 e o outro feito no Kettle 3:
Mapa no Kettle
Mapa no Informatica PowerCenter
No Kettle, com dois objetos apenas, fiz a lógica que no Powercenter precisaria de 7 objetos!!
Para mais informações sobre o Pentaho Data Integrator (Kettle), basta entrar no site http://www.pentaho.com/
Você pode baixar a ferramenta ETL e as demais da suíte de BI.
Continuo aqui com os meus estudos.
Abraço a todos
6 comentários:
vc já usou ou testou a ferramenta da Talend a Talend Open Studio?
Ainda não, mas tenho curiosidade de saber como ela funciona. Eu tenho uma amiga que trabalha com ela e ela diz que é a melhor ferramenta Open Source q ela já trabalhou.
você continua usando essa ferramenta da Pentaho? e quanto a outras funcionalidades?
estou pesquisando ferramentas para o meu TCC... pelo que vejo o Pentaho tem tudo né?
contatem-me
wellington.aoliveira@claro.com.br
Marcos, estou fazendo meu tcc sobre ferramentas ETL open source e a Talend Open Studio é uma delas. Será que sua amiga poderia me ajudar? Se possível vc poderial passar o e-mail para que eu possa entrar em contato com ela, para ir mais a fundo na minha pesquisa.
pablocunhaxx@yahoo.com.br
Muito bacana o teu post, muito bom ver uma pessoa com tantos conhecimentos em ETL usando Informatica Powercenter fazendo uma comparação com o Kettle.
Eu já escrevi algumas coisas sobre o Kettle no meu blog, inclusive já conheci o criador do Kettle pessoalmente e tenho acompanhado a evolução da ferramenta desde 2007 e seria bacana trocar informações contigo.
Visite meu blog:
http://blog.professorcoruja.com
Postar um comentário