terça-feira, 25 de novembro de 2008

Pentaho Data Integrator (Kettle) - Primeiras Impressões

Olá moçada!!

Passei uma semana fora, ministrando um treinamento do Informatica em BH, e já estou de volta.

Na bagagem trouxe uma ferramenta ETL free, o Pentaho Data Integrator 3.04, mais conhecido como Kettle. Além da ferramenta ETL, a Pentaho (http://www.pentaho.com/) possui toda a suíte de ferramentas para BI e Data Mining. Como minha especialidade é ETL, já estou estudando o Kettle e estou bastante surpreso com o poder desta ferramenta. Apesar de ela ser uma ferramenta Open Source, eu encontrei nela algumas características jamais vistas por mim em outras ferramentas e que torna a construção de processos ETL ainda mais fáceis.

Para estudo, fiz os mesmos exercícios ministrados no meu treinamento de Informatica PowerCenter no Kettle e aí que vem a surpresa: apesar de ser o meu primeiro contato nesta ferramenta, consegui sem maiores dificuldades fazer a construção de 4 processos e por incrível que pareça, num tempo mais rápido do que se eu tivesse fazendo no Informatica. :)

O Kettle é muito bom. É uma mistura de DataStage com Informatica. Componentizado como as duas ferramentas. Quase uma centena de objetos para usar. Uma maravilha! Só peca até o momento dos meus estudos em dois aspectos: possui poucas funções próprias para transformações de dados. Quase tudo o que você precisa fazer de transformação de dados você faz num componente de script em Java. Você precisa conhecer o básico da linguagem Java para poder trabalhar com esta ferramenta. Como eu já trabalhei com Java alguns anos atrás, não tive muita dificuldade. A vantagem de se ter essa programação em Java é de tornar as transformações de dados mais flexíveis, isto é, você não fica "engessado" com as funções pré-definidas pela ferramenta e faz a transformação que você quiser, do seu jeito. :)

A outra desvantagem é que, quando você precisa passar um campo de um objeto pro outro, e, nesse próximo objeto, você não for mais utilizá-lo, é preciso que se tenha um objeto "Select Values" para isso (para alterar o data type ou alterar o nome do campo é necessário também o mesmo objeto).

Um objeto que eu achei fantástico, foi o "Combination lookup/Update". Ele faz a lógica de geração de surrogate key nas tabelas de dimensão, tudo num mesmo objeto. Só para visualizar o quanto ele ajuda na construção destas dimensões, mostro abaixo dois mapas idênticos, com a mesma lógica, um feito no Informatica PowerCenter 7.1 e o outro feito no Kettle 3:

Mapa no Kettle

Mapa no Informatica PowerCenter

No Kettle, com dois objetos apenas, fiz a lógica que no Powercenter precisaria de 7 objetos!!

Para mais informações sobre o Pentaho Data Integrator (Kettle), basta entrar no site http://www.pentaho.com/
Você pode baixar a ferramenta ETL e as demais da suíte de BI.

Continuo aqui com os meus estudos.

Abraço a todos

6 comentários:

Anônimo disse...

vc já usou ou testou a ferramenta da Talend a Talend Open Studio?

Marcos David Caliman disse...

Ainda não, mas tenho curiosidade de saber como ela funciona. Eu tenho uma amiga que trabalha com ela e ela diz que é a melhor ferramenta Open Source q ela já trabalhou.

Wellington Oliveira disse...

você continua usando essa ferramenta da Pentaho? e quanto a outras funcionalidades?

estou pesquisando ferramentas para o meu TCC... pelo que vejo o Pentaho tem tudo né?

contatem-me

wellington.aoliveira@claro.com.br

Anônimo disse...

Marcos, estou fazendo meu tcc sobre ferramentas ETL open source e a Talend Open Studio é uma delas. Será que sua amiga poderia me ajudar? Se possível vc poderial passar o e-mail para que eu possa entrar em contato com ela, para ir mais a fundo na minha pesquisa.

pablocunhaxx@yahoo.com.br

Caio Moreno de Souza disse...

Muito bacana o teu post, muito bom ver uma pessoa com tantos conhecimentos em ETL usando Informatica Powercenter fazendo uma comparação com o Kettle.

Caio Moreno de Souza disse...

Eu já escrevi algumas coisas sobre o Kettle no meu blog, inclusive já conheci o criador do Kettle pessoalmente e tenho acompanhado a evolução da ferramenta desde 2007 e seria bacana trocar informações contigo.
Visite meu blog:
http://blog.professorcoruja.com