Pentaho(套件总览)

Pentaho 是一套面向 数据集成(ETL)商业智能(报表、多维分析) 的软件家族;日常口语里常与 PDI / Kettle 混用,但严格说 Kettle 只是其中的 数据集成组件。产品线历经开源社区版与企业版演进,当前归属与发行节奏以官网与发行说明为准。

返回 开发工具


在你笔记体系里的定位

层级这篇写什么延伸阅读
套件组件分工、选型时该想到哪些模块本文
ETL 实操.ktr / .kjb、Spoon、性能与排错Kettle(PDI)

常见组件(概念地图)

组件常见用途
Pentaho Data Integration(PDI)批/准实时数据抽取、清洗、加载;设计器通常仍称 Spoon
Report Designer基于数据源的报表模板设计与发布(与旧式 BI 平台配合时常见)
Metadata Editor业务元数据、语义层(视组织规范使用)
Schema WorkbenchMondrian 多维模型设计(Cube、维度/度量),服务 OLAP 类分析
(历史)BI Server / BA Platform集中发布报表、仪表盘、权限与调度;新项目常评估是否迁移到现代栈

实际项目里:数据管道多半落在 PDI;交互式报表/看板可能被 Superset、Metabase、云厂商 BI 替代,但 Mondrian + Schema Workbench 在保留多维语义时仍有存量场景。


社区版与企业版(心里有数即可)

  • 社区版:通常包含核心设计与运行时能力,适合学习与中小型离线集成;具体组件清单随版本变化。
  • 企业版:在原厂支持下增加运维、治理、连接器与企业集成能力;选型涉及许可证与支持 SLA。

不必在笔记里死记版本矩阵——落地时以 当前下载包的组件列表与文档 为准。


何时选 Pentaho / PDI

适配:异构 JDBC 源多、团队熟悉可视化 ETL、离线批量为主、需要快速串联遗留库表。

审慎:超大规模实时流处理、强依赖代码评审与 Git 友好的流水线——往往会对照 Spark/Flink、Airflow + SQL/Python、云原生集成套件。


延伸阅读

  • Kettle(PDI):转换与作业、命令行调度、步骤与性能要点。