Pentaho(套件总览)
Pentaho 是一套面向 数据集成(ETL) 与 商业智能(报表、多维分析) 的软件家族;日常口语里常与 PDI / Kettle 混用,但严格说 Kettle 只是其中的 数据集成组件。产品线历经开源社区版与企业版演进,当前归属与发行节奏以官网与发行说明为准。
→ 返回 开发工具
在你笔记体系里的定位
| 层级 | 这篇写什么 | 延伸阅读 |
|---|---|---|
| 套件 | 组件分工、选型时该想到哪些模块 | 本文 |
| ETL 实操 | .ktr / .kjb、Spoon、性能与排错 | Kettle(PDI) |
常见组件(概念地图)
| 组件 | 常见用途 |
|---|---|
| Pentaho Data Integration(PDI) | 批/准实时数据抽取、清洗、加载;设计器通常仍称 Spoon |
| Report Designer | 基于数据源的报表模板设计与发布(与旧式 BI 平台配合时常见) |
| Metadata Editor | 业务元数据、语义层(视组织规范使用) |
| Schema Workbench | Mondrian 多维模型设计(Cube、维度/度量),服务 OLAP 类分析 |
| (历史)BI Server / BA Platform | 集中发布报表、仪表盘、权限与调度;新项目常评估是否迁移到现代栈 |
实际项目里:数据管道多半落在 PDI;交互式报表/看板可能被 Superset、Metabase、云厂商 BI 替代,但 Mondrian + Schema Workbench 在保留多维语义时仍有存量场景。
社区版与企业版(心里有数即可)
- 社区版:通常包含核心设计与运行时能力,适合学习与中小型离线集成;具体组件清单随版本变化。
- 企业版:在原厂支持下增加运维、治理、连接器与企业集成能力;选型涉及许可证与支持 SLA。
不必在笔记里死记版本矩阵——落地时以 当前下载包的组件列表与文档 为准。
何时选 Pentaho / PDI
适配:异构 JDBC 源多、团队熟悉可视化 ETL、离线批量为主、需要快速串联遗留库表。
审慎:超大规模实时流处理、强依赖代码评审与 Git 友好的流水线——往往会对照 Spark/Flink、Airflow + SQL/Python、云原生集成套件。
延伸阅读
- Kettle(PDI):转换与作业、命令行调度、步骤与性能要点。