大数据工作流程管理:气流指南(第2部分)
在许多行业中,数据分析在业务的各个阶段的决策过程中一直发挥着关键作用。 在当今的大数据时代,采用水平只会越来越高。 看到每周出现的所有大数据技术都能满足大数据解决方案实施的各个阶段,真是令人难以置信。 随着各种来源(使业务流程自动化的应用程序)以极快的速度生成数据,实施了针对用例的解决方案,例如“从各种来源实时摄取数据”,“以不同数据摄取水平处理数据”以及“准备用于分析的最终数据”变得充满挑战。 尤其是,对数据平台进行稳定,可靠的编排,调度,管理和监视管道是一项非常关键的任务。 而且,由于数据源的动态特性,数据流入率,数据模式,处理需求等,工作流程管理(管道生成/维护/监控)变得更具挑战性。 这是一个由三个部分组成的系列,其中“概述和气流的一些建筑细节”作为第一部分的第(1)部分进行了介绍。 本部分介绍生产中气流的部署选项。 第2部分:部署视图:提供更好的画面 根据需要,可能需要进行简单的设置或对Airflow进行复杂的设置。 可以使用不同的方式来部署气流(尤其是从执行者的角度来看)。 以下是部署选项以及每个选项的描述。 独立部署模式 描述:如上一节所述,开始的典型Airflow安装如下所示。 配置文件(airflow.cfg) :包含以下详细信息:从何处选择DAG,要运行的执行程序,调度程序应多久轮询DAGs文件夹以获取新定义,在哪个端口上启动Web服务器等。 元数据存储库 :通常,Mysql或postgres数据库用于此目的。…