使用RSSBus Connect进行批处理

edi

如果您希望将来自多个系统的数据集成到数据仓库或数据池中,您有多种方法可以选择。包括批处理,实时触发工作流程以及订阅。RSSBus Connect为您提供了一个带有单一用户界面的工具,支持以上所有方法。

本文将重点介绍何时以及为什么要使用批处理以及如何使用RSSBus Connect实现数据集成。

什么是批处理?

从历史上看,大多数数据处理技术(如数据仓库)都是为批处理而设计的。确实,实时和流媒体数据集成技术的应用越来越广。但正如电台在电视时代依然保留一席之地,批量处理一时间也不会消失。

批处理一次能处理大量的记录。新到达的数据元素被收集到一个组中,然后等待处理,管理人员可以完全控制何时以及如何处理。例如,他们可能会安排批处理作业以固定的时间间隔(例如,每15分钟,每小时,每晚)运行,或者按条件触发任务(例如,当批次包含超过1MB的数据时),批次包含所有新修改的记录或满足指定条件的所有记录。批处理通常在脱机情况下工作,选择晚上运行,以避免破坏生产系统上的日常活动。

优点:高性能,低成本

经过优化以执行大批量重复性任务,批处理提供了一种快速处理大量数据的方法。例如,使用批处理将20,000行插入数据库要快得多,然后将每行作为单独的事务插入。由于自动化处理消除了对专业数据录入员的需求,因此也降低了运营成本。

应用案例

批处理通常用于执行高容量、重复性任务,而不需要及时保持数据更新。银行、电子商务公司或制造商在一天结束时使用批处理更新贷款申请、销售交易或库存的生产数据。还可以使用批处理来生成报告,打印文档以及执行必须在特定业务期限内完成其他非交互式任务。

结构

批处理的体系结构具有以下组件:

  • 数据存储。您需要一个存储库,用于存储大量各种格式的数据,它可以是数据仓库或数据池。
  • 批处理作业。读取源数据,处理它,并将输出写入新的存储位置。
  • 分析数据存储。许多批处理作业用于准备需要分析的数据,然后对数据进行结构化处理,以便于使用分析工具进行查询。
  • 分析和报告工具。许多批处理作业的目标是通过分析和报告以提高对数据的洞察。
  • 编排。通常,需要某些业务流程将数据迁移或复制到数据存储,批处理,分析数据存储和报告层。

使用RSSBus Connect进行批处理

RSSBus Connect提供了多种功能,使您可以轻松实现批处理:

  • 批处理结果 – 所有RSSBus数据存储连接器都包含“Batch Results”触发器。当设置为False时,端口为每个处理记录创建单独的消息。当设置为True时,RSSBus Connect将消息中的所有记录创建为一个消息,之后它们一起被发送到下一个端口进行处理。这个过程在一个“transaction”中处理,如果发生处理错误,整个消息都会回滚。

  • 定时任务 – RSSBus可以设置批处理的运行时间间隔。用户可以配置RSSBus来处理整个数据集,或者仅处理自上一个间隔以来最新的记录。可以通过时间戳,或者记录标志来确保不被重复处理。

  • 相关或不相关的数据 – 用户创建的批处理作业可以包含相同类型数据、结构化或是非结构化混合的信息。您甚至可以指定相关批次,例如发票批次和支持订单项的批次。

  • CSV批量导入/导出 – RSSBus Connect可以直接导入和导出CSV文件,提高处理效率。

如果您需要处理大量对高性能不具有高度时间敏感性的数据,那么RSSBus Connect具有极大的灵活性和批处理流程的优化是最佳选择。

EDI和批量/批处理

如果您的合作伙伴与您传输大量的文件,您可能需要考虑使用批量处理来处理繁多的EDI消息。EDI规范定义了如何处理批处理,并且RSSBus EDI系统完全符合EDI规范的批处理要求。

此外,RSSBus使用户能够对传入的EDI消息采用批处理方式。例如,X12,EDIFACT和其他EDI端口使用户能够接受批量的事务,之后将批量数据拆分为单独的事务,并将每个事务路由到不同的位置。如果批量数据中包括发票和发货通知,则用户可以自动将发票发给会计,将发货通知发给物流。

选择正确的存储

选择存储系统需要考量数据的类型、结构、模型和预期用途,以及您对模式、一致性和事务速度的要求。无论您选择关系数据库管理系统(RDBMS),非关系型数据库,或是分布式数据库(DDB),RSSBus Connect都能自动地与您的数据存储系统实现无缝连接:

  • 关系数据库是世界上最流行的数据存储系统,允许数据显示二维表的形式来存储数据。这些数据库植根于SQL语句,此类系统包括MySQL,Microsoft SQL Server,PostgreSQL和Oracle等。RSSBus Connect为不同的关系数据库管理系统(RDBMS)提供了连接端口,允许您连接到数据库并批量插入数据。

  • 当存储的大部分数据不是二维表时,非关系数据库是首选。与RDBMS不同,NoSQL系统与模式无关,这使其成为非结构化或部分结构化数据存储的理想选择。NoSQL系包括Redis和Amazon DynamoDB等键值存储,Cassandra和Apache HBase等广泛的列存储,MongoDB和Couchbase等文档存储,甚至包括Google Search和Elasticsearch等搜索引擎。与RDBMS非常相似,RSSBus Connect支持所有上述非关系型数据库管理系统的连接端口。

  • 分布式数据库是一种数据仓库解决方案,允许不断增加的数据量分散存储在在网络中的多个服务器上,通过在多个节点之间分配数据处理进行优化。Apache Hadoop是一个分布式数据存储的平台,特别是其存储部分,Hadoop Distributed File System (HDFS)是一个分布式文件系统,它借助于商用机器并在所有机器上提供高吞吐量。Amazon Redshift是一种基于云的数据仓库解决方案。使用此类系统时,您可以通过提取,转换,加载(ETL)过程路由数据流,也可以选择提取,加载,转换(ELT)。RSSBus Connects支持两种方式,这意味着无论您选择哪个,应用程序都可以容纳您的数据流。

总而言之,RSSBus Connect是一个强大的应用程序解决方案,旨在处理和集成大量数据。您可以批量处理大量数据,并将其连接到任意数据库系统、ERP应用程序等,这都归功于RSSBus系统丰富的连接端口。它使您精确控制进出存储系统的数据结构,并允许您自动化和优化数据流,在当今数据驱动的经济环境中最大化数据资源的优势。

现在下载

下载RSSBus Connect 2019,最快速最简单地连接企业中数据和应用程序:

了解更多EDI信息,请您电话 150-0298-3180 / 177-8250-8152 或邮件 edi@kasoftware.cn 联系我们。点击下方蓝色按钮,即可免费试用EDI软件。

注:文案部分图片及内容来源于网络,版权归原创作者所有,如有侵犯到您的权益,请您联系我们进行删除,给您带来困扰,我们深感抱歉。

标签: , , , , , ,
文章分类 帮助文档, 知识库