元数据 Schema

概述

Spring Batch 元数据表与它们在 Java 中表示的领域对象密切匹配。例如，JobInstance、JobExecution、JobParameters 和 StepExecution 分别映射到 BATCH_JOB_INSTANCE、BATCH_JOB_EXECUTION、BATCH_JOB_EXECUTION_PARAMS 和 BATCH_STEP_EXECUTION。ExecutionContext 映射到 BATCH_JOB_EXECUTION_CONTEXT 和 BATCH_STEP_EXECUTION_CONTEXT。JobRepository 负责将每个 Java 对象保存并存储到其正确的表中。本附录详细描述了元数据表，以及在创建它们时所做的许多设计决策。在查看本附录后面描述的各种表创建语句时，请注意所使用的数据类型尽可能通用。Spring Batch 提供了许多模式作为示例。由于各个数据库供应商处理数据类型的方式不同，所有这些模式都具有不同的数据类型。下图显示了所有六个表及其相互关系的 ERD 模型

图 1. Spring Batch 元数据 ERD

DDL 脚本示例

Spring Batch Core JAR 文件包含用于为许多数据库平台创建关系表的示例脚本（这些平台反过来由作业仓库工厂 bean 或等效命名空间自动检测）。这些脚本可以按原样使用，也可以根据需要修改以添加额外的索引和约束。文件名的形式为 schema-*.sql，其中 * 是目标数据库平台的简称。这些脚本位于 org.springframework.batch.core 包中。

迁移 DDL 脚本

Spring Batch 提供了迁移 DDL 脚本，您在升级版本时需要执行这些脚本。这些脚本可以在 Core Jar 文件的 org/springframework/batch/core/migration 目录下找到。迁移脚本按照其引入的版本号组织到文件夹中

2.2: 包含您需要从 2.2 之前的版本迁移到 2.2 版本的脚本
4.1: 包含您需要从 4.1 之前的版本迁移到 4.1 版本的脚本

版本

本附录中讨论的许多数据库表都包含一个版本列。此列很重要，因为 Spring Batch 在处理数据库更新时采用乐观锁定策略。这意味着每次“触及”（更新）记录时，版本列中的值都会增加一。当仓库返回保存值时，如果版本号已更改，它会抛出 OptimisticLockingFailureException，表明存在并发访问错误。此检查是必要的，因为即使不同的批处理作业可能在不同的机器上运行，它们都使用相同的数据库表。

身份

BATCH_JOB_INSTANCE、BATCH_JOB_EXECUTION 和 BATCH_STEP_EXECUTION 都包含以 _ID 结尾的列。这些字段充当其相应表的主键。但是，它们不是数据库生成的键。相反，它们由单独的序列生成。这是必要的，因为在将其中一个领域对象插入数据库后，需要将赋予它的键设置到实际对象上，以便它们可以在 Java 中唯一标识。较新的数据库驱动程序（JDBC 3.0 及更高版本）支持此功能，带有数据库生成的键。但是，为了避免要求该功能，使用了序列。每个模式变体都包含以下语句的某种形式

CREATE SEQUENCE BATCH_STEP_EXECUTION_SEQ;
CREATE SEQUENCE BATCH_JOB_EXECUTION_SEQ;
CREATE SEQUENCE BATCH_JOB_INSTANCE_SEQ;

许多数据库供应商不支持序列。在这些情况下，会使用变通方法，例如 MySQL 的以下语句

CREATE TABLE BATCH_STEP_EXECUTION_SEQ (ID BIGINT NOT NULL) type=InnoDB;
INSERT INTO BATCH_STEP_EXECUTION_SEQ values(0);
CREATE TABLE BATCH_JOB_EXECUTION_SEQ (ID BIGINT NOT NULL) type=InnoDB;
INSERT INTO BATCH_JOB_EXECUTION_SEQ values(0);
CREATE TABLE BATCH_JOB_INSTANCE_SEQ (ID BIGINT NOT NULL) type=InnoDB;
INSERT INTO BATCH_JOB_INSTANCE_SEQ values(0);

在上述情况下，一个表代替了每个序列。Spring 核心类 MySQLMaxValueIncrementer 随后递增此序列中的一列以提供类似的功能。

`BATCH_JOB_INSTANCE` 表

BATCH_JOB_INSTANCE 表保存与 JobInstance 相关的所有信息，并作为整个层次结构的顶层。以下通用 DDL 语句用于创建它

CREATE TABLE BATCH_JOB_INSTANCE  (
  JOB_INSTANCE_ID BIGINT  PRIMARY KEY ,
  VERSION BIGINT,
  JOB_NAME VARCHAR(100) NOT NULL ,
  JOB_KEY VARCHAR(32) NOT NULL
);

以下列表描述了表中的每一列

JOB_INSTANCE_ID: 标识实例的唯一 ID。它也是主键。此列的值应通过调用 JobInstance 上的 getId 方法获得。
VERSION: 请参阅版本。
JOB_NAME: 从 Job 对象获取的作业名称。由于它需要标识实例，因此不能为空。
JOB_KEY: JobParameters 的序列化，唯一标识同一作业的不同实例。（具有相同作业名称的 JobInstance 必须具有不同的 JobParameters，因此具有不同的 JOB_KEY 值）。

`BATCH_JOB_EXECUTION_PARAMS` 表

BATCH_JOB_EXECUTION_PARAMS 表包含与 JobParameters 对象相关的所有信息。它包含传递给 Job 的 0 个或多个键/值对，并作为作业运行参数的记录。对于每个有助于生成作业身份的参数，IDENTIFYING 标志设置为 true。请注意，该表已反范式化。不是为每种类型创建一个单独的表，而是一个表，其中包含指示类型的列，如以下清单所示

CREATE TABLE BATCH_JOB_EXECUTION_PARAMS  (
	JOB_EXECUTION_ID BIGINT NOT NULL ,
	PARAMETER_NAME VARCHAR(100) NOT NULL ,
	PARAMETER_TYPE VARCHAR(100) NOT NULL ,
	PARAMETER_VALUE VARCHAR(2500) ,
	IDENTIFYING CHAR(1) NOT NULL ,
	constraint JOB_EXEC_PARAMS_FK foreign key (JOB_EXECUTION_ID)
	references BATCH_JOB_EXECUTION(JOB_EXECUTION_ID)
);

以下列表描述了每一列

JOB_EXECUTION_ID: 来自 BATCH_JOB_EXECUTION 表的外键，指示参数条目所属的作业执行。请注意，每个执行可能存在多行（即键/值对）。
PARAMETER_NAME: 参数名称。
PARAMETER_TYPE: 参数类型的完全限定名称。
PARAMETER_VALUE: 参数值
IDENTIFYING: 标志，指示参数是否对相关 JobInstance 的身份做出了贡献。

请注意，此表没有主键。这是因为框架不需要主键，因此不需要它。如有必要，您可以添加一个带数据库生成键的主键，而不会给框架本身造成任何问题。

`BATCH_JOB_EXECUTION` 表

BATCH_JOB_EXECUTION 表包含与 JobExecution 对象相关的所有信息。每次运行 Job 时，都会有一个新的 JobExecution 和此表中的新行。以下清单显示了 BATCH_JOB_EXECUTION 表的定义

CREATE TABLE BATCH_JOB_EXECUTION  (
  JOB_EXECUTION_ID BIGINT  PRIMARY KEY ,
  VERSION BIGINT,
  JOB_INSTANCE_ID BIGINT NOT NULL,
  CREATE_TIME TIMESTAMP NOT NULL,
  START_TIME TIMESTAMP DEFAULT NULL,
  END_TIME TIMESTAMP DEFAULT NULL,
  STATUS VARCHAR(10),
  EXIT_CODE VARCHAR(20),
  EXIT_MESSAGE VARCHAR(2500),
  LAST_UPDATED TIMESTAMP,
  constraint JOB_INSTANCE_EXECUTION_FK foreign key (JOB_INSTANCE_ID)
  references BATCH_JOB_INSTANCE(JOB_INSTANCE_ID)
) ;

以下列表描述了每一列

JOB_EXECUTION_ID: 唯一标识此执行的主键。此列的值可通过调用 JobExecution 对象的 getId 方法获得。
VERSION: 请参阅版本。
JOB_INSTANCE_ID: 来自 BATCH_JOB_INSTANCE 表的外键。它指示此执行所属的实例。每个实例可能有多个执行。
CREATE_TIME: 表示执行创建时间的 timestamp。
START_TIME: 表示执行开始时间的 timestamp。
END_TIME: 表示执行完成时间的 timestamp，无论成功或失败。当作业未正在运行时，此列中的空值表示发生了某种类型的错误，并且框架在失败前无法执行最后一次保存。
STATUS: 表示执行状态的字符串。可以是 COMPLETED、STARTED 等。此列的对象表示是 BatchStatus 枚举。
EXIT_CODE: 表示执行退出代码的字符串。在命令行作业的情况下，这可能转换为数字。
EXIT_MESSAGE: 表示作业如何退出的更详细描述的字符串。在失败的情况下，这可能包括尽可能多的堆栈跟踪。
LAST_UPDATED: 表示此执行最后一次持久化时间的 timestamp。

`BATCH_STEP_EXECUTION` 表

BATCH_STEP_EXECUTION 表保存与 StepExecution 对象相关的所有信息。此表在许多方面与 BATCH_JOB_EXECUTION 表相似，并且对于每个创建的 JobExecution，每个 Step 始终至少有一个条目。以下清单显示了 BATCH_STEP_EXECUTION 表的定义

CREATE TABLE BATCH_STEP_EXECUTION  (
  STEP_EXECUTION_ID BIGINT NOT NULL PRIMARY KEY ,
  VERSION BIGINT NOT NULL,
  STEP_NAME VARCHAR(100) NOT NULL,
  JOB_EXECUTION_ID BIGINT NOT NULL,
  CREATE_TIME TIMESTAMP NOT NULL,
  START_TIME TIMESTAMP DEFAULT NULL ,
  END_TIME TIMESTAMP DEFAULT NULL,
  STATUS VARCHAR(10),
  COMMIT_COUNT BIGINT ,
  READ_COUNT BIGINT ,
  FILTER_COUNT BIGINT ,
  WRITE_COUNT BIGINT ,
  READ_SKIP_COUNT BIGINT ,
  WRITE_SKIP_COUNT BIGINT ,
  PROCESS_SKIP_COUNT BIGINT ,
  ROLLBACK_COUNT BIGINT ,
  EXIT_CODE VARCHAR(20) ,
  EXIT_MESSAGE VARCHAR(2500) ,
  LAST_UPDATED TIMESTAMP,
  constraint JOB_EXECUTION_STEP_FK foreign key (JOB_EXECUTION_ID)
  references BATCH_JOB_EXECUTION(JOB_EXECUTION_ID)
) ;

以下列表描述了每一列

STEP_EXECUTION_ID: 唯一标识此执行的主键。此列的值应通过调用 StepExecution 对象的 getId 方法获得。
VERSION: 请参阅版本。
STEP_NAME: 此执行所属的步骤名称。
JOB_EXECUTION_ID: 来自 BATCH_JOB_EXECUTION 表的外键。它指示此 StepExecution 所属的 JobExecution。对于给定 JobExecution 的给定 Step 名称，可能只有一个 StepExecution。
START_TIME: 表示执行开始时间的 timestamp。
END_TIME: 表示执行完成时间的 timestamp，无论成功或失败。即使作业当前未运行，此列中的空值也表示发生了某种类型的错误，并且框架在失败前无法执行最后一次保存。
STATUS: 表示执行状态的字符串。可以是 COMPLETED、STARTED 等。此列的对象表示是 BatchStatus 枚举。
COMMIT_COUNT: 在此执行期间，步骤提交事务的次数。
READ_COUNT: 在此执行期间读取的项数。
FILTER_COUNT: 在此执行期间过滤掉的项数。
WRITE_COUNT: 在此执行期间写入和提交的项数。
READ_SKIP_COUNT: 在此执行期间读取时跳过的项数。
WRITE_SKIP_COUNT: 在此执行期间写入时跳过的项数。
PROCESS_SKIP_COUNT: 在此执行期间处理时跳过的项数。
ROLLBACK_COUNT: 在此执行期间的回滚次数。请注意，此计数包括每次发生回滚的次数，包括重试的回滚和跳过恢复过程中的回滚。
EXIT_CODE: 表示执行退出代码的字符串。在命令行作业的情况下，这可能转换为数字。
EXIT_MESSAGE: 表示作业如何退出的更详细描述的字符串。在失败的情况下，这可能包括尽可能多的堆栈跟踪。
LAST_UPDATED: 表示此执行最后一次持久化时间的 timestamp。

`BATCH_JOB_EXECUTION_CONTEXT` 表

BATCH_JOB_EXECUTION_CONTEXT 表包含与 Job 的 ExecutionContext 相关的所有信息。每个 JobExecution 恰好有一个 Job ExecutionContext，它包含特定作业执行所需的所有作业级别数据。此数据通常表示在失败后必须检索的状态，以便 JobInstance 可以“从上次中断的地方开始”。以下清单显示了 BATCH_JOB_EXECUTION_CONTEXT 表的定义

CREATE TABLE BATCH_JOB_EXECUTION_CONTEXT  (
  JOB_EXECUTION_ID BIGINT PRIMARY KEY,
  SHORT_CONTEXT VARCHAR(2500) NOT NULL,
  SERIALIZED_CONTEXT CLOB,
  constraint JOB_EXEC_CTX_FK foreign key (JOB_EXECUTION_ID)
  references BATCH_JOB_EXECUTION(JOB_EXECUTION_ID)
) ;

以下列表描述了每一列

JOB_EXECUTION_ID: 表示上下文所属的 JobExecution 的外键。与给定执行关联的行可能不止一行。
SHORT_CONTEXT: SERIALIZED_CONTEXT 的字符串版本。
SERIALIZED_CONTEXT: 整个上下文，已序列化。

`BATCH_STEP_EXECUTION_CONTEXT` 表

BATCH_STEP_EXECUTION_CONTEXT 表包含与 Step 的 ExecutionContext 相关的所有信息。每个 StepExecution 恰好有一个 ExecutionContext，它包含特定步骤执行所需的所有持久化数据。此数据通常表示在失败后必须检索的状态，以便 JobInstance 可以“从上次中断的地方开始”。以下清单显示了 BATCH_STEP_EXECUTION_CONTEXT 表的定义

CREATE TABLE BATCH_STEP_EXECUTION_CONTEXT  (
  STEP_EXECUTION_ID BIGINT PRIMARY KEY,
  SHORT_CONTEXT VARCHAR(2500) NOT NULL,
  SERIALIZED_CONTEXT CLOB,
  constraint STEP_EXEC_CTX_FK foreign key (STEP_EXECUTION_ID)
  references BATCH_STEP_EXECUTION(STEP_EXECUTION_ID)
) ;

以下列表描述了每一列

STEP_EXECUTION_ID: 表示上下文所属的 StepExecution 的外键。与给定执行关联的行可能不止一行。
SHORT_CONTEXT: SERIALIZED_CONTEXT 的字符串版本。
SERIALIZED_CONTEXT: 整个上下文，已序列化。

国际和多字节字符

如果您在业务处理中使用多字节字符集（例如中文或西里尔文），则可能需要将这些字符持久化到 Spring Batch 模式中。许多用户发现，简单地将模式更改为将 VARCHAR 列的长度加倍就足够了。其他人更喜欢使用 max-varchar-length 为 VARCHAR 列长度一半的值来配置 JobRepository。一些用户还报告说，他们在模式定义中使用 NVARCHAR 代替 VARCHAR。最佳结果取决于数据库平台以及数据库服务器的本地配置方式。

元数据表索引建议

Spring Batch 为核心 jar 文件中针对几种常见数据库平台的元数据表提供了 DDL 示例。索引声明不包含在该 DDL 中，因为用户可能希望如何索引有太多变化，这取决于他们精确的平台、本地约定以及作业操作的业务需求。下表提供了一些指示，说明哪些列将由 Spring Batch 提供的 DAO 实现用于 WHERE 子句，以及它们可能被使用的频率，以便各个项目可以自行决定索引

表 1. SQL 语句中的 Where 子句（不包括主键）及其近似使用频率。
默认表名	Where 子句	频率
`BATCH_JOB_INSTANCE`	`JOB_NAME = ? and JOB_KEY = ?`	每次启动作业时
`BATCH_JOB_EXECUTION`	`JOB_INSTANCE_ID = ?`	每次重新启动作业时
`BATCH_STEP_EXECUTION`	`VERSION = ?`	在提交间隔期间，即 chunk（以及步骤的开始和结束时）
`BATCH_STEP_EXECUTION`	`STEP_NAME = ? and JOB_EXECUTION_ID = ?`	每次步骤执行前

元数据 Schema

概述

DDL 脚本示例

迁移 DDL 脚本

版本

身份

BATCH_JOB_INSTANCE 表

BATCH_JOB_EXECUTION_PARAMS 表

BATCH_JOB_EXECUTION 表

BATCH_STEP_EXECUTION 表

BATCH_JOB_EXECUTION_CONTEXT 表

BATCH_STEP_EXECUTION_CONTEXT 表

归档

国际和多字节字符

元数据表索引建议

`BATCH_JOB_INSTANCE` 表

`BATCH_JOB_EXECUTION_PARAMS` 表

`BATCH_JOB_EXECUTION` 表

`BATCH_STEP_EXECUTION` 表

`BATCH_JOB_EXECUTION_CONTEXT` 表

`BATCH_STEP_EXECUTION_CONTEXT` 表