评估测试

测试 AI 应用程序需要评估生成的内容,以确保 AI 模型没有产生幻觉响应。

评估响应的一种方法是使用 AI 模型本身进行评估。选择最佳的 AI 模型进行评估,这可能与用于生成响应的模型不同。

用于评估响应的 Spring AI 接口是 Evaluator,定义如下:

@FunctionalInterface
public interface Evaluator {
    EvaluationResponse evaluate(EvaluationRequest evaluationRequest);
}

评估的输入是 EvaluationRequest,定义如下:

public class EvaluationRequest {

	private final String userText;

	private final List<Content> dataList;

	private final String responseContent;

	public EvaluationRequest(String userText, List<Content> dataList, String responseContent) {
		this.userText = userText;
		this.dataList = dataList;
		this.responseContent = responseContent;
	}

  ...
}
  • userText:用户的原始输入,类型为 String

  • dataList:上下文数据,例如来自检索增强生成的数据,附加到原始输入。

  • responseContent:AI 模型的响应内容,类型为 String

相关性评估器

RelevancyEvaluatorEvaluator 接口的一个实现,旨在评估 AI 生成的响应与所提供上下文的相关性。此评估器通过确定 AI 模型的响应是否与用户输入以及检索到的上下文相关,来帮助评估 RAG 流的质量。

评估基于用户输入、AI 模型的响应和上下文信息。它使用提示模板询问 AI 模型,响应是否与用户输入和上下文相关。

这是 RelevancyEvaluator 使用的默认提示模板

Your task is to evaluate if the response for the query
is in line with the context information provided.

You have two options to answer. Either YES or NO.

Answer YES, if the response for the query
is in line with context information otherwise NO.

Query:
{query}

Response:
{response}

Context:
{context}

Answer:
您可以通过 .promptTemplate() 构建器方法提供自己的 PromptTemplate 对象来自定义提示模板。详情请参见自定义模板

在集成测试中使用

以下是 RelevancyEvaluator 在集成测试中使用的示例,使用 RetrievalAugmentationAdvisor 验证 RAG 流的结果

@Test
void evaluateRelevancy() {
    String question = "Where does the adventure of Anacletus and Birba take place?";

    RetrievalAugmentationAdvisor ragAdvisor = RetrievalAugmentationAdvisor.builder()
        .documentRetriever(VectorStoreDocumentRetriever.builder()
            .vectorStore(pgVectorStore)
            .build())
        .build();

    ChatResponse chatResponse = ChatClient.builder(chatModel).build()
        .prompt(question)
        .advisors(ragAdvisor)
        .call()
        .chatResponse();

    EvaluationRequest evaluationRequest = new EvaluationRequest(
        // The original user question
        question,
        // The retrieved context from the RAG flow
        chatResponse.getMetadata().get(RetrievalAugmentationAdvisor.DOCUMENT_CONTEXT),
        // The AI model's response
        chatResponse.getResult().getOutput().getText()
    );

    RelevancyEvaluator evaluator = new RelevancyEvaluator(ChatClient.builder(chatModel));

    EvaluationResponse evaluationResponse = evaluator.evaluate(evaluationRequest);

    assertThat(evaluationResponse.isPass()).isTrue();
}

您可以在 Spring AI 项目中找到多个使用 RelevancyEvaluator 来测试 QuestionAnswerAdvisor(参见测试)和 RetrievalAugmentationAdvisor(参见测试)功能的集成测试。

自定义模板

RelevancyEvaluator 使用默认模板提示 AI 模型进行评估。您可以通过 .promptTemplate() 构建器方法提供自己的 PromptTemplate 对象来自定义此行为。

自定义 PromptTemplate 可以使用任何 TemplateRenderer 实现(默认情况下,它使用基于 StringTemplate 引擎的 StPromptTemplate)。重要的要求是模板必须包含以下占位符

  • 一个 query 占位符,用于接收用户问题。

  • 一个 response 占位符,用于接收 AI 模型的响应。

  • 一个 context 占位符,用于接收上下文信息。

事实核查评估器

FactCheckingEvaluator 是 Evaluator 接口的另一个实现,旨在评估 AI 生成的响应与所提供上下文的事实准确性。此评估器通过验证给定陈述(主张)是否得到所提供上下文(文档)的逻辑支持,帮助检测并减少 AI 输出中的幻觉。

“主张”和“文档”将呈现给 AI 模型进行评估。为此目的,有一些更小、更高效的 AI 模型可用,例如 Bespoke 的 Minicheck,与 GPT-4 等旗舰模型相比,它有助于降低执行这些检查的成本。Minicheck 也可以通过 Ollama 使用。

用法

FactCheckingEvaluator 构造函数接受 ChatClient.Builder 作为参数

public FactCheckingEvaluator(ChatClient.Builder chatClientBuilder) {
  this.chatClientBuilder = chatClientBuilder;
}

评估器使用以下提示模板进行事实核查

Document: {document}
Claim: {claim}

其中 {document} 是上下文信息,{claim} 是待评估的 AI 模型响应。

示例

以下是如何使用 FactCheckingEvaluator 与基于 Ollama 的 ChatModel(特别是 Bespoke-Minicheck 模型)的示例

@Test
void testFactChecking() {
  // Set up the Ollama API
  OllamaApi ollamaApi = new OllamaApi("https://:11434");

  ChatModel chatModel = new OllamaChatModel(ollamaApi,
				OllamaChatOptions.builder().model(BESPOKE_MINICHECK).numPredict(2).temperature(0.0d).build())


  // Create the FactCheckingEvaluator
  var factCheckingEvaluator = new FactCheckingEvaluator(ChatClient.builder(chatModel));

  // Example context and claim
  String context = "The Earth is the third planet from the Sun and the only astronomical object known to harbor life.";
  String claim = "The Earth is the fourth planet from the Sun.";

  // Create an EvaluationRequest
  EvaluationRequest evaluationRequest = new EvaluationRequest(context, Collections.emptyList(), claim);

  // Perform the evaluation
  EvaluationResponse evaluationResponse = factCheckingEvaluator.evaluate(evaluationRequest);

  assertFalse(evaluationResponse.isPass(), "The claim should not be supported by the context");

}
© . This site is unofficial and not affiliated with VMware.