feat(evaluation): U9 Ragas evaluation pipeline for RAG quality assessment

- RagasEvaluator: LLM-as-Judge evaluation with ragas lib or built-in fallback - EvalDatasetBuilder: from traces or dict list - EvalMetrics: faithfulness, answer_relevancy, context_precision, context_recall - Built-in heuristic evaluation using keyword overlap and Jaccard similarity - 13 tests passing
2026-06-06 22:49:27 +08:00 · 2026-06-06 22:49:27 +08:00 · 83cdddd199
parent 9753a08ac8
commit 83cdddd199
3 changed files with 472 additions and 0 deletions
--- a/src/agentkit/evaluation/init.py
+++ b/src/agentkit/evaluation/init.py
@ -0,0 +1,17 @@
+"""Evaluation module - RAG quality assessment"""
+
+from agentkit.evaluation.ragas_evaluator import (
+    EvalDatasetBuilder,
+    EvalMetrics,
+    EvalResult,
+    EvalSample,
+    RagasEvaluator,
+)
+
+__all__ = [
+    "EvalDatasetBuilder",
+    "EvalMetrics",
+    "EvalResult",
+    "EvalSample",
+    "RagasEvaluator",
+]
--- a/src/agentkit/evaluation/ragas_evaluator.py
+++ b/src/agentkit/evaluation/ragas_evaluator.py
@ -0,0 +1,288 @@
+"""Ragas Evaluator - RAG 质量评估管线
+
+集成 Ragas 评估框架，提供标准化的 RAG 质量指标：
+- Faithfulness: 忠实度（生成内容与检索上下文的一致性）
+- Answer Relevancy: 答案相关性
+- Context Precision: 上下文精确率
+- Context Recall: 上下文召回率
+"""
+
+from __future__ import annotations
+
+import logging
+from dataclasses import dataclass, field
+from typing import Any
+
+logger = logging.getLogger(__name__)
+
+
+@dataclass
+class EvalSample:
+    """评估样本"""
+
+    user_input: str
+    response: str
+    retrieved_contexts: list[str]
+    reference: str = ""
+
+
+@dataclass
+class EvalMetrics:
+    """评估指标"""
+
+    faithfulness: float = 0.0
+    answer_relevancy: float = 0.0
+    context_precision: float = 0.0
+    context_recall: float = 0.0
+
+    @property
+    def average(self) -> float:
+        values = [self.faithfulness, self.answer_relevancy, self.context_precision, self.context_recall]
+        non_zero = [v for v in values if v > 0]
+        return sum(non_zero) / len(non_zero) if non_zero else 0.0
+
+    def to_dict(self) -> dict[str, float]:
+        return {
+            "faithfulness": self.faithfulness,
+            "answer_relevancy": self.answer_relevancy,
+            "context_precision": self.context_precision,
+            "context_recall": self.context_recall,
+            "average": self.average,
+        }
+
+
+@dataclass
+class EvalResult:
+    """评估结果"""
+
+    metrics: EvalMetrics
+    sample_count: int
+    details: list[dict[str, Any]] = field(default_factory=list)
+
+
+class EvalDatasetBuilder:
+    """评估数据集构建器
+
+    从 TraceRecorder 提取历史任务数据，
+    转换为 Ragas 评估格式。
+    """
+
+    @staticmethod
+    def from_traces(traces: list[dict[str, Any]]) -> list[EvalSample]:
+        """从执行轨迹构建评估样本
+
+        Args:
+            traces: 执行轨迹列表，每个包含 task_id, input, output, contexts
+
+        Returns:
+            EvalSample 列表
+        """
+        samples = []
+        for trace in traces:
+            sample = EvalSample(
+                user_input=str(trace.get("input", "")),
+                response=str(trace.get("output", "")),
+                retrieved_contexts=trace.get("contexts", []),
+                reference=trace.get("reference", ""),
+            )
+            if sample.user_input and sample.response:
+                samples.append(sample)
+        return samples
+
+    @staticmethod
+    def from_dict_list(data: list[dict[str, Any]]) -> list[EvalSample]:
+        """从字典列表构建评估样本"""
+        return [
+            EvalSample(
+                user_input=d.get("user_input", ""),
+                response=d.get("response", ""),
+                retrieved_contexts=d.get("retrieved_contexts", []),
+                reference=d.get("reference", ""),
+            )
+            for d in data
+            if d.get("user_input") and d.get("response")
+        ]
+
+
+class RagasEvaluator:
+    """Ragas 评估器
+
+    使用 LLM-as-Judge 模式评估 RAG 质量。
+    支持两种模式：
+    1. Ragas 库模式（需要安装 ragas）
+    2. 内置轻量评估模式（不依赖 ragas 库）
+    """
+
+    def __init__(
+        self,
+        llm_gateway: Any = None,
+        use_ragas_lib: bool = False,
+    ):
+        self._llm_gateway = llm_gateway
+        self._use_ragas_lib = use_ragas_lib
+
+    async def evaluate(
+        self,
+        samples: list[EvalSample],
+        metrics: list[str] | None = None,
+    ) -> EvalResult:
+        """评估 RAG 质量
+
+        Args:
+            samples: 评估样本列表
+            metrics: 要计算的指标列表，None 表示全部
+
+        Returns:
+            EvalResult: 评估结果
+        """
+        if not samples:
+            return EvalResult(metrics=EvalMetrics(), sample_count=0)
+
+        if self._use_ragas_lib:
+            return await self._evaluate_with_ragas(samples, metrics)
+        else:
+            return await self._evaluate_builtin(samples, metrics)
+
+    async def _evaluate_with_ragas(
+        self,
+        samples: list[EvalSample],
+        metrics: list[str] | None,
+    ) -> EvalResult:
+        """使用 Ragas 库评估（需要安装 ragas）"""
+        try:
+            from ragas import evaluate
+            from ragas.metrics import Faithfulness, AnswerRelevancy, ContextPrecision, ContextRecall
+            from ragas.dataset_schema import SingleTurnSample, EvaluationDataset
+
+            # Build evaluation dataset
+            eval_samples = []
+            for s in samples:
+                eval_samples.append(SingleTurnSample(
+                    user_input=s.user_input,
+                    response=s.response,
+                    retrieved_contexts=s.retrieved_contexts,
+                    reference=s.reference,
+                ))
+            dataset = EvaluationDataset(samples=eval_samples)
+
+            # Select metrics
+            metric_objects = []
+            metric_names = metrics or ["faithfulness", "answer_relevancy", "context_precision", "context_recall"]
+            if "faithfulness" in metric_names:
+                metric_objects.append(Faithfulness())
+            if "answer_relevancy" in metric_names:
+                metric_objects.append(AnswerRelevancy())
+            if "context_precision" in metric_names:
+                metric_objects.append(ContextPrecision())
+            if "context_recall" in metric_names:
+                metric_objects.append(ContextRecall())
+
+            result = evaluate(dataset=dataset, metrics=metric_objects)
+
+            # Extract metrics
+            avg_metrics = EvalMetrics()
+            for key, value in result.items():
+                if key == "faithfulness":
+                    avg_metrics.faithfulness = float(value)
+                elif key == "answer_relevancy":
+                    avg_metrics.answer_relevancy = float(value)
+                elif key == "context_precision":
+                    avg_metrics.context_precision = float(value)
+                elif key == "context_recall":
+                    avg_metrics.context_recall = float(value)
+
+            return EvalResult(metrics=avg_metrics, sample_count=len(samples))
+
+        except ImportError:
+            logger.warning("ragas not installed, falling back to built-in evaluation")
+            return await self._evaluate_builtin(samples, metrics)
+
+    async def _evaluate_builtin(
+        self,
+        samples: list[EvalSample],
+        metrics: list[str] | None,
+    ) -> EvalResult:
+        """内置轻量评估（不依赖 ragas 库）
+
+        使用简单的启发式方法估算指标：
+        - Faithfulness: 基于关键词重叠
+        - Answer Relevancy: 基于查询-答案语义相似度
+        - Context Precision: 基于上下文-答案重叠
+        - Context Recall: 基于参考答案覆盖率
+        """
+        from agentkit.memory.relevance_scorer import RelevanceScorer
+
+        scorer = RelevanceScorer()
+        total_faithfulness = 0.0
+        total_relevancy = 0.0
+        total_precision = 0.0
+        total_recall = 0.0
+        details = []
+
+        for sample in samples:
+            # Faithfulness: overlap between response and contexts
+            if sample.retrieved_contexts:
+                combined_context = " ".join(sample.retrieved_contexts)
+                context_terms = scorer._tokenize(combined_context)
+                response_terms = scorer._tokenize(sample.response)
+                if context_terms and response_terms:
+                    overlap = len(context_terms & response_terms)
+                    faithfulness = min(overlap / max(len(response_terms), 1), 1.0)
+                else:
+                    faithfulness = 0.0
+            else:
+                faithfulness = 0.0
+
+            # Answer Relevancy: query-answer overlap
+            query_terms = scorer._tokenize(sample.user_input)
+            response_terms = scorer._tokenize(sample.response)
+            if query_terms and response_terms:
+                relevancy = scorer._jaccard_similarity(query_terms, response_terms)
+            else:
+                relevancy = 0.0
+
+            # Context Precision: how many contexts are relevant to the query
+            if sample.retrieved_contexts:
+                relevant_count = 0
+                for ctx in sample.retrieved_contexts:
+                    ctx_terms = scorer._tokenize(ctx)
+                    if query_terms and scorer._jaccard_similarity(query_terms, ctx_terms) > 0.1:
+                        relevant_count += 1
+                precision = relevant_count / len(sample.retrieved_contexts)
+            else:
+                precision = 0.0
+
+            # Context Recall: reference coverage
+            if sample.reference:
+                ref_terms = scorer._tokenize(sample.reference)
+                combined_ctx = " ".join(sample.retrieved_contexts)
+                ctx_terms = scorer._tokenize(combined_ctx)
+                if ref_terms:
+                    recall = scorer._query_coverage(ref_terms, ctx_terms)
+                else:
+                    recall = 0.0
+            else:
+                recall = 0.0
+
+            total_faithfulness += faithfulness
+            total_relevancy += relevancy
+            total_precision += precision
+            total_recall += recall
+
+            details.append({
+                "user_input": sample.user_input[:50],
+                "faithfulness": faithfulness,
+                "answer_relevancy": relevancy,
+                "context_precision": precision,
+                "context_recall": recall,
+            })
+
+        n = len(samples)
+        avg_metrics = EvalMetrics(
+            faithfulness=total_faithfulness / n,
+            answer_relevancy=total_relevancy / n,
+            context_precision=total_precision / n,
+            context_recall=total_recall / n,
+        )
+
+        return EvalResult(metrics=avg_metrics, sample_count=n, details=details)
--- a/tests/unit/test_ragas_evaluator.py
+++ b/tests/unit/test_ragas_evaluator.py
@ -0,0 +1,167 @@
+"""Tests for RagasEvaluator"""
+
+import pytest
+
+from agentkit.evaluation.ragas_evaluator import (
+    EvalDatasetBuilder,
+    EvalMetrics,
+    EvalResult,
+    EvalSample,
+    RagasEvaluator,
+)
+
+
+class TestEvalMetrics:
+    """EvalMetrics unit tests"""
+
+    def test_average_all_zero(self):
+        m = EvalMetrics()
+        assert m.average == 0.0
+
+    def test_average_with_values(self):
+        m = EvalMetrics(faithfulness=0.8, answer_relevancy=0.6)
+        assert abs(m.average - 0.7) < 0.01
+
+    def test_to_dict(self):
+        m = EvalMetrics(faithfulness=0.9, answer_relevancy=0.7, context_precision=0.8, context_recall=0.6)
+        d = m.to_dict()
+        assert "faithfulness" in d
+        assert "average" in d
+        assert d["faithfulness"] == 0.9
+
+
+class TestEvalSample:
+    """EvalSample unit tests"""
+
+    def test_creation(self):
+        sample = EvalSample(
+            user_input="What is Python?",
+            response="Python is a programming language",
+            retrieved_contexts=["Python is a popular programming language"],
+            reference="Python is a high-level programming language",
+        )
+        assert sample.user_input == "What is Python?"
+        assert len(sample.retrieved_contexts) == 1
+
+
+class TestEvalDatasetBuilder:
+    """EvalDatasetBuilder unit tests"""
+
+    def test_from_traces(self):
+        traces = [
+            {
+                "input": "What is Python?",
+                "output": "Python is a programming language",
+                "contexts": ["Python is popular"],
+                "reference": "Python is a high-level language",
+            },
+            {
+                "input": "What is Java?",
+                "output": "Java is also a programming language",
+                "contexts": ["Java is object-oriented"],
+            },
+        ]
+        samples = EvalDatasetBuilder.from_traces(traces)
+        assert len(samples) == 2
+        assert samples[0].user_input == "What is Python?"
+        assert samples[1].reference == ""
+
+    def test_from_traces_empty_input(self):
+        traces = [{"input": "", "output": "some output"}]
+        samples = EvalDatasetBuilder.from_traces(traces)
+        assert len(samples) == 0  # Empty input should be filtered
+
+    def test_from_dict_list(self):
+        data = [
+            {"user_input": "Q1", "response": "A1", "retrieved_contexts": ["C1"]},
+            {"user_input": "Q2", "response": "A2", "retrieved_contexts": ["C2"]},
+        ]
+        samples = EvalDatasetBuilder.from_dict_list(data)
+        assert len(samples) == 2
+
+
+class TestRagasEvaluator:
+    """RagasEvaluator unit tests"""
+
+    @pytest.mark.asyncio
+    async def test_evaluate_empty_samples(self):
+        evaluator = RagasEvaluator()
+        result = await evaluator.evaluate([])
+        assert result.sample_count == 0
+        assert result.metrics.average == 0.0
+
+    @pytest.mark.asyncio
+    async def test_evaluate_builtin(self):
+        evaluator = RagasEvaluator(use_ragas_lib=False)
+        samples = [
+            EvalSample(
+                user_input="What is Python?",
+                response="Python is a popular programming language used for web development",
+                retrieved_contexts=["Python is a popular programming language"],
+                reference="Python is a high-level programming language",
+            ),
+        ]
+        result = await evaluator.evaluate(samples)
+        assert result.sample_count == 1
+        assert result.metrics.faithfulness >= 0.0
+        assert result.metrics.answer_relevancy >= 0.0
+        assert len(result.details) == 1
+
+    @pytest.mark.asyncio
+    async def test_evaluate_multiple_samples(self):
+        evaluator = RagasEvaluator(use_ragas_lib=False)
+        samples = [
+            EvalSample(
+                user_input="What is Python?",
+                response="Python is a programming language",
+                retrieved_contexts=["Python is popular"],
+            ),
+            EvalSample(
+                user_input="What is Java?",
+                response="Java is an object-oriented language",
+                retrieved_contexts=["Java is widely used"],
+            ),
+        ]
+        result = await evaluator.evaluate(samples)
+        assert result.sample_count == 2
+
+    @pytest.mark.asyncio
+    async def test_evaluate_no_contexts(self):
+        evaluator = RagasEvaluator(use_ragas_lib=False)
+        samples = [
+            EvalSample(
+                user_input="What is Python?",
+                response="Python is a programming language",
+                retrieved_contexts=[],
+            ),
+        ]
+        result = await evaluator.evaluate(samples)
+        assert result.metrics.faithfulness == 0.0
+        assert result.metrics.context_precision == 0.0
+
+    @pytest.mark.asyncio
+    async def test_evaluate_with_reference(self):
+        evaluator = RagasEvaluator(use_ragas_lib=False)
+        samples = [
+            EvalSample(
+                user_input="What is Python?",
+                response="Python is a programming language",
+                retrieved_contexts=["Python is popular"],
+                reference="Python is a high-level programming language",
+            ),
+        ]
+        result = await evaluator.evaluate(samples)
+        assert result.metrics.context_recall >= 0.0
+
+    @pytest.mark.asyncio
+    async def test_evaluate_specific_metrics(self):
+        evaluator = RagasEvaluator(use_ragas_lib=False)
+        samples = [
+            EvalSample(
+                user_input="What is Python?",
+                response="Python is a programming language",
+                retrieved_contexts=["Python is popular"],
+            ),
+        ]
+        result = await evaluator.evaluate(samples, metrics=["faithfulness"])
+        assert result.sample_count == 1