feat(memory): U1 RAG self-correction loop (CRAG)

- RelevanceScorer: keyword overlap + query coverage + retrieval score + length penalty - RAGSelfCorrectionLoop: state machine driven retrieve-evaluate-correct-degrade cycle - Integrated into MemoryRetriever with enable_self_correction option - 21 tests passing
2026-06-06 22:16:23 +08:00 · 2026-06-06 22:16:23 +08:00 · a6c9babfdc
parent 468dfd71e8
commit a6c9babfdc
4 changed files with 826 additions and 1 deletions
--- a/src/agentkit/memory/rag_loop.py
+++ b/src/agentkit/memory/rag_loop.py
@ -0,0 +1,237 @@
 """RAGSelfCorrectionLoop - CRAG 自纠正循环
 实现 Corrective RAG 模式：检索→评估→纠正/降级→生成
 当检索结果质量不足时，自动改写查询重新检索，形成自纠正闭环。
 """
 from __future__ import annotations
 import logging
 from dataclasses import dataclass, field
 from enum import Enum
 from typing import Any
 from agentkit.memory.base import MemoryItem
 from agentkit.memory.query_transformer import QueryTransformerBase, NoOpQueryTransformer
 from agentkit.memory.relevance_scorer import (
    RelevanceScorer,
    RelevanceVerdict,
    RetrievalEvaluation,
 )
 logger = logging.getLogger(__name__)
 class LoopState(str, Enum):
    """自纠正循环状态"""
    RETRIEVE = "retrieve"
    EVALUATE = "evaluate"
    CORRECT = "correct"
    DEGRADE = "degrade"
    GENERATE = "generate"
@dataclass
 class CorrectionAttempt:
    """一次纠正尝试的记录"""
    query: str
    evaluation: RetrievalEvaluation
    state: LoopState
@dataclass
 class RAGLoopResult:
    """自纠正循环的最终结果"""
    items: list[MemoryItem]
    evaluation: RetrievalEvaluation
    attempts: list[CorrectionAttempt]
    corrected: bool
    degraded: bool
    total_retries: int
 class RAGSelfCorrectionLoop:
    """CRAG 自纠正循环
    状态机驱动的检索-评估-纠正循环：
    1. RETRIEVE: 使用 MemoryRetriever 检索
    2. EVALUATE: RelevanceScorer 评估检索质量
    3. CORRECT: 质量不足时，改写查询重新检索
    4. DEGRADE: 超过重试次数，返回降级结果
    5. GENERATE: 质量足够，返回结果
    熔断机制：
    - max_retries: 最大重试次数（默认 3）
    - 超过重试次数后强制降级，标记 low_confidence
    """
    def __init__(
        self,
        retriever: Any,  # MemoryRetriever
        scorer: RelevanceScorer | None = None,
        query_transformer: QueryTransformerBase | None = None,
        max_retries: int = 3,
        min_items_for_correct: int = 1,
    ):
        self._retriever = retriever
        self._scorer = scorer or RelevanceScorer()
        self._query_transformer = query_transformer or NoOpQueryTransformer()
        self._max_retries = max_retries
        self._min_items_for_correct = min_items_for_correct
    async def retrieve_with_correction(
        self,
        query: str,
        top_k: int = 5,
        token_budget: int = 3000,
        filters: dict[str, Any] | None = None,
    ) -> RAGLoopResult:
        """执行带自纠正的检索
        Args:
            query: 原始查询
            top_k: 返回的最大结果数
            token_budget: token 预算
            filters: 过滤条件
        Returns:
            RAGLoopResult: 包含检索结果、评估、尝试记录
        """
        attempts: list[CorrectionAttempt] = []
        current_query = query
        retry_count = 0
        while retry_count <= self._max_retries:
            # RETRIEVE
            items = await self._retriever.retrieve(
                current_query, top_k=top_k, token_budget=token_budget,
                filters=filters, _skip_correction=True,
            )
            # EVALUATE
            evaluation = self._scorer.evaluate(current_query, items)
            state = self._determine_next_state(evaluation, items)
            attempt = CorrectionAttempt(
                query=current_query,
                evaluation=evaluation,
                state=state,
            )
            attempts.append(attempt)
            logger.info(
                f"RAG loop attempt {retry_count + 1}: "
                f"query='{current_query[:50]}...', "
                f"verdict={evaluation.overall_verdict.value}, "
                f"avg_score={evaluation.avg_score:.2f}, "
                f"state={state.value}"
            )
            # GENERATE — quality is sufficient
            if state == LoopState.GENERATE:
                return RAGLoopResult(
                    items=items,
                    evaluation=evaluation,
                    attempts=attempts,
                    corrected=retry_count > 0,
                    degraded=False,
                    total_retries=retry_count,
                )
            # CORRECT — rewrite query and retry
            retry_count += 1
            if retry_count <= self._max_retries:
                current_query = await self._rewrite_query(
                    query, current_query, evaluation
                )
                continue
            # DEGRADE — exceeded max retries
            break
        # Degraded result: filter to relevant items and mark low confidence
        relevant_items = [
            s.item
            for s in evaluation.scores
            if s.verdict != RelevanceVerdict.INCORRECT
        ]
        result_items = relevant_items if relevant_items else items
        for item in result_items:
            item.metadata["low_confidence"] = True
        return RAGLoopResult(
            items=result_items,
            evaluation=evaluation,
            attempts=attempts,
            corrected=False,
            degraded=True,
            total_retries=retry_count,
        )
    def _determine_next_state(
        self, evaluation: RetrievalEvaluation, items: list[MemoryItem]
    ) -> LoopState:
        """根据评估结果确定下一个状态"""
        verdict = evaluation.overall_verdict
        if verdict == RelevanceVerdict.CORRECT:
            if evaluation.relevant_count >= self._min_items_for_correct:
                return LoopState.GENERATE
            # Correct verdict but not enough items — still try to generate
            if items:
                return LoopState.GENERATE
            return LoopState.CORRECT
        if verdict == RelevanceVerdict.AMBIGUOUS:
            # Some relevant results — could improve but not terrible
            return LoopState.CORRECT
        # INCORRECT — definitely need correction
        return LoopState.CORRECT
    async def _rewrite_query(
        self,
        original_query: str,
        current_query: str,
        evaluation: RetrievalEvaluation,
    ) -> str:
        """改写查询以改善检索质量
        策略：
        1. 使用 QueryTransformer 改写
        2. 从评估结果中提取改进线索
        3. 追加失败模式提示
        """
        # Use query transformer for rewriting
        transformed = await self._query_transformer.transform(current_query)
        new_query = transformed.main_query
        # If transformer didn't change the query, try with original
        if new_query == current_query:
            # Add context from failed evaluation to help next retrieval
            failed_terms = []
            for score in evaluation.scores:
                if score.verdict == RelevanceVerdict.INCORRECT:
                    # Extract key terms from low-scoring items to avoid
                    doc_text = str(score.item.value)[:100]
                    failed_terms.append(doc_text)
            if failed_terms and original_query != current_query:
                # Try original query as fallback
                new_query = original_query
            elif failed_terms:
                # Add "NOT" context to help filter
                new_query = f"{current_query} (excluding irrelevant results)"
        # Add sub-queries if available
        if transformed.sub_queries:
            # Use the first sub-query as the new primary query
            # This explores different aspects of the original question
            new_query = transformed.sub_queries[0]
        logger.info(f"Query rewritten: '{current_query[:50]}...' -> '{new_query[:50]}...'")
        return new_query
--- a/src/agentkit/memory/relevance_scorer.py
+++ b/src/agentkit/memory/relevance_scorer.py
@ -0,0 +1,215 @@
 """RelevanceScorer - 检索结果相关性自动评估
 对检索结果逐文档评估与查询的相关性，用于 CRAG 自纠正循环的评估阶段。
 """
 from __future__ import annotations
 import logging
 import math
 import re
 from dataclasses import dataclass
 from enum import Enum
 from typing import Any
 from agentkit.memory.base import MemoryItem
 logger = logging.getLogger(__name__)
 class RelevanceVerdict(str, Enum):
    """相关性判定结果"""
    CORRECT = "correct"
    AMBIGUOUS = "ambiguous"
    INCORRECT = "incorrect"
@dataclass
 class RelevanceScore:
    """单个文档的相关性评分"""
    item: MemoryItem
    score: float  # 0.0 ~ 1.0
    verdict: RelevanceVerdict
    reason: str = ""
@dataclass
 class RetrievalEvaluation:
    """一次检索的整体评估结果"""
    scores: list[RelevanceScore]
    overall_verdict: RelevanceVerdict
    avg_score: float
    relevant_count: int
    total_count: int
 class RelevanceScorer:
    """检索结果相关性评估器
    基于查询-文档语义相似度和关键词重叠的轻量级评估器。
    不依赖 LLM 调用，适用于生产环境的低延迟评估。
    评分策略：
    1. 关键词重叠率（Jaccard 相似度）
    2. 查询词覆盖率（query term coverage）
    3. 原始检索分数加权
    4. 长度惩罚（过短或过长的文档降分）
    """
    def __init__(
        self,
        correct_threshold: float = 0.6,
        ambiguous_threshold: float = 0.35,
        keyword_weight: float = 0.3,
        coverage_weight: float = 0.3,
        retrieval_weight: float = 0.3,
        length_weight: float = 0.1,
        min_doc_length: int = 20,
        max_doc_length: int = 5000,
    ):
        self._correct_threshold = correct_threshold
        self._ambiguous_threshold = ambiguous_threshold
        self._keyword_weight = keyword_weight
        self._coverage_weight = coverage_weight
        self._retrieval_weight = retrieval_weight
        self._length_weight = length_weight
        self._min_doc_length = min_doc_length
        self._max_doc_length = max_doc_length
    def score_item(self, query: str, item: MemoryItem) -> RelevanceScore:
        """评估单个检索结果与查询的相关性"""
        doc_text = str(item.value)
        # 1. Keyword overlap (Jaccard similarity)
        query_terms = self._tokenize(query)
        doc_terms = self._tokenize(doc_text)
        keyword_score = self._jaccard_similarity(query_terms, doc_terms)
        # 2. Query term coverage
        coverage_score = self._query_coverage(query_terms, doc_terms)
        # 3. Original retrieval score
        retrieval_score = min(max(item.score, 0.0), 1.0)
        # 4. Length penalty
        length_score = self._length_score(len(doc_text))
        # Weighted combination
        final_score = (
            keyword_score * self._keyword_weight
            + coverage_score * self._coverage_weight
            + retrieval_score * self._retrieval_weight
            + length_score * self._length_weight
        )
        # Determine verdict
        verdict = self._determine_verdict(final_score)
        reason = (
            f"keyword={keyword_score:.2f}, coverage={coverage_score:.2f}, "
            f"retrieval={retrieval_score:.2f}, length={length_score:.2f}"
        )
        return RelevanceScore(
            item=item,
            score=final_score,
            verdict=verdict,
            reason=reason,
        )
    def evaluate(
        self, query: str, items: list[MemoryItem]
    ) -> RetrievalEvaluation:
        """评估一次检索的整体质量"""
        if not items:
            return RetrievalEvaluation(
                scores=[],
                overall_verdict=RelevanceVerdict.INCORRECT,
                avg_score=0.0,
                relevant_count=0,
                total_count=0,
            )
        scores = [self.score_item(query, item) for item in items]
        relevant_count = sum(
            1 for s in scores if s.verdict != RelevanceVerdict.INCORRECT
        )
        avg_score = sum(s.score for s in scores) / len(scores)
        # Overall verdict based on average score and relevant ratio
        relevant_ratio = relevant_count / len(scores)
        if avg_score >= self._correct_threshold and relevant_ratio >= 0.5:
            overall_verdict = RelevanceVerdict.CORRECT
        elif avg_score >= self._ambiguous_threshold or relevant_ratio >= 0.3:
            overall_verdict = RelevanceVerdict.AMBIGUOUS
        else:
            overall_verdict = RelevanceVerdict.INCORRECT
        return RetrievalEvaluation(
            scores=scores,
            overall_verdict=overall_verdict,
            avg_score=avg_score,
            relevant_count=relevant_count,
            total_count=len(scores),
        )
    def _determine_verdict(self, score: float) -> RelevanceVerdict:
        """根据分数判定相关性"""
        if score >= self._correct_threshold:
            return RelevanceVerdict.CORRECT
        elif score >= self._ambiguous_threshold:
            return RelevanceVerdict.AMBIGUOUS
        else:
            return RelevanceVerdict.INCORRECT
    @staticmethod
    def _tokenize(text: str) -> set[str]:
        """分词：中文按字符，英文按空格，统一小写"""
        tokens: set[str] = set()
        # Extract English words
        en_words = re.findall(r"[a-zA-Z]+", text.lower())
        tokens.update(en_words)
        # Extract Chinese characters (individual chars + bigrams)
        cn_chars = re.findall(r"[\u4e00-\u9fff]", text)
        tokens.update(cn_chars)
        # Add Chinese bigrams for better matching
        for i in range(len(cn_chars) - 1):
            tokens.add(cn_chars[i] + cn_chars[i + 1])
        return tokens
    @staticmethod
    def _jaccard_similarity(set_a: set[str], set_b: set[str]) -> float:
        """Jaccard 相似度"""
        if not set_a or not set_b:
            return 0.0
        intersection = len(set_a & set_b)
        union = len(set_a | set_b)
        if union == 0:
            return 0.0
        return intersection / union
    @staticmethod
    def _query_coverage(query_terms: set[str], doc_terms: set[str]) -> float:
        """查询词覆盖率：文档中出现的查询词比例"""
        if not query_terms:
            return 0.0
        covered = len(query_terms & doc_terms)
        return covered / len(query_terms)
    def _length_score(self, length: int) -> float:
        """长度评分：过短或过长的文档降分"""
        if length < self._min_doc_length:
            # Too short — likely insufficient context
            ratio = length / self._min_doc_length
            return ratio * 0.5
        elif length > self._max_doc_length:
            # Too long — may contain irrelevant information
            excess = (length - self._max_doc_length) / self._max_doc_length
            return max(0.3, 1.0 - excess * 0.5)
        else:
            # Good length range
            return 1.0
--- a/src/agentkit/memory/retriever.py
+++ b/src/agentkit/memory/retriever.py
@ -17,6 +17,8 @@ from agentkit.memory.working import WorkingMemory
 from agentkit.memory.episodic import EpisodicMemory
 from agentkit.memory.semantic import SemanticMemory
 from agentkit.memory.query_transformer import QueryTransformerBase
 from agentkit.memory.rag_loop import RAGSelfCorrectionLoop
 from agentkit.memory.relevance_scorer import RelevanceScorer
 from agentkit.tools.base import Tool
 logger = logging.getLogger(__name__)
@ -55,6 +57,8 @@ class MemoryRetriever:
        weights: dict[str, float] | None = None,
        query_transformer: QueryTransformerBase | None = None,
        context_template: str = "structured",
        enable_self_correction: bool = False,
        max_correction_retries: int = 3,
    ):
        self._working = working_memory
        self._episodic = episodic_memory
@ -66,6 +70,15 @@ class MemoryRetriever:
        }
        self._query_transformer = query_transformer
        self._context_template = context_template
        self._enable_self_correction = enable_self_correction
        self._correction_loop: RAGSelfCorrectionLoop | None = None
        if enable_self_correction:
            self._correction_loop = RAGSelfCorrectionLoop(
                retriever=self,
                scorer=RelevanceScorer(),
                query_transformer=query_transformer,
                max_retries=max_correction_retries,
            )
    async def retrieve(
        self,
@ -73,8 +86,31 @@ class MemoryRetriever:
        top_k: int = 5,
        token_budget: int = 3000,
        filters: dict[str, Any] | None = None,
        _skip_correction: bool = False,
    ) -> list[MemoryItem]:
-        """混合检索三层记忆"""
+        """混合检索三层记忆
        Args:
            query: 检索查询
            top_k: 返回最大结果数
            token_budget: token 预算
            filters: 过滤条件
            _skip_correction: 内部参数，CRAG 循环内部调用时跳过自纠正
        """
        # Self-correction loop (CRAG)
        if (
            self._enable_self_correction
            and self._correction_loop is not None
            and not _skip_correction
        ):
            result = await self._correction_loop.retrieve_with_correction(
                query, top_k=top_k, token_budget=token_budget, filters=filters
            )
            if result.degraded:
                logger.warning(
                    f"RAG self-correction degraded after {result.total_retries} retries"
                )
            return result.items
        # Query transformation
        if self._query_transformer is not None:
            transformed = await self._query_transformer.transform(query)
--- a/tests/unit/test_rag_loop.py
+++ b/tests/unit/test_rag_loop.py
@ -0,0 +1,337 @@
 """Tests for RelevanceScorer and RAGSelfCorrectionLoop"""
 import pytest
 from agentkit.memory.base import MemoryItem
 from agentkit.memory.relevance_scorer import (
    RelevanceScorer,
    RelevanceScore,
    RelevanceVerdict,
    RetrievalEvaluation,
 )
 from agentkit.memory.rag_loop import (
    RAGSelfCorrectionLoop,
    RAGLoopResult,
    LoopState,
 )
 # --- RelevanceScorer Tests ---
 class TestRelevanceScorer:
    """RelevanceScorer unit tests"""
    def setup_method(self):
        self.scorer = RelevanceScorer()
    def test_score_highly_relevant_item(self):
        """Highly relevant document should score high"""
        query = "Python web framework Django Flask"
        item = MemoryItem(
            key="doc1",
            value="Django and Flask are popular Python web frameworks for building web applications",
            score=0.9,
        )
        result = self.scorer.score_item(query, item)
        assert result.score > 0.5
        assert result.verdict in (RelevanceVerdict.CORRECT, RelevanceVerdict.AMBIGUOUS)
    def test_score_irrelevant_item(self):
        """Completely irrelevant document should score low"""
        query = "Python web framework"
        item = MemoryItem(
            key="doc2",
            value="The weather is sunny today and the birds are singing in the garden",
            score=0.1,
        )
        result = self.scorer.score_item(query, item)
        assert result.score < 0.5
        assert result.verdict == RelevanceVerdict.INCORRECT
    def test_score_chinese_relevant_item(self):
        """Chinese text relevance scoring"""
        query = "GEO优化策略"
        item = MemoryItem(
            key="doc3",
            value="GEO优化策略包括内容结构化、Schema标记、AI平台适配等多个方面",
            score=0.85,
        )
        result = self.scorer.score_item(query, item)
        assert result.score > 0.3  # Chinese bigrams should match
    def test_score_short_document_penalty(self):
        """Very short documents should be penalized"""
        query = "machine learning algorithms"
        short_item = MemoryItem(key="short", value="ML", score=0.9)
        normal_item = MemoryItem(
            key="normal",
            value="Machine learning algorithms include supervised and unsupervised learning methods",
            score=0.9,
        )
        short_result = self.scorer.score_item(query, short_item)
        normal_result = self.scorer.score_item(query, normal_item)
        assert normal_result.score > short_result.score
    def test_evaluate_empty_results(self):
        """Empty retrieval results should be INCORRECT"""
        evaluation = self.scorer.evaluate("test query", [])
        assert evaluation.overall_verdict == RelevanceVerdict.INCORRECT
        assert evaluation.avg_score == 0.0
        assert evaluation.total_count == 0
    def test_evaluate_mixed_results(self):
        """Mixed quality results should be AMBIGUOUS or CORRECT"""
        query = "Python web framework"
        items = [
            MemoryItem(key="good", value="Django is a Python web framework", score=0.9),
            MemoryItem(key="bad", value="Weather forecast for today", score=0.1),
        ]
        evaluation = self.scorer.evaluate(query, items)
        assert evaluation.total_count == 2
        assert evaluation.relevant_count >= 1
    def test_evaluate_all_correct(self):
        """All relevant results should give CORRECT verdict"""
        query = "Python Django"
        items = [
            MemoryItem(key="d1", value="Django is a Python web framework", score=0.9),
            MemoryItem(key="d2", value="Django REST framework for API development", score=0.85),
        ]
        evaluation = self.scorer.evaluate(query, items)
        assert evaluation.overall_verdict == RelevanceVerdict.CORRECT
    def test_evaluate_all_incorrect(self):
        """All irrelevant results should give INCORRECT verdict"""
        query = "quantum computing"
        items = [
            MemoryItem(key="d1", value="Cooking recipes for beginners", score=0.1),
            MemoryItem(key="d2", value="Gardening tips for spring", score=0.05),
        ]
        evaluation = self.scorer.evaluate(query, items)
        assert evaluation.overall_verdict == RelevanceVerdict.INCORRECT
    def test_custom_thresholds(self):
        """Custom thresholds should affect verdict"""
        scorer = RelevanceScorer(correct_threshold=0.9, ambiguous_threshold=0.7)
        query = "test"
        item = MemoryItem(key="d1", value="test document with some content", score=0.5)
        result = scorer.score_item(query, item)
        # With high thresholds, this should be INCORRECT
        assert result.verdict == RelevanceVerdict.INCORRECT
    def test_jaccard_similarity(self):
        """Jaccard similarity calculation"""
        set_a = {"python", "web", "framework"}
        set_b = {"python", "web", "server"}
        similarity = RelevanceScorer._jaccard_similarity(set_a, set_b)
        assert 0.0 < similarity < 1.0
        # 2 common / 4 unique = 0.5
        assert abs(similarity - 0.5) < 0.01
    def test_jaccard_empty_sets(self):
        """Jaccard with empty sets returns 0"""
        assert RelevanceScorer._jaccard_similarity(set(), {"a"}) == 0.0
        assert RelevanceScorer._jaccard_similarity({"a"}, set()) == 0.0
    def test_query_coverage(self):
        """Query term coverage calculation"""
        query_terms = {"python", "django", "flask"}
        doc_terms = {"python", "django", "web", "framework"}
        coverage = RelevanceScorer._query_coverage(query_terms, doc_terms)
        # 2 out of 3 query terms covered
        assert abs(coverage - 2 / 3) < 0.01
    def test_tokenize_chinese(self):
        """Chinese tokenization includes bigrams"""
        tokens = RelevanceScorer._tokenize("机器学习算法")
        # Should include individual chars and bigrams
        assert "机" in tokens
        assert "器" in tokens
        assert "机器" in tokens  # bigram
    def test_tokenize_english(self):
        """English tokenization"""
        tokens = RelevanceScorer._tokenize("Python Web Framework")
        assert "python" in tokens
        assert "web" in tokens
        assert "framework" in tokens
 # --- RAGSelfCorrectionLoop Tests ---
 class MockRetriever:
    """Mock retriever for testing"""
    def __init__(self, items_by_query: dict[str, list[MemoryItem]] | None = None):
        self._items = items_by_query or {}
        self.call_count = 0
        self.queries: list[str] = []
    async def retrieve(
        self,
        query: str,
        top_k: int = 5,
        token_budget: int = 3000,
        filters=None,
        _skip_correction: bool = False,
    ) -> list[MemoryItem]:
        self.call_count += 1
        self.queries.append(query)
        # Return items for exact query match, or default items
        if query in self._items:
            return self._items[query]
        # Return default items for any query
        default_key = next(iter(self._items), None)
        if default_key:
            return self._items[default_key]
        return []
 class TestRAGSelfCorrectionLoop:
    """RAGSelfCorrectionLoop unit tests"""
    @pytest.mark.asyncio
    async def test_correct_retrieval_skips_correction(self):
        """High-quality retrieval should not trigger correction"""
        items = [
            MemoryItem(
                key="d1",
                value="Django is a Python web framework for building web applications quickly",
                score=0.9,
            ),
            MemoryItem(
                key="d2",
                value="Flask is a lightweight Python web framework for small applications",
                score=0.85,
            ),
        ]
        mock = MockRetriever({"Python web framework": items})
        loop = RAGSelfCorrectionLoop(retriever=mock, max_retries=3)
        result = await loop.retrieve_with_correction("Python web framework")
        assert not result.degraded
        assert len(result.items) == 2
        assert result.total_retries == 0
    @pytest.mark.asyncio
    async def test_poor_retrieval_triggers_correction(self):
        """Poor retrieval should trigger query rewriting"""
        poor_items = [
            MemoryItem(key="d1", value="Weather forecast for today", score=0.1),
        ]
        good_items = [
            MemoryItem(
                key="d2",
                value="Python Django web framework tutorial and best practices",
                score=0.9,
            ),
        ]
        mock = MockRetriever({
            "Python web framework": poor_items,
            "improved query": good_items,
        })
        loop = RAGSelfCorrectionLoop(retriever=mock, max_retries=3)
        result = await loop.retrieve_with_correction("Python web framework")
        assert mock.call_count >= 2  # At least initial + 1 retry
        assert len(result.attempts) >= 2
    @pytest.mark.asyncio
    async def test_max_retries_causes_degradation(self):
        """Exceeding max retries should cause degradation"""
        poor_items = [
            MemoryItem(key="d1", value="Unrelated content about weather", score=0.05),
        ]
        mock = MockRetriever({"any query": poor_items})
        loop = RAGSelfCorrectionLoop(retriever=mock, max_retries=2)
        result = await loop.retrieve_with_correction("Python web framework")
        assert result.degraded
        assert result.total_retries >= 2
        # Items should be marked low_confidence
        assert any(
            item.metadata.get("low_confidence", False) for item in result.items
        )
    @pytest.mark.asyncio
    async def test_empty_retrieval_triggers_correction(self):
        """Empty retrieval results should trigger correction"""
        mock = MockRetriever({"query": []})
        loop = RAGSelfCorrectionLoop(retriever=mock, max_retries=2)
        result = await loop.retrieve_with_correction("test query")
        assert result.degraded
        assert result.total_retries >= 1
    @pytest.mark.asyncio
    async def test_loop_result_tracks_attempts(self):
        """Loop result should track all correction attempts"""
        items = [
            MemoryItem(key="d1", value="Relevant Python content", score=0.9),
        ]
        mock = MockRetriever({"test": items})
        loop = RAGSelfCorrectionLoop(retriever=mock, max_retries=3)
        result = await loop.retrieve_with_correction("test")
        assert len(result.attempts) >= 1
        assert result.attempts[0].query == "test"
        assert result.attempts[0].state in (
            LoopState.GENERATE,
            LoopState.CORRECT,
            LoopState.DEGRADE,
        )
    @pytest.mark.asyncio
    async def test_correction_with_query_transformer(self):
        """Query transformer should be used during correction"""
        from agentkit.memory.query_transformer import TransformedQuery, QueryTransformerBase
        class MockTransformer(QueryTransformerBase):
            def __init__(self):
                self.transform_count = 0
            async def transform(self, query: str) -> TransformedQuery:
                self.transform_count += 1
                return TransformedQuery(
                    main_query=f"improved {query}",
                    sub_queries=[f"sub-{query}"],
                    original_query=query,
                )
        poor_items = [
            MemoryItem(key="d1", value="Unrelated", score=0.05),
        ]
        good_items = [
            MemoryItem(key="d2", value="Relevant Python content", score=0.9),
        ]
        mock = MockRetriever({
            "test": poor_items,
            "sub-test": good_items,
        })
        transformer = MockTransformer()
        loop = RAGSelfCorrectionLoop(
            retriever=mock,
            query_transformer=transformer,
            max_retries=3,
        )
        result = await loop.retrieve_with_correction("test")
        assert transformer.transform_count >= 1
    @pytest.mark.asyncio
    async def test_degraded_result_filters_irrelevant(self):
        """Degraded result should prefer relevant items over irrelevant"""
        mixed_items = [
            MemoryItem(key="good", value="Python Django framework", score=0.8),
            MemoryItem(key="bad", value="Weather forecast", score=0.05),
        ]
        mock = MockRetriever({"query": mixed_items})
        loop = RAGSelfCorrectionLoop(retriever=mock, max_retries=1)
        result = await loop.retrieve_with_correction("Python framework")
        # Even if degraded, should prefer relevant items
        if result.degraded:
            relevant_keys = [item.key for item in result.items]
            assert "good" in relevant_keys