에이전틱 RAG 아키텍처 패턴: 자율 검색 시스템 구축

소개

검색 증강 생성(Retrieval-Augmented Generation)은 단순한 아이디어에서 시작했습니다: 언어 모델의 파라메트릭 메모리에만 의존하는 대신, 외부 지식 베이스에서 관련 문서를 검색하여 프롬프트 컨텍스트에 포함시키는 것입니다. 이 단순한 RAG 패턴, 즉 임베드-검색-생성으로 구성된 파이프라인은 구조화된 문서 컬렉션에 대한 간단한 질문 답변에서 놀라울 정도로 잘 작동했습니다. 하지만 팀들이 더 복잡한 사용 사례를 위해 RAG를 프로덕션에 적용하면서 그 한계가 뼈아프게 드러났습니다. 여러 문서에 걸친 추론이 필요한 쿼리, 명확화가 필요한 모호한 질문, 이질적인 콘텐츠 유형이 있는 지식 베이스 모두가 검색-후-생성 파이프라인의 취약성을 노출시켰습니다.

에이전틱 RAG는 검색 시스템을 설계하는 방식의 근본적인 변화를 나타냅니다. 각 단계가 다음 단계로 선형적으로 이어지는 고정된 파이프라인 대신, 에이전틱 RAG는 언어 모델에게 검색 전략을 계획하고, 검색된 결과의 품질을 평가하고, 초기 검색이 실패할 때 쿼리를 재구성하고, 최종 답변을 생성하기에 충분한 정보가 있는지 결정하는 능력을 부여합니다. 모델은 검색된 컨텍스트의 수동적 소비자가 아닌 검색 프로세스의 능동적 참여자가 됩니다.

이 가이드는 에이전틱 RAG 시스템을 구축하기 위한 아키텍처 패턴, 구현 프레임워크, 평가 방법 및 프로덕션 고려사항을 다룹니다. 엔터프라이즈 지식 베이스, 고객 지원 시스템, 기술 문서 플랫폼에서 이러한 패턴이 대규모로 검증된 실제 배포 사례를 기반으로 합니다.

단순 RAG에서 에이전틱 RAG로: 무엇이 변했는가

단순 RAG는 결정론적 3단계 파이프라인을 따릅니다: 사용자 쿼리가 임베딩되고, 벡터 유사도 검색이 가장 유사한 top-k 문서 청크를 검색하고, 이 청크들이 LLM이 답변을 생성하는 데 사용하는 프롬프트로 연결됩니다. 이 파이프라인에는 에이전틱 RAG가 해결하는 세 가지 근본적인 약점이 있습니다.

첫째, 단순 RAG는 사용자의 쿼리가 이미 검색에 적합하게 구성되어 있다고 가정합니다. 실제로 사용자 쿼리는 종종 모호하거나, 다면적이거나, 인덱싱된 문서의 어휘와 일치하지 않는 용어를 사용합니다. 배포 실패에 대해 묻는 사용자는 오류 처리, 인프라 구성, CI/CD 파이프라인에 대한 문서가 필요할 수 있지만, 단일 벡터 검색은 이러한 측면 중 하나만 반환할 수 있습니다.

둘째, 단순 RAG에는 품질 게이트가 없습니다. 검색된 문서가 관련 없거나, 오래되었거나, 불충분하면 파이프라인은 그대로 진행되고 LLM은 부실한 컨텍스트에서 답변을 생성합니다. 시스템이 검색 실패를 인식하고 다시 시도하는 메커니즘이 없습니다.

셋째, 단순 RAG는 모든 쿼리를 동일하게 처리합니다. 사실 검색 질문, 복잡한 분석 질문, 여러 소스의 합성이 필요한 질문 모두 동일한 검색-생성 파이프라인을 통과합니다. 에이전틱 RAG는 쿼리 특성에 따라 다른 검색 및 생성 전략을 선택하는 조건부 로직을 도입합니다.

단순에서 에이전틱 RAG로의 전환은 세 가지 기능을 추가하는 것을 포함합니다: 쿼리 계획(복잡한 쿼리를 하위 쿼리로 분해), 검색 평가(검색된 컨텍스트가 충분한지 평가), 반복적 개선(결과가 불충분할 때 쿼리를 재구성하고 재검색). 이러한 기능은 정적 파이프라인을 동적이고 자기 교정하는 시스템으로 변환합니다.

핵심 아키텍처 패턴

에이전틱 RAG 시스템은 소수의 조합 가능한 패턴으로 구축됩니다. 이러한 패턴을 이해하면 특정 사용 사례에 맞는 시스템을 설계할 수 있습니다.

라우팅

가장 간단한 에이전틱 패턴은 쿼리 분류에 따라 다른 검색 백엔드로 쿼리를 라우팅합니다. 라우터 에이전트가 들어오는 쿼리를 분석하고 가장 적절한 지식 소스로 안내합니다:

from langchain_core.prompts import ChatPromptTemplate
from langchain_openai import ChatOpenAI

router_prompt = ChatPromptTemplate.from_messages([
    ("system", """Classify the user query into one of these categories:
    - technical_docs: Questions about API usage, configuration, or code
    - policy: Questions about company policies, procedures, or compliance
    - support: Questions about troubleshooting or known issues
    - general: General questions that don't fit other categories
    
    Respond with ONLY the category name."""),
    ("human", "{query}")
])

router_chain = router_prompt | ChatOpenAI(model="gpt-4o-mini") | StrOutputParser()

라우팅은 지식 베이스가 다른 인덱싱 전략을 가진 여러 도메인에 걸쳐 있을 때 유용합니다. 기술 문서는 코드 인식 청킹과 임베딩으로 인덱싱될 수 있고, 정책 문서는 메타데이터 필터가 있는 시맨틱 청킹을 사용할 수 있습니다.

쿼리 분해

복잡한 질문은 종종 단일 검색에서 함께 나타나지 않는 여러 문서 청크의 정보를 필요로 합니다. 쿼리 분해는 복잡한 쿼리를 독립적인 하위 쿼리로 나누고, 각각에 대해 검색하고, 결과를 합성합니다:

decomposition_prompt = ChatPromptTemplate.from_messages([
    ("system", """Break the following complex question into 2-4 simpler 
    sub-questions that, when answered together, provide a complete answer 
    to the original question. Return as a JSON array of strings."""),
    ("human", "{query}")
])

# Example: "How does our API rate limiting compare to competitors 
# and what are customers saying about it?"
# Decomposes to:
# ["What are our current API rate limiting policies?",
#  "What rate limiting do our main competitors use?",
#  "What customer feedback have we received about rate limiting?"]

자기 교정

자기 교정은 에이전틱 RAG를 단순 RAG와 가장 구별하는 패턴입니다. 검색 후 평가 단계에서 검색된 문서가 관련 있고 충분한지 평가합니다. 충분하지 않으면 시스템이 쿼리를 재구성하고 다시 시도합니다:

grading_prompt = ChatPromptTemplate.from_messages([
    ("system", """You are a retrieval quality grader. Given a user question 
    and a set of retrieved documents, determine:
    1. Are the documents relevant to the question? (yes/no)
    2. Do the documents contain sufficient information to answer? (yes/no)
    3. If insufficient, suggest a reformulated query.
    
    Respond as JSON with keys: relevant, sufficient, reformulated_query"""),
    ("human", "Question: {query}\n\nDocuments: {documents}")
])

이 패턴은 일반적으로 우아한 실패 메시지로 되돌아가기 전에 2-3회의 검색 시도를 허용합니다. 재구성된 쿼리는 종종 시맨틱 유사도 검색에서 키워드 기반 검색으로 전환하거나, 범위를 확대하거나, 특정 메타데이터 필드를 대상으로 합니다.

상태 관리 에이전트 오케스트레이션을 위한 LangGraph

LangGraph는 에이전틱 RAG 시스템 구축의 표준 프레임워크로 부상했는데, 이는 LangChain의 더 단순한 체인 기반 추상화로는 표현할 수 없는 명시적 상태 관리, 조건부 라우팅, 사이클 지원을 제공하기 때문입니다.

LangGraph 기반 에이전틱 RAG 시스템은 노드가 처리 단계를 나타내고 엣지가 단계 간 전환을 나타내는 상태 그래프로 정의됩니다. 조건부 엣지를 통해 그래프가 중간 결과에 따라 분기할 수 있습니다:

from langgraph.graph import StateGraph, END
from typing import TypedDict, List, Annotated
from operator import add

class AgentState(TypedDict):
    query: str
    sub_queries: List[str]
    documents: List[dict]
    generation: str
    retry_count: int
    retrieval_grade: str

def route_query(state: AgentState) -> AgentState:
    """Classify and route the incoming query."""
    query = state["query"]
    classification = router_chain.invoke({"query": query})
    state["route"] = classification
    return state

def retrieve(state: AgentState) -> AgentState:
    """Retrieve documents based on query and route."""
    query = state["query"]
    docs = retriever.invoke(query)
    state["documents"] = docs
    return state

def grade_documents(state: AgentState) -> AgentState:
    """Grade retrieved documents for relevance and sufficiency."""
    grade = grading_chain.invoke({
        "query": state["query"],
        "documents": state["documents"]
    })
    state["retrieval_grade"] = grade["sufficient"]
    state["retry_count"] = state.get("retry_count", 0) + 1
    if not grade["sufficient"] and grade.get("reformulated_query"):
        state["query"] = grade["reformulated_query"]
    return state

def generate(state: AgentState) -> AgentState:
    """Generate final answer from retrieved context."""
    answer = generation_chain.invoke({
        "query": state["query"],
        "documents": state["documents"]
    })
    state["generation"] = answer
    return state

def should_retry(state: AgentState) -> str:
    """Decide whether to retry retrieval or proceed to generation."""
    if state["retrieval_grade"] == "yes":
        return "generate"
    if state["retry_count"] >= 3:
        return "generate"  # Give up and generate with what we have
    return "retrieve"

# Build the graph
workflow = StateGraph(AgentState)
workflow.add_node("route", route_query)
workflow.add_node("retrieve", retrieve)
workflow.add_node("grade", grade_documents)
workflow.add_node("generate", generate)

workflow.set_entry_point("route")
workflow.add_edge("route", "retrieve")
workflow.add_edge("retrieve", "grade")
workflow.add_conditional_edges("grade", should_retry, {
    "retrieve": "retrieve",
    "generate": "generate"
})
workflow.add_edge("generate", END)

app = workflow.compile()

그래프 구조는 제어 흐름을 명시적이고 디버깅 가능하게 만듭니다. 그래프를 시각화하고, 각 노드를 통한 실행을 추적하고, 주어진 쿼리에 대해 시스템이 특정 경로를 선택한 이유를 정확히 이해할 수 있습니다. 이 투명성은 실패를 진단하고 동작을 설명해야 하는 프로덕션 시스템에서 매우 중요합니다.

LangGraph는 또한 여러 인덱스에 걸친 병렬 검색, 에이전트가 사용자 확인을 위해 일시 중지하는 휴먼-인-더-루프 체크포인트, 대화 간에 유지되는 영구 상태와 같은 고급 패턴도 지원합니다.

검색 전략

에이전틱 RAG 시스템의 검색 계층은 일반적으로 단일 벡터 스토어 조회보다 더 정교합니다. 프로덕션 시스템은 여러 검색 전략을 결합합니다.

하이브리드 검색

하이브리드 검색은 밀집 벡터 검색과 희소 키워드 검색을 결합하여 임베딩의 의미적 이해와 BM25 키워드 매칭의 정밀도를 모두 제공합니다:

from langchain_community.retrievers import BM25Retriever
from langchain.retrievers import EnsembleRetriever
from langchain_chroma import Chroma

vectorstore = Chroma(
    collection_name="documents",
    embedding_function=embedding_model,
)
vector_retriever = vectorstore.as_retriever(search_kwargs={"k": 10})

bm25_retriever = BM25Retriever.from_documents(documents)
bm25_retriever.k = 10

hybrid_retriever = EnsembleRetriever(
    retrievers=[vector_retriever, bm25_retriever],
    weights=[0.6, 0.4],
)

리랭킹

초기 검색 후 크로스 인코더 리랭커가 바이 인코더 유사도보다 훨씬 높은 정확도로 각 문서를 쿼리에 대해 점수를 매깁니다. 이는 계산 비용이 높지만 정밀도를 극적으로 향상시킵니다:

from langchain.retrievers import ContextualCompressionRetriever
from langchain_cohere import CohereRerank

reranker = CohereRerank(model="rerank-v3.5", top_n=5)
compression_retriever = ContextualCompressionRetriever(
    base_compressor=reranker,
    base_retriever=hybrid_retriever,
)

멀티 인덱스 검색

프로덕션 지식 베이스는 종종 서로 다른 스키마, 임베딩 모델, 문서 유형을 가진 여러 인덱스에 걸쳐 있습니다. 에이전틱 시스템은 여러 인덱스를 병렬로 쿼리하고 결과를 병합할 수 있습니다:

async def multi_index_retrieve(query: str, indexes: list) -> list:
    """Retrieve from multiple indexes in parallel."""
    import asyncio
    
    async def retrieve_from_index(index, query):
        return await index.aretrieve(query)
    
    tasks = [retrieve_from_index(idx, query) for idx in indexes]
    results = await asyncio.gather(*tasks)
    
    # Flatten and deduplicate
    all_docs = []
    seen_ids = set()
    for result_set in results:
        for doc in result_set:
            if doc.metadata["id"] not in seen_ids:
                all_docs.append(doc)
                seen_ids.add(doc.metadata["id"])
    
    return all_docs

RAGAS와 DeepEval을 사용한 평가

에이전틱 RAG 시스템 평가는 여러 품질 차원을 측정해야 합니다. RAGAS와 DeepEval은 가장 널리 채택된 두 가지 평가 프레임워크로, 각각 뚜렷한 강점을 가지고 있습니다.

RAGAS는 모든 테스트 쿼리에 대한 정답 없이도 RAG 품질을 평가하는 레퍼런스 프리 메트릭 세트를 제공합니다:

from ragas import evaluate
from ragas.metrics import (
    faithfulness,
    answer_relevancy,
    context_precision,
    context_recall,
)
from datasets import Dataset

eval_dataset = Dataset.from_dict({
    "question": questions,
    "answer": generated_answers,
    "contexts": retrieved_contexts,
    "ground_truth": reference_answers,
})

results = evaluate(
    dataset=eval_dataset,
    metrics=[
        faithfulness,
        answer_relevancy,
        context_precision,
        context_recall,
    ],
)

print(results)

충실도(Faithfulness)는 생성된 답변이 검색된 컨텍스트에 의해 뒷받침되는지 측정하여 환각을 감지합니다. 답변 관련성은 답변이 질문을 다루고 있는지 측정합니다. 컨텍스트 정밀도는 검색된 문서가 관련 있는지 측정하고, 컨텍스트 재현율은 검색이 필요한 모든 정보를 포착했는지 측정합니다.

DeepEval은 에이전틱 시스템에 특히 관련 있는 추가 메트릭으로 평가를 확장합니다:

from deepeval import evaluate
from deepeval.metrics import (
    FaithfulnessMetric,
    AnswerRelevancyMetric,
    ContextualRelevancyMetric,
    HallucinationMetric,
)
from deepeval.test_case import LLMTestCase

test_case = LLMTestCase(
    input="How do I configure rate limiting?",
    actual_output=generated_answer,
    expected_output=reference_answer,
    retrieval_context=retrieved_chunks,
)

metrics = [
    FaithfulnessMetric(threshold=0.8),
    AnswerRelevancyMetric(threshold=0.7),
    ContextualRelevancyMetric(threshold=0.7),
    HallucinationMetric(threshold=0.5),
]

evaluate(test_cases=[test_case], metrics=metrics)

에이전틱 RAG의 경우 특히 검색 효율성도 측정해야 합니다: 시스템이 평균적으로 몇 라운드의 검색이 필요한지, 쿼리의 몇 퍼센트가 재구성을 필요로 하는지, 재시도 시도에 따라 답변 품질이 어떻게 저하되는지. 이러한 메트릭은 에이전틱 루프에 특화되어 있으며 표준 RAG 평가 프레임워크에서는 다루지 않습니다.

프로덕션 패턴

에이전틱 RAG를 프로토타입에서 프로덕션으로 전환하려면 개발 중에는 나타나지 않는 신뢰성, 보안 및 운영 문제를 해결해야 합니다.

가드레일

모든 프로덕션 RAG 시스템에는 LLM이 해로운, 주제에서 벗어난, 사실에 근거하지 않은 응답을 생성하는 것을 방지하는 가드레일이 필요합니다:

from guardrails import Guard
from guardrails.hub import ToxicLanguage, CompetitorCheck

guard = Guard().use_many(
    ToxicLanguage(on_fail="exception"),
    CompetitorCheck(
        competitors=["competitor_a", "competitor_b"],
        on_fail="fix"
    ),
)

raw_response = generation_chain.invoke({"query": query, "documents": docs})
validated_response = guard.validate(raw_response)

폴백 체인

에이전틱 루프가 최대 재시도 후에도 충분한 컨텍스트를 찾지 못할 때, 시스템은 신뢰할 수 없는 답변을 생성하는 대신 우아한 성능 저하가 필요합니다:

def generate_with_fallback(state: AgentState) -> AgentState:
    if state["retrieval_grade"] != "yes" and state["retry_count"] >= 3:
        state["generation"] = (
            "I wasn't able to find sufficient information in our knowledge base "
            "to fully answer your question. Here's what I found:\n\n"
            f"{partial_answer_from_context(state['documents'])}\n\n"
            "For a complete answer, I'd recommend contacting the support team."
        )
        state["confidence"] = "low"
    else:
        state["generation"] = generation_chain.invoke({
            "query": state["query"],
            "documents": state["documents"]
        })
        state["confidence"] = "high"
    return state

휴먼-인-더-루프

고위험 애플리케이션의 경우, LangGraph는 에이전트가 실행을 일시 중지하고 인간의 승인을 기다리는 인터럽트 포인트를 지원합니다:

from langgraph.checkpoint.memory import MemorySaver

checkpointer = MemorySaver()

# Add interrupt before generation for sensitive queries
workflow.add_node("human_review", lambda state: state)
workflow.add_conditional_edges(
    "grade",
    lambda state: "human_review" if state.get("sensitive") else "generate",
    {"human_review": "human_review", "generate": "generate"}
)

app = workflow.compile(
    checkpointer=checkpointer,
    interrupt_before=["human_review"]
)

LangSmith와 Phoenix를 사용한 관측성

관측성은 프로덕션 에이전틱 시스템에서 타협할 수 없습니다. LLM 기반 제어 흐름의 비결정적 특성은 가능한 모든 실행 경로를 예측하거나 테스트할 수 없다는 것을 의미합니다. 프로덕션에서 시스템이 무엇을 하고 있는지 이해하려면 포괄적인 트레이싱이 필요합니다.

LangSmith는 LangGraph 애플리케이션을 위한 엔드투엔드 트레이싱을 제공합니다:

import os
os.environ["LANGCHAIN_TRACING_V2"] = "true"
os.environ["LANGCHAIN_API_KEY"] = "your-api-key"
os.environ["LANGCHAIN_PROJECT"] = "agentic-rag-production"

# All LangGraph invocations are automatically traced
result = app.invoke({"query": "How do I configure rate limiting?"})

각 트레이스는 그래프를 통한 전체 실행 경로를 보여줍니다: 어떤 노드가 방문되었는지, 각 단계에서 LLM 입출력이 무엇이었는지, 검색 결과, 평가 결정, 토큰 수 등. 이는 에이전트가 예상치 못한 경로를 택하거나 부실한 답변을 생성하는 경우를 디버깅하는 데 필수적입니다.

Arize Phoenix는 검색 품질 모니터링에 초점을 맞춘 오픈소스 대안을 제공합니다:

import phoenix as px
from phoenix.trace.langchain import LangChainInstrumentor

px.launch_app()
LangChainInstrumentor().instrument()

# Traces are now collected in Phoenix
result = app.invoke({"query": user_query})

Phoenix는 시간에 따른 검색 품질 모니터링에 특히 유용합니다. 임베딩 드리프트, 검색 관련성 분포를 추적하고, 검색 품질이 저하되면 알림을 보낼 수 있습니다. 이는 종종 지식 베이스가 임베딩 모델의 학습 분포에서 벗어나 재인덱싱이 필요함을 나타냅니다.

프로덕션에서 모니터링할 핵심 메트릭:

# Custom metrics to track
metrics = {
    "avg_retrieval_rounds": [],
    "reformulation_rate": [],
    "fallback_rate": [],
    "latency_p50_ms": [],
    "latency_p99_ms": [],
    "token_cost_per_query": [],
    "faithfulness_score": [],
}

비용 및 지연 시간 최적화

에이전틱 RAG 시스템은 쿼리당 여러 LLM 호출을 수행하기 때문에 본질적으로 단순 RAG보다 더 비싸고 느립니다. 품질을 희생하지 않고 비용과 지연 시간을 최적화하려면 신중한 아키텍처 결정이 필요합니다.

라우팅과 평가에는 더 작은 모델을 사용하세요. 라우터와 문서 평가자는 프론티어 모델의 전체 추론 능력이 필요하지 않습니다. GPT-4o-mini나 Claude 3.5 Haiku가 비용과 지연 시간의 일부만으로 이러한 작업을 처리할 수 있습니다:

# Use a small, fast model for routing and grading
routing_model = ChatOpenAI(model="gpt-4o-mini", temperature=0)
grading_model = ChatOpenAI(model="gpt-4o-mini", temperature=0)

# Use a larger model only for final generation
generation_model = ChatOpenAI(model="gpt-4o", temperature=0.1)

검색 결과를 공격적으로 캐시하세요. 많은 사용자 쿼리는 동일한 기본 질문의 변형입니다. 유사도 임계값 내에서 쿼리를 매칭하는 시맨틱 캐시는 중복된 검색과 LLM 호출을 제거할 수 있습니다:

from langchain_community.cache import RedisSemanticCache

set_llm_cache(RedisSemanticCache(
    redis_url="redis://localhost:6379",
    embedding=embedding_model,
    score_threshold=0.95,
))

각 단계에 공격적인 타임아웃을 설정하여 통제 불능의 지연 시간을 방지하세요. 단일 느린 LLM 호출이 전체 요청의 타임아웃을 유발해서는 안 됩니다:

from asyncio import wait_for, TimeoutError

async def retrieve_with_timeout(state, timeout_seconds=5):
    try:
        return await wait_for(retrieve(state), timeout=timeout_seconds)
    except TimeoutError:
        state["documents"] = []
        state["retrieval_grade"] = "no"
        return state

실제 사례 연구와 안티패턴

에이전틱 RAG 배포에서 가장 흔한 실패 패턴은 무한 재시도 루프입니다. 검색 시도에 대한 하드 캡과 명확한 폴백 동작이 없으면 에이전트는 재구성을 무한히 순환하며 토큰과 지연 시간을 소모할 수 있습니다. 항상 명시적인 재시도 제한을 설정하고 재구성 비율을 측정하세요. 쿼리의 20% 이상이 재구성을 필요로 한다면, 문제는 에이전트 로직이 아니라 검색 계층(불량한 청킹, 잘못된 임베딩 모델, 오래된 인덱스)에 있을 가능성이 높습니다.

또 다른 빈번한 안티패턴은 과도한 라우팅입니다. 팀들은 때때로 수십 개의 전문화된 인덱스가 있는 복잡한 라우팅 그래프를 구축하지만, 잘 설계된 단일 하이브리드 리트리버가 더 나은 성능을 발휘할 수 있습니다. 요구 사항을 충족하는 가장 간단한 아키텍처로 시작하고, 더 단순한 접근 방식이 불충분하다는 메트릭이 있을 때만 복잡성을 추가하세요.

컨텍스트 윈도우 채우기는 세 번째 안티패턴입니다. 20개의 문서 청크를 검색하여 모두 프롬프트에 넣는 것은 토큰을 낭비하고, LLM이 간접적으로 관련된 컨텍스트의 바다에서 관련 정보를 식별하는 데 어려움을 겪기 때문에 답변 품질을 실제로 저하시킬 수 있습니다. 소수의 고품질 청크(일반적으로 3-5개)로 리랭킹하는 것이 평가 벤치마크에서 더 큰 컨텍스트 윈도우를 일관되게 능가합니다.

마지막으로, 평가 주도 과최적화에 주의하세요. RAGAS 점수만을 위해 최적화하는 팀은 벤치마크에서는 좋은 점수를 받지만 사용자가 도움이 되지 않는다고 느끼는 지나치게 조심스럽고 회피적인 답변을 생성하는 시스템을 구축할 수 있습니다. 정량적 평가와 실제 사용자 대화의 정성적 검토를 균형 있게 유지하세요.

미래: 멀티 에이전트 RAG 시스템

에이전틱 RAG의 다음 프론티어는 전문화된 에이전트들이 복잡한 검색 및 합성 작업에서 협업하는 멀티 에이전트 시스템입니다. 단일 에이전트가 전체 검색-생성 파이프라인을 처리하는 대신, 서로 다른 전문 분야를 가진 에이전트 팀을 배포합니다.

연구 에이전트는 쿼리 분해와 대규모 문서 컬렉션에 걸친 멀티홉 검색을 처리합니다. 팩트체킹 에이전트는 생성된 주장을 소스 문서와 대조하여 검증합니다. 합성 에이전트는 여러 하위 쿼리의 결과를 일관성 있고 잘 구조화된 답변으로 결합합니다. 편집 에이전트는 최종 출력의 명확성, 정확성 및 톤을 검토합니다.

from langgraph.graph import StateGraph

# Multi-agent RAG architecture
multi_agent = StateGraph(MultiAgentState)
multi_agent.add_node("planner", planner_agent)
multi_agent.add_node("researcher", researcher_agent)
multi_agent.add_node("fact_checker", fact_check_agent)
multi_agent.add_node("synthesizer", synthesis_agent)

multi_agent.set_entry_point("planner")
multi_agent.add_edge("planner", "researcher")
multi_agent.add_edge("researcher", "fact_checker")
multi_agent.add_conditional_edges(
    "fact_checker",
    lambda s: "researcher" if s["needs_more_research"] else "synthesizer",
)
multi_agent.add_edge("synthesizer", END)

이 아키텍처는 쿼리당 비용이 더 높지만 단일 에이전트 시스템이 어려워하는 복잡한 연구 질문을 처리합니다. 핵심 설계 과제는 에이전트 간 명확한 인터페이스를 정의하고 에이전트 간 통신의 오버헤드가 전문화의 이점을 상쇄하지 않도록 하는 것입니다.

도구 생태계는 멀티 에이전트 패턴을 기본적으로 지원하는 방향으로 수렴하고 있습니다. LangGraph의 서브그래프 합성, LlamaIndex의 에이전트 오케스트레이션 레이어, CrewAI 모두 멀티 에이전트 RAG 시스템을 구축하기 위한 프리미티브를 제공합니다. 이러한 프레임워크가 성숙하고 비용이 계속 하락함에 따라, 멀티 에이전트 RAG는 더 넓은 범위의 프로덕션 애플리케이션에서 실용적이 될 것입니다. 이 가이드에서 다룬 원칙들 — 명시적 상태 관리, 검색 품질 평가, 우아한 폴백, 포괄적 관측성 — 은 단일 에이전트를 배포하든 전문화된 에이전트 팀을 배포하든 관계없이 필수적입니다.