Crear Base de Conocimiento con IA (RAG): Tutorial 2026

Imagina que tienes un montón de documentos internos de tu empresa: manuales, FAQs, políticas, fichas de producto, informes. Quieres que un chatbot pueda responder preguntas basándose en esa información. No en lo que "sabe" GPT de internet, sino en TUS documentos.

Eso es exactamente lo que hace RAG (Retrieval Augmented Generation). Y en este tutorial vas a construir uno funcional desde cero.

No es tan complicado como suena. Te lo prometo.

Qué es RAG y Por Qué lo Necesitas

RAG son las siglas de Retrieval Augmented Generation, que traducido sería algo como "generación aumentada por recuperación". El nombre es horrible, pero el concepto es simple:

El usuario hace una pregunta
El sistema busca en tus documentos los fragmentos más relevantes
Esos fragmentos se envían al LLM como contexto
El LLM genera una respuesta basada en esos fragmentos específicos

¿Por qué no simplemente meter todos los documentos en el prompt?

Porque los LLMs tienen un límite de contexto (aunque sea grande). Si tienes 500 documentos de 20 páginas cada uno, no caben. Y aunque cupieran, el modelo se pierde con tanto contexto y las respuestas empeoran.

RAG resuelve esto: solo le das al modelo los 3-5 fragmentos más relevantes para cada pregunta. Es como darle a alguien las páginas exactas de una enciclopedia en vez de toda la enciclopedia.

El flujo completo de RAG

Fase 1: Indexación (se hace una vez)

Divides tus documentos en fragmentos pequeños (chunks)
Conviertes cada fragmento en un vector numérico (embedding)
Almacenas los vectores en una base de datos vectorial

Fase 2: Consulta (cada vez que alguien pregunta)

Conviertes la pregunta del usuario en un vector
Buscas los vectores más similares en la base de datos
Recuperas los fragmentos de texto correspondientes
Envías la pregunta + fragmentos al LLM
El LLM genera una respuesta basada en esos fragmentos

Paso 1: Preparar tus Documentos

Antes de escribir código, necesitas preparar tus documentos. RAG funciona con prácticamente cualquier formato de texto:

PDF
Word (.docx)
Texto plano (.txt, .md)
CSV / Excel
Páginas web
Correos electrónicos

Organiza tus documentos

Crea una carpeta llamada documentos/ en tu proyecto
Mete todos los archivos que quieras que tu chatbot pueda consultar
Limpia si hace falta: elimina cabeceras/pies de página repetitivos, índices que no aportan, etc.

Para este tutorial, vamos a usar archivos PDF y texto. Si quieres seguir el ejemplo exacto, crea 2-3 archivos .txt con información sobre un tema (por ejemplo, la política de devoluciones de una tienda ficticia, un manual de producto, unas FAQs).

Paso 2: Configurar el Entorno

# Crear el proyecto
mkdir mi-rag
cd mi-rag

# Entorno virtual
python -m venv venv
source venv/bin/activate  # Windows: venv\Scripts\activate

# Instalar dependencias
pip install langchain langchain-openai langchain-community
pip install chromadb  # Base de datos vectorial local
pip install pypdf  # Para leer PDFs
pip install python-dotenv

Crea tu archivo .env:

OPENAI_API_KEY=tu-api-key-aqui

¿Por qué estas herramientas?

Herramienta	Para qué	Alternativas
LangChain	Orquestar todo el flujo RAG	LlamaIndex, Haystack
ChromaDB	Base de datos vectorial (local)	Pinecone (cloud), Supabase, Weaviate
OpenAI Embeddings	Convertir texto en vectores	Cohere, modelos locales
GPT-4o-mini	Generar respuestas	Claude, Llama, Mistral

Usamos ChromaDB porque es local (no necesitas crear cuenta en ningún lado) y perfecto para empezar. Para producción, probablemente querrás Pinecone o Supabase.

Nota Importante

Presta atención a este detalle.

Paso 3: Cargar y Dividir Documentos

Crea un archivo indexar.py:

from dotenv import load_dotenv
from langchain_community.document_loaders import (
    DirectoryLoader,
    TextLoader,
    PyPDFLoader
)
from langchain.text_splitter import RecursiveCharacterTextSplitter

load_dotenv()

# 1. CARGAR DOCUMENTOS
# Cargar todos los .txt de la carpeta documentos/
txt_loader = DirectoryLoader(
    "documentos/",
    glob="**/*.txt",
    loader_cls=TextLoader,
    loader_kwargs={"encoding": "utf-8"}
)

# Cargar todos los .pdf
pdf_loader = DirectoryLoader(
    "documentos/",
    glob="**/*.pdf",
    loader_cls=PyPDFLoader
)

# Combinar todos los documentos
documents = txt_loader.load() + pdf_loader.load()
print(f"Documentos cargados: {len(documents)}")

# 2. DIVIDIR EN CHUNKS
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=1000,      # Tamaño de cada fragmento (caracteres)
    chunk_overlap=200,    # Solapamiento entre fragmentos
    length_function=len,
    separators=["\n\n", "\n", ". ", " ", ""]
)

chunks = text_splitter.split_documents(documents)
print(f"Chunks creados: {len(chunks)}")

# Ver un ejemplo
print(f"\nEjemplo de chunk:")
print(f"Contenido: {chunks[0].page_content[:200]}...")
print(f"Metadata: {chunks[0].metadata}")

¿Por qué dividir en chunks?

Los documentos completos son demasiado grandes para enviar como contexto al LLM. Dividiéndolos en fragmentos de 1000 caracteres:

Cada fragmento tiene una idea coherente
El sistema puede recuperar solo los fragmentos relevantes
El LLM recibe contexto preciso, no ruido

Pro tip: El chunk_size y chunk_overlap son los parámetros más importantes para la calidad de tu RAG. Si tus chunks son demasiado pequeños, pierden contexto. Si son demasiado grandes, incluyen información irrelevante. 1000 caracteres con 200 de overlap es un buen punto de partida.

Paso 4: Crear Embeddings y Almacenar en ChromaDB

Añade al archivo indexar.py (o crea crear_bd.py):

from langchain_openai import OpenAIEmbeddings
from langchain_community.vectorstores import Chroma

# 3. CREAR EMBEDDINGS Y ALMACENAR
embeddings = OpenAIEmbeddings(
    model="text-embedding-3-small"  # Modelo de embeddings rápido y barato
)

# Crear la base de datos vectorial con ChromaDB
vectorstore = Chroma.from_documents(
    documents=chunks,
    embedding=embeddings,
    persist_directory="./chroma_db",  # Se guarda en disco
    collection_name="mi_base_conocimiento"
)

print(f"\nBase de datos vectorial creada con {len(chunks)} fragmentos")
print("Guardada en ./chroma_db/")

Ejecuta:

python indexar.py

Esto crea una carpeta chroma_db/ con todos tus documentos indexados. Solo necesitas ejecutar esto una vez (o cuando añadas nuevos documentos).

¿Cuánto cuesta crear los embeddings?

El modelo text-embedding-3-small cuesta 0.02$/1M tokens. Para poner en perspectiva:

100 páginas de texto = ~50,000 tokens = ~0.001$
1000 páginas = ~0.01$

Es prácticamente gratis.

Paso 5: Crear el Sistema de Consulta

Ahora la parte divertida. Crea consultar.py:

from dotenv import load_dotenv
from langchain_openai import OpenAIEmbeddings, ChatOpenAI
from langchain_community.vectorstores import Chroma
from langchain.chains import RetrievalQA
from langchain.prompts import PromptTemplate

load_dotenv()

# 1. CARGAR LA BASE DE DATOS VECTORIAL
embeddings = OpenAIEmbeddings(model="text-embedding-3-small")
vectorstore = Chroma(
    persist_directory="./chroma_db",
    embedding_function=embeddings,
    collection_name="mi_base_conocimiento"
)

# 2. CONFIGURAR EL RETRIEVER
retriever = vectorstore.as_retriever(
    search_type="similarity",
    search_kwargs={"k": 4}  # Recuperar los 4 fragmentos más relevantes
)

# 3. DEFINIR EL PROMPT
prompt_template = """Usa los siguientes fragmentos de contexto para responder la pregunta del usuario.
Si no encuentras la respuesta en el contexto, di claramente que no tienes esa información.
No inventes respuestas. Basa tu respuesta SOLO en el contexto proporcionado.

Contexto:
{context}

Pregunta: {question}

Respuesta útil:"""

prompt = PromptTemplate(
    template=prompt_template,
    input_variables=["context", "question"]
)

# 4. CREAR LA CADENA RAG
llm = ChatOpenAI(model="gpt-4o-mini", temperature=0.2)

qa_chain = RetrievalQA.from_chain_type(
    llm=llm,
    chain_type="stuff",  # Mete todo el contexto de golpe
    retriever=retriever,
    chain_type_kwargs={"prompt": prompt},
    return_source_documents=True  # Devuelve las fuentes
)

# 5. HACER CONSULTAS
def preguntar(pregunta):
    resultado = qa_chain.invoke({"query": pregunta})
    
    print(f"\nPregunta: {pregunta}")
    print(f"\nRespuesta: {resultado['result']}")
    print(f"\nFuentes utilizadas:")
    for i, doc in enumerate(resultado['source_documents'], 1):
        print(f"  {i}. {doc.metadata.get('source', 'desconocido')} - \"{doc.page_content[:100]}...\"")
    print("-" * 60)
    return resultado

# Probar
preguntar("¿Cuál es la política de devoluciones?")
preguntar("¿Qué productos tenéis disponibles?")
preguntar("¿Cuál es el horario de atención al cliente?")

Ejecuta:

python consultar.py

Si todo va bien, verás respuestas basadas exclusivamente en tus documentos, con las fuentes citadas. Eso es RAG en acción.