Что такое RAG (Retrieval-Augmented Generation)

Автор Виктория Москва На чтение 2 мин Просмотров 79 Обновлено 12.01.2026

Содержание

Основная идея
Зачем это нужно
Типичная архитектура RAG-системы
Где это применяют

Коротко: RAG — это подход, при котором генеративная модель (LLM) во время ответа подтягивает внешние знания из базы документов / векторайзера / поиска, а не полагается только на «то, что запомнила при обучении».

Основная идея

Retrieval (поиск):
По пользовательскому запросу сначала выполняется поиск релевантных документов: БД, файлы, wiki компании, нормативка, логи, и т.п. Часто это векторный поиск по эмбеддингам.
Augmented (обогащение):
Найденные фрагменты подкладываются в промпт модели в качестве контекста.
Generation (генерация):
LLM генерирует ответ, опираясь одновременно на:
- текст вопроса
- найденные документы

Зачем это нужно

Актуальность: можно использовать свежие данные без дообучения модели.
Контролируемость: модель опирается на конкретные источники, можно логировать и ссылаться.
Безопасность/конфиденциальность: знания компании хранятся у вас, а не в весах модели.
Гибкость: легко менять / добавлять доменную базу знаний.

Типичная архитектура RAG-системы

Хранилище документов: файлы, БД, S3/облако, 1С, SharePoint и т.п.
Индекс:
- классический (BM25, полнотекст)
- векторный (эмбеддинги)
- гибридный (BM25 + вектора)
Retrieval:
- поиск релевантных фрагментов (top-k документов / чанков)
LLM:
- промпт-инжениринг: вопрос + контекст + инструкции (отвечать только по контексту и т.д.)