Сравнение RAG vs дообучение модели • SA|BOOK

Содержание

Оба подхода решают одну задачу — добавить новые знания в LLM — но совершенно по-разному.

RAG (Retrieval-Augmented Generation)

Как работает:

Плюсы:

Минусы:

Качество поиска: если retriever плохо сработал, модель получит плохой контекст
Размер контекста: есть лимит на количество информации в промпте (100K-200K токенов)
Сложные рассуждения: для задач, требующих синтеза многих документов, может быть недостаточно
Латентность: поиск добавляет задержку к ответу

Когда использовать:

Как работает:

Берётся предобученная модель
На вашем датасете (примеры вопрос-ответ, инструкции и т.д.) модель обновляет свои веса
Результат — новая модель с изменённым поведением/знаниями

Плюсы:

Встроенные знания: информация становится частью модели, не нужен внешний поиск
Скорость инференса: нет задержки на retrieval, просто генерируешь ответ
Специализация: можно адаптировать стиль, формат ответов, предметную область
Независимость: модель не зависит от внешней БД и качества поиска
Низкая латентность: чистый LLM без дополнительных сервисов

Минусы:

Когда использовать:

На практике часто комбинируют:

Fine-tuning на стиль/инструкции: модель учится отвечать в нужном формате, быть экспертом в домене
RAG для свежих данных: актуальная информация подгружается из БД во время инференса

Пример:

Критерий	RAG	Дообучение	Гибрид
Скорость внедрения	⚡⚡⚡ дни	🐢 недели-месяцы	⚡⚡ неделя-две
Стоимость	💰 низко	💰💰💰 высоко	💰💰 среднее
Актуальность данных	✅ мгновенно	❌ нужно переобучивать	✅ мгновенно
Латентность	⚠️ +задержка поиска	⚡⚡⚡ быстро	⚠️ +задержка поиска
Контролируемость	✅ видны источники	❌ чёрный ящик	✅ видны источники
Специализация	⚠️ через промпты	✅ через веса модели	✅ через веса + промпты
Масштабируемость	✅ миллионы докумен.	⚠️ зависит от памяти	✅ миллионы докумен.
Качество	⚠️ зависит от поиска	✅ обычно стабильнее	✅✅ лучшее

Следующая запись Стандартизация ISO