RU | EN | DE
📚 Подробный конспект видео
1. Введение: зачем нужны базовые знания LLM
- Многие разработчики думают, что ChatGPT «работает из коробки» и достаточно уметь писать промты.
- На практике это приводит к ошибкам:
- Системы работают непредсказуемо.
- Бюджет на API расходуется неэффективно.
- Автор подчёркивает: понимание архитектуры и принципов работы LLM критично для продакшн.
- Цель видео — дать базу знаний, которая позволит использовать LLM осознанно.
2. Токенизация
- Что такое токен?
- Базовая единица текста для модели.
- Может быть словом, частью слова или символом.
- Разные токенизаторы → разное количество токенов:
- Слово «программирование» может разбиваться на 3, 6 или даже 17 токенов в разных моделях.
- Почему это важно?
- Стоимость API считается по токенам.
- Размер контекстного окна ограничен токенами.
- Практический вывод:
- Русский текст дороже в использовании (в среднем в 1.5–2 раза больше токенов, чем английский).
- При проектировании систем стоит учитывать язык и оптимизировать ввод.
3. Attention и трансформеры
- Self-attention: каждый токен оценивает важность других токенов.
- Пример: «Сеньор-разработчик посмотрел на код, он сломался».
- Человек понимает, что «он» относится к «код», а не к разработчику.
- Модель делает это через механизм attention.
- Multi-head attention: параллельный анализ разных аспектов текста.
- Одна «голова» анализирует синтаксис.
- Другая — типы данных.
- Третья — логику.
- Трансформеры:
- Обрабатывают все токены одновременно.
- Заменили рекуррентные сети, ускорив обучение и сделав возможным масштабирование до сотен миллиардов параметров.
- Ограничение: квадратичная сложность.
- Удвоение контекста → вычисления ×4.
- Поэтому длинные контексты остаются дорогими и медленными.
4. Контекстное окно
- Определение: рабочая память модели, сколько токенов она видит одновременно.
- Состав:
- Системный промт.
- История диалога.
- Текущий запрос.
- Вызовы инструментов (файлы, команды, результаты поиска).
- Проблемы переполнения:
- Ответы обрываются.
- Модель забывает начало разговора.
- Повторяет инструкции.
- Запрашивает уже открытые файлы.
- Решения:
- Самостоятельная суммаризация истории.
- Контроль размера окна.
- Начало нового чата при сложных задачах.
- Практический пример:
- В ассистентах (Cursor, Claude Code) tools могут занимать десятки тысяч токенов → контекст быстро переполняется.
5. Стоимость запросов и кэширование
- Input vs Output:
- Input токены дешевле (пример: $3 за 1 млн).
- Output дороже (пример: $15 за 1 млн).
- Почему?
- Input обрабатывается параллельно.
- Output генерируется последовательно, токен за токеном.
- KV cache:
- Сохраняет результаты attention для уже обработанных токенов.
- Ускоряет генерацию и снижает стоимость.
- Экономия:
- До 70–90% при правильном использовании кэша.
- Batch API:
- У некоторых провайдеров (например, Anthropic) есть режим фоновой обработки со скидкой 50%.
- Подходит для задач без жёстких требований к скорости (анализ отзывов, саммаризация документов).
6. Training vs Inference
- Training (обучение):
- Огромные датасеты, недели/месяцы работы, миллионы долларов.
- Веса модели обновляются.
- Inference (использование):
- Каждый запрос пользователя.
- Веса модели не меняются.
- Стоимость — центы.
- Заблуждение: «ChatGPT учится на моих данных».
- На самом деле он просто использует память (историю чата, сохранённые факты).
- Веса модели не изменяются.
- Вывод: кастомизация модели делается через fine-tuning или few-shot learning, а не через обычное использование.
7. Типы моделей
- LLM (Large Language Model):
- Stateless.
- Один запрос → один ответ.
- Нет памяти между запросами.
- Reasoning models:
- Добавляют пошаговое мышление (chain of thought).
- Могут проверять логику, делать саморефлексию.
- Лучше справляются со сложными задачами (математика, программирование).
- Агенты:
- Автономные системы.
- Цикл: наблюдение → рассуждение → действие → повтор.
- Имеют память и состояние.
- Могут использовать инструменты (API, файлы, интернет).
- Пример: агент исправляет баг, запускает тесты, делает коммит и деплой.
8. Контекстная инженерия vs промт-инженерия
- Промт-инженерия:
- Формулировка задачи.
- Приёмы: назначение роли, примеры, chain of thought, формат ответа, ограничения.
- Контекстная инженерия:
- Системная архитектура.
- Управление памятью, retrieval, состоянием, инструментами.
- Динамическая сборка промта.
- Пример: бронирование отеля.
- Промт: «Забронируй отель в Париже».
- Контекст: бюджет, календарь, локация → правильный результат.
- Вывод: промт — лишь триггер, результат определяется контекстом.
9. Компоненты контекстной инженерии
- Memory management:
- Краткосрочная память (последние сообщения).
- Долгосрочная память (базы данных, файлы).
- Retrieval:
- Динамическое добавление релевантных документов.
- Пример: из 1000 документов выбрать только нужные.
- State management:
- Отслеживание прогресса в многошаговых задачах.
- Пример: исправление бага → тесты → деплой.
- Tools:
- Доступ к API, файлам, интернету.
- Пример: запуск тестов, создание pull request.
- Dynamic prompt assembly:
- Статическая часть (системные инструкции).
- Динамическая часть (память, контекст, состояние, запрос).
10. Две философии работы
- No-code/low-code платформы:
- Быстрый старт.
- Готовая архитектура.
- Ограниченная гибкость.
- Пример: Replit, Laravel.
- Agentic workflow:
- Полный контроль.
- Любой стек, любая архитектура.
- Работа с продакшн-кодом.
- Пример: Cursor, Claude Code.
📝 Итог
- Промт-инженерия важна, но ограничена.
- Контекстная инженерия — ключ к созданию надёжных и эффективных систем.
- Понимание токенов, attention, контекстных окон и стоимости запросов позволяет оптимизировать работу и бюджет.
- Различие между LLM, reasoning‑моделями и агентами определяет уровень задач, которые можно решать.
- Будущее — за агентами и контекстной инженерией.