RU | EN | DE

LLM - Базовые знания. Это должен знать каждый

📚 Подробный конспект видео

1. Введение: зачем нужны базовые знания LLM

Многие разработчики думают, что ChatGPT «работает из коробки» и достаточно уметь писать промты.
На практике это приводит к ошибкам:
- Системы работают непредсказуемо.
- Бюджет на API расходуется неэффективно.
Автор подчёркивает: понимание архитектуры и принципов работы LLM критично для продакшн.
Цель видео — дать базу знаний, которая позволит использовать LLM осознанно.

2. Токенизация

Что такое токен?
- Базовая единица текста для модели.
- Может быть словом, частью слова или символом.
Разные токенизаторы → разное количество токенов:
- Слово «программирование» может разбиваться на 3, 6 или даже 17 токенов в разных моделях.
Почему это важно?
- Стоимость API считается по токенам.
- Размер контекстного окна ограничен токенами.
Практический вывод:
- Русский текст дороже в использовании (в среднем в 1.5–2 раза больше токенов, чем английский).
- При проектировании систем стоит учитывать язык и оптимизировать ввод.

3. Attention и трансформеры

Self-attention: каждый токен оценивает важность других токенов.
- Пример: «Сеньор-разработчик посмотрел на код, он сломался».
  - Человек понимает, что «он» относится к «код», а не к разработчику.
  - Модель делает это через механизм attention.
Multi-head attention: параллельный анализ разных аспектов текста.
- Одна «голова» анализирует синтаксис.
- Другая — типы данных.
- Третья — логику.
Трансформеры:
- Обрабатывают все токены одновременно.
- Заменили рекуррентные сети, ускорив обучение и сделав возможным масштабирование до сотен миллиардов параметров.
Ограничение: квадратичная сложность.
- Удвоение контекста → вычисления ×4.
- Поэтому длинные контексты остаются дорогими и медленными.

4. Контекстное окно

Определение: рабочая память модели, сколько токенов она видит одновременно.
Состав:
- Системный промт.
- История диалога.
- Текущий запрос.
- Вызовы инструментов (файлы, команды, результаты поиска).
Проблемы переполнения:
- Ответы обрываются.
- Модель забывает начало разговора.
- Повторяет инструкции.
- Запрашивает уже открытые файлы.
Решения:
- Самостоятельная суммаризация истории.
- Контроль размера окна.
- Начало нового чата при сложных задачах.
Практический пример:
- В ассистентах (Cursor, Claude Code) tools могут занимать десятки тысяч токенов → контекст быстро переполняется.

5. Стоимость запросов и кэширование

Input vs Output:
- Input токены дешевле (пример: $3 за 1 млн).
- Output дороже (пример: $15 за 1 млн).
Почему?
- Input обрабатывается параллельно.
- Output генерируется последовательно, токен за токеном.
KV cache:
- Сохраняет результаты attention для уже обработанных токенов.
- Ускоряет генерацию и снижает стоимость.
Экономия:
- До 70–90% при правильном использовании кэша.
Batch API:
- У некоторых провайдеров (например, Anthropic) есть режим фоновой обработки со скидкой 50%.
- Подходит для задач без жёстких требований к скорости (анализ отзывов, саммаризация документов).

6. Training vs Inference

Training (обучение):
- Огромные датасеты, недели/месяцы работы, миллионы долларов.
- Веса модели обновляются.
Inference (использование):
- Каждый запрос пользователя.
- Веса модели не меняются.
- Стоимость — центы.
Заблуждение: «ChatGPT учится на моих данных».
- На самом деле он просто использует память (историю чата, сохранённые факты).
- Веса модели не изменяются.
Вывод: кастомизация модели делается через fine-tuning или few-shot learning, а не через обычное использование.

7. Типы моделей

LLM (Large Language Model):
- Stateless.
- Один запрос → один ответ.
- Нет памяти между запросами.
Reasoning models:
- Добавляют пошаговое мышление (chain of thought).
- Могут проверять логику, делать саморефлексию.
- Лучше справляются со сложными задачами (математика, программирование).
Агенты:
- Автономные системы.
- Цикл: наблюдение → рассуждение → действие → повтор.
- Имеют память и состояние.
- Могут использовать инструменты (API, файлы, интернет).
- Пример: агент исправляет баг, запускает тесты, делает коммит и деплой.

8. Контекстная инженерия vs промт-инженерия

Промт-инженерия:
- Формулировка задачи.
- Приёмы: назначение роли, примеры, chain of thought, формат ответа, ограничения.
Контекстная инженерия:
- Системная архитектура.
- Управление памятью, retrieval, состоянием, инструментами.
- Динамическая сборка промта.
Пример: бронирование отеля.
- Промт: «Забронируй отель в Париже».
- Контекст: бюджет, календарь, локация → правильный результат.
Вывод: промт — лишь триггер, результат определяется контекстом.

9. Компоненты контекстной инженерии

Memory management:
- Краткосрочная память (последние сообщения).
- Долгосрочная память (базы данных, файлы).
Retrieval:
- Динамическое добавление релевантных документов.
- Пример: из 1000 документов выбрать только нужные.
State management:
- Отслеживание прогресса в многошаговых задачах.
- Пример: исправление бага → тесты → деплой.
Tools:
- Доступ к API, файлам, интернету.
- Пример: запуск тестов, создание pull request.
Dynamic prompt assembly:
- Статическая часть (системные инструкции).
- Динамическая часть (память, контекст, состояние, запрос).

10. Две философии работы

No-code/low-code платформы:
- Быстрый старт.
- Готовая архитектура.
- Ограниченная гибкость.
- Пример: Replit, Laravel.
Agentic workflow:
- Полный контроль.
- Любой стек, любая архитектура.
- Работа с продакшн-кодом.
- Пример: Cursor, Claude Code.

📝 Итог

Промт-инженерия важна, но ограничена.
Контекстная инженерия — ключ к созданию надёжных и эффективных систем.
Понимание токенов, attention, контекстных окон и стоимости запросов позволяет оптимизировать работу и бюджет.
Различие между LLM, reasoning‑моделями и агентами определяет уровень задач, которые можно решать.
Будущее — за агентами и контекстной инженерией.

VBO Wiki

Explorer

1. AI. LLM. Theoretic

LLM - Базовые знания. Это должен знать каждый

📚 Подробный конспект видео

1. Введение: зачем нужны базовые знания LLM

2. Токенизация

3. Attention и трансформеры

4. Контекстное окно

5. Стоимость запросов и кэширование

6. Training vs Inference

7. Типы моделей

8. Контекстная инженерия vs промт-инженерия

9. Компоненты контекстной инженерии

10. Две философии работы

📝 Итог

Table of Contents

Backlinks