RU | EN | DE

LLM - Базовые знания. Это должен знать каждый

📚 Подробный конспект видео

1. Введение: зачем нужны базовые знания LLM

  • Многие разработчики думают, что ChatGPT «работает из коробки» и достаточно уметь писать промты.
  • На практике это приводит к ошибкам:
    • Системы работают непредсказуемо.
    • Бюджет на API расходуется неэффективно.
  • Автор подчёркивает: понимание архитектуры и принципов работы LLM критично для продакшн.
  • Цель видео — дать базу знаний, которая позволит использовать LLM осознанно.

2. Токенизация

  • Что такое токен?
    • Базовая единица текста для модели.
    • Может быть словом, частью слова или символом.
  • Разные токенизаторы → разное количество токенов:
    • Слово «программирование» может разбиваться на 3, 6 или даже 17 токенов в разных моделях.
  • Почему это важно?
    • Стоимость API считается по токенам.
    • Размер контекстного окна ограничен токенами.
  • Практический вывод:
    • Русский текст дороже в использовании (в среднем в 1.5–2 раза больше токенов, чем английский).
    • При проектировании систем стоит учитывать язык и оптимизировать ввод.

3. Attention и трансформеры

  • Self-attention: каждый токен оценивает важность других токенов.
    • Пример: «Сеньор-разработчик посмотрел на код, он сломался».
      • Человек понимает, что «он» относится к «код», а не к разработчику.
      • Модель делает это через механизм attention.
  • Multi-head attention: параллельный анализ разных аспектов текста.
    • Одна «голова» анализирует синтаксис.
    • Другая — типы данных.
    • Третья — логику.
  • Трансформеры:
    • Обрабатывают все токены одновременно.
    • Заменили рекуррентные сети, ускорив обучение и сделав возможным масштабирование до сотен миллиардов параметров.
  • Ограничение: квадратичная сложность.
    • Удвоение контекста → вычисления ×4.
    • Поэтому длинные контексты остаются дорогими и медленными.

4. Контекстное окно

  • Определение: рабочая память модели, сколько токенов она видит одновременно.
  • Состав:
    • Системный промт.
    • История диалога.
    • Текущий запрос.
    • Вызовы инструментов (файлы, команды, результаты поиска).
  • Проблемы переполнения:
    • Ответы обрываются.
    • Модель забывает начало разговора.
    • Повторяет инструкции.
    • Запрашивает уже открытые файлы.
  • Решения:
    • Самостоятельная суммаризация истории.
    • Контроль размера окна.
    • Начало нового чата при сложных задачах.
  • Практический пример:
    • В ассистентах (Cursor, Claude Code) tools могут занимать десятки тысяч токенов → контекст быстро переполняется.

5. Стоимость запросов и кэширование

  • Input vs Output:
    • Input токены дешевле (пример: $3 за 1 млн).
    • Output дороже (пример: $15 за 1 млн).
  • Почему?
    • Input обрабатывается параллельно.
    • Output генерируется последовательно, токен за токеном.
  • KV cache:
    • Сохраняет результаты attention для уже обработанных токенов.
    • Ускоряет генерацию и снижает стоимость.
  • Экономия:
    • До 70–90% при правильном использовании кэша.
  • Batch API:
    • У некоторых провайдеров (например, Anthropic) есть режим фоновой обработки со скидкой 50%.
    • Подходит для задач без жёстких требований к скорости (анализ отзывов, саммаризация документов).

6. Training vs Inference

  • Training (обучение):
    • Огромные датасеты, недели/месяцы работы, миллионы долларов.
    • Веса модели обновляются.
  • Inference (использование):
    • Каждый запрос пользователя.
    • Веса модели не меняются.
    • Стоимость — центы.
  • Заблуждение: «ChatGPT учится на моих данных».
    • На самом деле он просто использует память (историю чата, сохранённые факты).
    • Веса модели не изменяются.
  • Вывод: кастомизация модели делается через fine-tuning или few-shot learning, а не через обычное использование.

7. Типы моделей

  • LLM (Large Language Model):
    • Stateless.
    • Один запрос → один ответ.
    • Нет памяти между запросами.
  • Reasoning models:
    • Добавляют пошаговое мышление (chain of thought).
    • Могут проверять логику, делать саморефлексию.
    • Лучше справляются со сложными задачами (математика, программирование).
  • Агенты:
    • Автономные системы.
    • Цикл: наблюдение → рассуждение → действие → повтор.
    • Имеют память и состояние.
    • Могут использовать инструменты (API, файлы, интернет).
    • Пример: агент исправляет баг, запускает тесты, делает коммит и деплой.

8. Контекстная инженерия vs промт-инженерия

  • Промт-инженерия:
    • Формулировка задачи.
    • Приёмы: назначение роли, примеры, chain of thought, формат ответа, ограничения.
  • Контекстная инженерия:
    • Системная архитектура.
    • Управление памятью, retrieval, состоянием, инструментами.
    • Динамическая сборка промта.
  • Пример: бронирование отеля.
    • Промт: «Забронируй отель в Париже».
    • Контекст: бюджет, календарь, локация → правильный результат.
  • Вывод: промт — лишь триггер, результат определяется контекстом.

9. Компоненты контекстной инженерии

  1. Memory management:
    • Краткосрочная память (последние сообщения).
    • Долгосрочная память (базы данных, файлы).
  2. Retrieval:
    • Динамическое добавление релевантных документов.
    • Пример: из 1000 документов выбрать только нужные.
  3. State management:
    • Отслеживание прогресса в многошаговых задачах.
    • Пример: исправление бага → тесты → деплой.
  4. Tools:
    • Доступ к API, файлам, интернету.
    • Пример: запуск тестов, создание pull request.
  5. Dynamic prompt assembly:
    • Статическая часть (системные инструкции).
    • Динамическая часть (память, контекст, состояние, запрос).

10. Две философии работы

  • No-code/low-code платформы:
    • Быстрый старт.
    • Готовая архитектура.
    • Ограниченная гибкость.
    • Пример: Replit, Laravel.
  • Agentic workflow:
    • Полный контроль.
    • Любой стек, любая архитектура.
    • Работа с продакшн-кодом.
    • Пример: Cursor, Claude Code.

📝 Итог

  • Промт-инженерия важна, но ограничена.
  • Контекстная инженерия — ключ к созданию надёжных и эффективных систем.
  • Понимание токенов, attention, контекстных окон и стоимости запросов позволяет оптимизировать работу и бюджет.
  • Различие между LLM, reasoning‑моделями и агентами определяет уровень задач, которые можно решать.
  • Будущее — за агентами и контекстной инженерией.