← Назад к блогу
Как делать YouTube-видео с помощью NotebookLM: полный гайд

Как делать YouTube-видео с помощью NotebookLM: полный гайд

Как делать YouTube-видео с помощью NotebookLM: полный гайд

Если вы когда-нибудь хотели начать выкладывать видео на YouTube, но останавливались при мысли о видеоредакторах, монтаже и часах ручной работы — эта статья для вас.

Я покажу, как с помощью Google NotebookLM и пары open-source скриптов можно пройти путь от идеи до опубликованного видео буквально за полчаса. Без After Effects. Без Premiere. Без DaVinci Resolve. Вообще без видеоредактора.

Что такое NotebookLM и при чём тут видео

NotebookLM — это AI-инструмент от Google, который умеет анализировать ваши документы и генерировать на их основе контент. Ключевые возможности, которые нас интересуют:

  1. Генерация аудио-подкастов — загружаете статью, исследование или заметки, и NotebookLM создаёт аудио-нарратив с естественным голосом
  2. Генерация слайд-презентаций — на основе того же материала NotebookLM может создать PDF со слайдами
  3. Генерация готового видео — в некоторых режимах NotebookLM умеет собирать и готовые видео

Иными словами, NotebookLM берёт на себя самую сложную часть — создание контента. Остаётся только собрать это в формат, который YouTube принимает, и подготовить метаданные.

Вот как выглядит результат

Прежде чем углубляться в процесс, вот примеры видео, сделанных по этому воркфлоу:

В обоих случаях — без видеоредакторов и ручной работы. Всё собирается автоматически.

Два сценария: какой ваш?

В зависимости от того, что вам дал NotebookLM, используется один из двух инструментов:

Сценарий 1: У вас есть аудио + слайды → нужно собрать видео

Это случай, когда NotebookLM сгенерировал вам аудио-нарратив и PDF-презентацию по отдельности, и вам нужно склеить их в видео.

Инструмент: video-maker

Сценарий 2: У вас уже есть готовое видео → нужны метаданные для YouTube

NotebookLM умеет генерировать и готовые видео. Но для YouTube этого мало: нужен заголовок, описание, теги, таймкоды, субтитры. Всё это можно сгенерировать автоматически.

Инструмент: video-youtube-prepare

Давайте разберём оба.

Сценарий 1: Собираем видео из аудио и слайдов

Шаг 1: Генерируем контент в NotebookLM

  1. Откройте NotebookLM
  2. Создайте новый ноутбук и загрузите свой материал — статью, заметки, PDF, ссылки
  3. Попросите NotebookLM сгенерировать аудио-подкаст по вашему материалу
  4. Попросите сгенерировать слайды-презентацию
  5. Скачайте аудио (.m4a или .mp3) и слайды (.pdf)

Шаг 2: Устанавливаем инструменты

# Клонируем репозиторий
git clone https://github.com/suenot/video-maker.git
cd video-maker

# Создаём виртуальное окружение Python
python -m venv venv && source venv/bin/activate

# Устанавливаем зависимости
pip install openai-whisper pillow pytesseract

# Системные зависимости (macOS)
brew install ffmpeg poppler tesseract

Шаг 3: Кладём файлы

mkdir -p input/my-video
cp ~/Downloads/audio.m4a input/my-video/audio_ru.m4a
cp ~/Downloads/slides.pdf input/my-video/slides_ru.pdf

Шаг 4: Запускаем — одна команда

bash scripts/run_pipeline.sh ru

Всё. Серьёзно, одна команда. Пайплайн сам:

  1. ✅ Конвертирует PDF в картинки — каждый слайд становится PNG
  2. ✅ Распознаёт текст на каждом слайде через OCR
  3. ✅ Транскрибирует аудио через Whisper — получает текст с таймкодами
  4. ✅ Синхронизирует слайды с аудио — сопоставляет текст речи с текстом на слайдах
  5. ✅ Собирает MP4-видео через FFmpeg
  6. ✅ Генерирует SRT-субтитры
  7. ✅ Исследует релевантные YouTube-теги
  8. ✅ Генерирует метаданные: заголовок, описание, таймкоды
  9. ✅ Создаёт миниатюру 1280×720

Или можно запускать каждый шаг отдельно, если нужно больше контроля:

python scripts/pdf_to_images.py --pdf input/my-video/slides_ru.pdf --out-dir temp/slides --dpi 200
python scripts/extract_pdf_text.py --images-dir temp/slides --output temp/slides_text.json --lang rus
python scripts/extract_subtitles.py --audio input/my-video/audio_ru.m4a --output temp/subtitles.json --model base --language ru
python scripts/sync_slides.py --subtitles temp/subtitles.json --slides-text temp/slides_text.json --output temp/timeline.json
python scripts/generate_video.py --timeline temp/timeline.json --slides-dir temp/slides --audio input/my-video/audio_ru.m4a --output output/my-video.mp4

Как работает магия синхронизации

Это самая интересная часть. Скрипт не требует от вас ручных меток «покажи слайд 3 на секунде 42». Он сам разбирается.

Алгоритм — жадное прямое сопоставление:

  1. Whisper даёт пословные таймкоды того, что говорится
  2. OCR (Tesseract) даёт текст каждого слайда
  3. Скрипт проходит по сегментам транскрипции и оценивает каждый относительно текущего и нескольких следующих слайдов, используя пересечение слов и биграммное сопоставление
  4. Переключение на следующий слайд происходит, только когда тот набирает значительно больше очков и текущий слайд показывался достаточно долго

Слайды никогда не возвращаются назад. Просто, но удивительно хорошо работает для образовательного контента, где спикер следует порядку слайдов.

Что получаем на выходе

output/
├── my-video.mp4           # Готовое видео
├── my-video.srt           # Субтитры для загрузки на YouTube
├── my-video_metadata.json # Метаданные (машинный формат)
├── my-video_metadata.txt  # Метаданные (копируете в YouTube Studio)
└── my-video_thumbnail.png # Миниатюра

Файл _metadata.txt — это готовый текст, который вы просто копируете в YouTube Studio: заголовок, описание с таймкодами глав, теги.

Сценарий 2: Готовим метаданные для готового видео

Если NotebookLM уже сгенерировал готовое видео — или вы записали его любым другим способом — вам всё равно нужны метаданные для YouTube. Это второй инструмент.

Ключевая идея: у вас уже есть блог-статья для каждого видео. В статье есть заголовок, описание, теги и заголовки разделов. Инструмент переиспользует всё это для автоматической генерации метаданных.

Установка и запуск

git clone https://github.com/suenot/video-youtube-prepare.git
cd video-youtube-prepare
pip install openai-whisper

python scripts/prepare_metadata.py \
    --video input/my-video.mp4 \
    --slug my-article-slug \
    --output-dir output/my-article-slug \
    --whisper-model base

Инструмент:

  1. Извлекает аудио из видео
  2. Транскрибирует речь через Whisper
  3. Генерирует SRT-субтитры
  4. Если есть блог-статья — сопоставляет заголовки разделов с речью, строит таймкоды глав
  5. Извлекает теги из содержимого статьи
  6. Собирает всё в готовые метаданные на EN и RU

Про теги

YouTube-теги должны быть тематическими фразами (2–4 слова), а не отдельными словами. Инструмент строит их из:

  • Заголовков разделов вашей статьи, разбитых по естественным разделителям
  • Ключевых фраз из описания (2–3 слова)
  • Frontmatter-тегов и их попарных комбинаций
  • Брендовых тегов

Никаких внешних API — всё берётся из вашего контента. Теги, извлечённые из статьи, часто попадают точнее вручную подобранных, потому что используют ту же терминологию, что и целевая аудитория.

Полный воркфлоу: от идеи до YouTube за 30 минут

ШагЧто делаетеВремя
1Загружаете материал в NotebookLM2 мин
2Генерируете аудио и слайды5 мин
3Скачиваете файлы и кладёте в input/1 мин
4Запускаете run_pipeline.sh10–15 мин (ждёте)
5Открываете YouTube Studio, загружаете видео2 мин
6Копируете метаданные из .txt файла2 мин
7Загружаете субтитры и миниатюру1 мин

Итого: ~30 минут, из которых 15 — ожидание скрипта. Раньше то же самое занимало 2+ часа ручной работы.

Технические детали

Кодирование видео

На маке с Apple Silicon используется аппаратно-ускоренный HEVC через VideoToolbox — быстро и маленькие файлы. YouTube всё равно перекодирует, так что меньше файл = быстрее загрузка.

КодекСкоростьКогда использовать
hevc_videotoolboxБыстро (GPU)По умолчанию. Лучший баланс
h264_videotoolboxОчень быстро (GPU)Максимальная совместимость
libx264Медленно (CPU)Для Linux или когда нет GPU

Видео кодируется в 1920×1080 при 1 fps — слайды статичны, движения нет. YouTube это нормально обрабатывает, а заодно это снимает проблемы с OOM при concat demuxer.

Модели Whisper

МодельСкоростьТочностьКогда использовать
tinyМгновенноСредняяДля тестов
baseБыстроХорошаяПо умолчанию
smallСреднеВысокаяДля важных видео
mediumМедленноОчень высокаяДля сложного аудио
largeОчень медленноМаксимальнаяКогда каждое слово важно

Двуязычность

Оба инструмента работают с русским и английским из коробки. Флаг языка (ru / en) передаётся при запуске, метаданные генерируются отдельно для каждого языка.

Зависимости

Оба инструмента требуют: Python 3.9+, FFmpeg (brew install ffmpeg), OpenAI Whisper (pip install openai-whisper).

video-maker дополнительно: Poppler (brew install poppler), Tesseract (brew install tesseract), Pillow + pytesseract (pip install pillow pytesseract).

Бонус: агентный скилл для Claude Code

Если вы пользуетесь Claude Code, в репозитории video-maker есть файл .claude/skills/youtube-video-publishing.md. Это агентный скилл, который обучает Claude Code всему воркфлоу.

Открываете проект в Claude Code — и агент понимает весь пайплайн: какие кодеки использовать, как структурировать описание, как фильтровать OCR, какие поля заполнять для YouTube Education.

Скилл покрывает:

  • Правила заголовков — размещение ключевых слов, лимит видимости 70 символов, без кликбейта
  • Шаблон описания — SEO-хук в первых 150 символах, таймкоды из заголовков слайдов, ссылка на статью, Telegram CTA
  • Пайплайн тегов — YouTube Suggest API + анализ конкурентов + intent-фразы, только тематические фразы из 2–4 слов
  • Правила кодирования — почему hevc_videotoolbox на 1 fps, когда откатываться на libx264
  • Фильтрация OCR — gate по доле букв, детекция фрагментов, объединение ALL CAPS строк
  • YouTube Education — автогенерация Category, Type, Level, Problems

Можно сказать «сгенерируй видео из этих файлов» — и агент сделает всё правильно.

Что ещё есть: другие open-source инструменты для видео

Мои инструменты решают конкретную задачу: слайды + нарратив → YouTube. Но экосистема видеоавтоматизации шире. Вот два проекта, которые стоит знать:

video-use: монтаж видео через Claude Code

video-use — это open-source скилл, который позволяет монтировать видео прямо через Claude Code (или другого агента с доступом к терминалу).

Как это работает: вы кидаете сырые видеофайлы в папку, открываете Claude Code и говорите «смонтируй из этого видео для запуска продукта». Агент сам:

  • Вырезает слова-паразиты (umm, uh, фальстарты) и паузы между дублями
  • Делает автоматическую цветокоррекцию
  • Накладывает плавные аудио-фейды на каждом стыке (30 мс), чтобы не было щелчков
  • Вшивает субтитры в вашем стиле — по умолчанию UPPERCASE по 2 слова
  • Генерирует анимационные оверлеи через HyperFrames, Remotion, Manim или PIL
  • Самопроверяет рендер на каждом стыке перед показом результата

Ключевая идея: LLM никогда не «смотрит» видео. Он читает его — через транскрипцию от ElevenLabs Scribe (пословные таймкоды + диаризация спикеров) и визуальные композиты (filmstrip + waveform) по запросу. Вместо 30 000 кадров × 1 500 токенов = 45M токенов шума — 12 КБ текста и несколько PNG.

Это принципиально другой подход, чем мой video-maker. Мой пайплайн заточен под образовательные видео со слайдами. video-use — универсальный монтажёр для любого контента: talking heads, монтажи, туториалы, интервью.

OpenShorts: полная платформа для коротких видео

OpenShorts — это self-hosted платформа (Docker), которая объединяет три инструмента:

  1. Clip Generator — автоматически нарезает длинные видео (подкасты, вебинары, стримы) на вирусные 9:16 шортсы для TikTok, Instagram Reels и YouTube Shorts. Использует Google Gemini для поиска «вирусных моментов», face tracking через MediaPipe + YOLOv8, auto-субтитры через faster-whisper.

  2. AI Shorts — генерирует маркетинговые видео с AI-актёрами. Вы описываете продукт или вставляете URL — платформа генерирует скрипт, AI-актёра (Flux 2 Pro), озвучку (ElevenLabs), lip-sync (Hailuo + VEED), b-roll и финальную сборку. Стоимость: от $0.65 за видео.

  3. YouTube Studio — AI-генерация миниатюр, 10 вариантов вирусных заголовков, автоописания с таймкодами, прямая публикация на YouTube.

Плюс auto-publishing одним кликом на TikTok, Instagram и YouTube одновременно, с возможностью запланировать время публикации.

В отличие от платных аналогов (Opus Clip, CapCut, Vizard, Klap, Descript), OpenShorts полностью бесплатный, open source, без водяных знаков и лимитов на загрузку. Вы платите только за AI API (Gemini, fal.ai, ElevenLabs), и у большинства из них есть бесплатные тарифы.

Ограничения

Несколько вещей, которые стоит знать:

  • Синхронизация зависит от текста на слайдах. Графические слайды без текста синхронизируются хуже. Лучше всего работает с образовательными слайдами, где есть заголовки и тезисы.
  • Один спикер. Пайплайн рассчитан на непрерывный нарратив одного голоса.
  • macOS по умолчанию. Аппаратное ускорение HEVC работает на Apple Silicon. На Linux используйте libx264.
  • NotebookLM иногда удивляет. Качество генерации зависит от входного материала. Чем структурированнее ваши заметки — тем лучше результат.

Хотите попробовать?

Все инструменты — open source:

  • 🔧 video-maker — собирает видео из аудио + PDF
  • 🔧 video-youtube-prepare — генерирует метаданные для YouTube
  • 🎬 video-use — монтаж видео через Claude Code
  • 🎬 OpenShorts — полная платформа для шортсов и AI-видео

Важно: video-maker и video-youtube-prepare — это не готовые коробочные продукты, а шаблоны-заготовки. Они работают из коробки для базового сценария, но задуманы так, чтобы вы донастроили их под свои цели — любым AI-агентом (Claude Code, Codex, Cursor и т.д.). Форкните, адаптируйте под свой бренд, стиль описаний и формат контента.


Используйте NotebookLM для создания контента, а скрипты — для автоматической сборки. Это самый быстрый путь от идеи до YouTube, который я нашёл.