Gemini и длинные документы: как загрузить PDF,
получить выжимку
и не утонуть в тексте
К примеру, у вас на столе 40-страничный договор аренды, отчёт аудитора за три года
и техническое задание которое правили шесть человек.
Если читать всё это целиком, замучаешься да ещё и целый день работы займет,
но загрузив в Gemini, то всего тридцать секунд, без мороки.
Контекстное окно Gemini 3.1 Flash вмещает до 1 миллиона токенов, у Gemini 3.1 Pro же,
это окно содержит до 2 миллионов.
По-простому: это примерно 1 500 страниц текста за один запрос.
И это целиком, а не «загрузите первые 10 страниц, потом следующие».
Звучит, конечно же круто, но без правильного промпта модель выдаст размытую кашу даже из идеально структурированного документа. А с правильным, он вытащит конкретные пункты, найдёт противоречия между разделами и соберёт сводку
с цитатами. Как раз в этой статье мы и расскажем: какие форматы поддерживаются,
через какие интерфейсы удобнее работать, что доступно из России без лишней возни,
и какие промпты дают хороший и детальный результат.
Миллион токенов: что это значит на практике
Контекстное окно, это рабочая память модели и всё что в него поместилось,
Gemini видит одновременно. Например: загрузили PDF на 200 страниц, задали вопрос
и модель ищет ответ по всему документу сразу, а не угадывает по первым абзацам.
Миллион токенов у Gemini 3 Flash, это примерно 700-750 тысяч слов.
Для ориентира: роман «Война и мир» около 580 тысяч слов,
то есть Толстого модель переварит целиком, и ещё место для ваших вопросов останется.
Gemini 3.1 Pro берёт вдвое больше, до 2 миллионов токенов, но на практике документы такого объёма встречаются редко.
Если вы не юрист с подшивкой судебных решений за десять лет,
миллиона токенов вам точно хватит, еще и с запасом.
Есть одна простая вещь, про которую легко забыть.
Контекстное окно, это память только на время текущего чата, то есть если вы закрыли его, то всё, файл пропал, в новом придётся загружать заново.
Это не база данных, а скорее большой стол: поработали, и в конце дня его просто очистили.

Какие форматы Gemini умеет читать
Список шире, чем кажется на первый взгляд:
● PDF — основной формат. Gemini читает и текстовые слои, и распознаёт текст на сканах (хотя с рукописным почерком бывают промахи).
● DOCX — файлы Word, включая таблицы и форматирование.
● XLSX — таблицы Excel. Модель видит структуру столбцов и строк, может считать, сравнивать, искать аномалии.
● TXT и JSON — простой текст и структурированные данные.
● Изображения с текстом — фотографии документов, скриншоты, слайды. OCR встроен, отдельно ничего настраивать не нужно.
Что касается таблиц с Gemini, то это зависит от того, что внутри.
Обычный прайс-лист, список сотрудников или данные по месяцам, их он читает нормально.
Но вот со сводной таблицей Excel с кучей объединённых ячеек и формулами внутри формул, может поехать, так что лучше проверять.
Два случая когда лучше не рассчитывать на Gemini.
Первый, это зашифрованные PDF: просто снимите пароль до загрузки.
А второй, это файлы где текст представлен картинкой низкого качества.
Скан с офисного принтера, примет нормально, но фотография документа сделанная в полутьме на телефон, результат будет лотерея.
Три способа работать с документами в Gemini
Gemini, это не один продукт, а семейство интерфейсов. И для работы с длинными документами они отличаются довольно сильно.
Веб-чат gemini.google cамый простой вариант: открыл, перетащил файл,
задал вопрос.
Работает с подпиской Google One AI Premium (Gemini Pro), которая позволяет загружать документы до ~1 500 страниц.
Только есть проблема для российских пользователей: gemini.google заблокирован в РФ, напрямую не откроется.
Google AI Studio (aistudio.google). Гибкий инструмент с настройками температуры, выбором модели и возможностью загружать несколько файлов одновременно,
но тоже заблокирован в РФ напрямую.
Gemini API с ключом. Эндпоинт generativelanguage.googleapis из России работает.
Просто получаете API-ключ, отправляете файл и запрос программно.
Может, не так удобно как перетащить PDF в окно чата,
зато стабильно и без привязки к региону.
А для тех, кто не хочет разбираться с API, есть сервисы вроде AI-Flip,
где Gemini доступна через обычный веб-интерфейс без VPN и иностранных карт.
В итоге, что выбрать, зависит напрямую от задачи. Если, нужно быстро разобрать
один документ и вы не в России, то вам к веб-чату, а если работаете с документами регулярно из РФ, то к API или агрегатору.

Gemini File Search: когда документов много и они нужны постоянно
Gemini File Search это уже другой уровень работы с документами.
Не просто «загрузил один PDF и спросил что-то», а полноценная база знаний из ваших файлов с которой можно работать постоянно.
Принцип простой: загружаете файлы через API, например такие как PDF, DOCX, TXT, JSON, XLSX, и система их индексирует. Дальше задаёте вопросы по всему архиву сразу,
не по одному файлу. Файлы никуда не пропадают,
а лежат постоянно, совсем не то что в обычном чате где всё исчезает через 48 часов
и приходится загружать заново.
Можно раскидать документы по тегам, фильтровать по проектам, держать всё в порядке.
Самая полезная фишка, это ответы с цитатами, модель не просто пишет «в регламенте написано что…», а показывает конкретный документ и конкретный фрагмент откуда взяла информацию. Для юридических или бухгалтерских задач это принципиально важно,
когда нужна не просто выжимка, а возможность проверить источник.
Сколько это стоит: индексация базы на 500 страниц обходится в несколько центов. Хранение файлов бесплатное, платите только за индексацию и генерацию ответов.
Для небольшой компании которая хочет наконец собрать все свои инструкции, регламенты и шаблоны в одном месте, вполне хорошая стоимость.
Есть одно ограничение о котором лучше знать сразу: File Search работает только через API, никакого веб-интерфейса нет. Нужно либо самому уметь отправлять HTTP-запросы, либо найти кого-то кто поможет с первоначальной настройкой.
NotebookLM: если нужно сопоставить несколько источников
Google сделал ещё один инструмент для работы с документами, в виде NotebookLM.
Здесь подход другой, просто загружаете несколько источников, например:
PDF, ссылки на веб-страницы, тексты, видео, и система помогает находить связи между ними, выделять общие темы, генерировать обзоры.
Или, если вы готовите аналитическую записку и у вас есть три отчёта разных подразделений, два внешних исследования рынка и стенограмма совещания.
NotebookLM загрузит всё это, и можно спрашивать:
«Где данные из отчёта маркетинга противоречат выводам финансового отдела?»
или «Какие рекомендации повторяются во всех трёх источниках?»
Этот инструмент бесплатный, но опять же, для российских пользователей
есть существенное «но»: NotebookLM (notebooklm.google) заблокирован в РФ,
доступ требует иностранного IP и иностранного аккаунта.
Промпты которые работают с длинными документами
Загрузить 200-страничный PDF, это ещё не вся работа, тут самое важное,
как именно вы спросите.
Типичная ошибка: загружают договор и пишут «проанализируй», и Gemini послушно выдаёт трёхстраничный пересказ из которого невозможно извлечь ничего полезного. Это происходит из-за того, что задача сформулирована слишком широко.
Работающие паттерны промптов:
- Структурирование. «Разбей этот документ на логические разделы. Для каждого раздела укажи: название, страницы, ключевые тезисы (не больше 3 на раздел).» Получите карту документа, по которой дальше удобно работать».
- Извлечение конкретики. «Найди в этом договоре все пункты, касающиеся ответственности сторон. Процитируй дословно, укажи номер пункта».
Не «расскажи про ответственность», а «найди и процитируй». - Сравнение. Загрузите две версии документа.
«Сравни эти два файла. Перечисли все изменения: что добавлено, что удалено,
что переформулировано. Формат: таблица с колонками Было / Стало / Комментарий» - Поиск противоречий. «Проверь, нет ли в документе внутренних противоречий: пунктов, которые конфликтуют друг с другом, или цифр, которые не сходятся с итоговыми суммами.»
- Сводка для руководства. «Подготовь краткую сводку этого отчёта для директора. Максимум одна страница. Три главных вывода, два риска, одна рекомендация. Без воды.»

Ещё один приём который сэкономит ваше время: двухшаговый запрос.
Сначала просите модель составить оглавление или карту документа, а после,
глядя на эту карту, задаёте точечные вопросы по конкретным разделам.
Так вы контролируете процесс и не получаете кашу из всего сразу.
Корпоративный сценарий: навигация по внутренним регламентам
Представим компанию, где внутренние регламенты, это: 15 PDF-файлов общим объёмом 800 страниц. Новый сотрудник спрашивает: «Как оформить командировку?»
HR-менеджер тратит 20 минут чтобы найти нужный раздел в нужном документе.
С Gemini, через File Search API или просто загрузив документы в чат, тот же вопрос решается за минуту. Как это работает: модель находит релевантные пункты,
указывает номера страниц и цитирует формулировки. А можно пойти дальше и запросить:
«Какие термины определены в этом регламенте? Где каждый из них используется повторно? Есть ли перекрёстные ссылки на другие документы?»
Это не замена юристу или HR-специалисту, это просто удобный способ
который помогает не тратить полчаса на поиск пункта 4.3.7 в третьем приложении к регламенту, который ещё и последний раз обновляли в 2022 году.
Результаты, Gemini умеет выгружать в Google Docs или формат .docx.
Собрали сводку, нашли нужные пункты, и экспортировали в документ, отправили коллегам.
Чего Gemini не умеет (и где стоит перепроверять)
Честно про границы.
Юридические документы. Gemini может пропустить тонкую формулировку, неочевидную оговорку в сноске, двусмысленность которая имеет значение в суде.
Если подписываете контракт на крупную сумму, то помните, что выжимка от ИИ
это черновик, а не финальный анализ.
Числа и расчёты. Gemini неплохо извлекает цифры из таблиц, но арифметику проверяйте сами. «Сумма по столбцу» может оказаться приблизительной, особенно если в таблице объединённые ячейки или нестандартное форматирование.
Галлюцинации. Gemini тоже иногда придумывает. Реже чем модели с маленьким контекстом, но если спросить о чём-то чего в документе нет, то модель может
уверенно сочинить ответ вместо того чтобы сказать «об этом здесь не написано».
Всегда просите цитаты и номера страниц, так проще ловить выдумки.
Форматирование на выходе. Попросили таблицу, и сразу получили таблицу,
но со съехавшими столбцами. Попросили нумерованный список, и получили, но с дублями. Мелочи которые исправляются за минуту, их лучше подмечать.
Доступ из России: что работает, что нет
Прямой доступ к gemini.google, Google AI Studio, NotebookLM и Vertex AI из России заблокирован.
Это не VPN-история «иногда работает, иногда нет», а сервисы просто показывают окно недоступности.
Что работает:
● API-эндпоинт generativelanguage.googleapis, доступен, нужен API-ключ от Google
● Python SDK google-genai, работает через тот же API
● Gemini в Google Search, встроен в поисковую выдачу, работает без ограничений
● Агрегаторы вроде AI-Flip, там Gemini доступна через веб-интерфейс,
оплата в рублях токенами, без подписок и иностранных карт
Если вам нужно просто загрузить PDF и получить выжимку,
тогда агрегатор самый быстрый путь.
Если строите систему на базе File Search с десятками документов,
тогда вам понадобится API-ключ и минимальные навыки работы с запросами.
| Интерфейс | Доступ из РФ | Загрузка файлов | Постоянное хранение | Стоимость |
| gemini.google | Заблокирован | До ~1500 стр. | Нет | Подписка Google One AI Premium |
| Google AI Studio | Заблокирован | Несколько файлов | Нет | Бесплатно (с лимитами) |
| Gemini API | Заблокирован | Любые поддерживаемые форматы | Да (File Search) | Оплата за токены |
| AI-Flip | Работает | PDF и другие форматы | Нет | Оплата за токены, в рублях |
| NotebookLM | Заблокирован | Множество источников | Да | Бесплатно |
FAQ
- Сколько страниц можно загрузить в Gemini за один раз?
Gemini 3.1 Flash принимает до 1 млн токенов (примерно 700–750 тысяч слов, около 1000–1200 страниц обычного текста), а Gemini 3.1 Pro, это до 2 млн токенов. С минимальной подпиской Gemini, получается до ~1500 страниц через веб-интерфейс.
- Gemini запоминает мои документы между сессиями?
В обычном чате, нет, каждая сессия начинается с чистого листа. Для постоянного хранения используйте лучше Gemini File Search через API.
- Можно ли использовать Gemini для работы с документами из России?
Веб-интерфейс gemini.google заблокирован. Работают: API через generativelanguage.googleapis (нужен ключ) или агрегаторы вроде AI-Flip, где Gemini доступна без VPN.
- Gemini корректно работает с таблицами в PDF?
Простые таблицы, да, но сложные сводные таблицы с объединёнными ячейками и многоуровневыми заголовками могут обрабатываться с ошибками. Результат лучше проверять.
- Чем Gemini для документов отличается от ChatGPT?
Главное отличие, это размер контекстного окна. У GPT-4o он 128 тысяч токенов, у Gemini 2.0 Flash, это миллион. Для коротких документов разница не заметна, но если нужно загрузить 500-страничный отчёт целиком, то Gemini справится, а ChatGPT попросит разбить на части.
