DS-STAR: агент смысла для данных или ещё одна иллюзия контроля?

Добрый вечер, коллеги. Google Research выпустил свежий лонгрид про DS-STAR — «универсального» агента данных, который будто бы умеет всё: от анализа файлов до визуализации и построения моделей. Звучит как мечта каждого, кто застрял в бесконечном цикле «дай дэшборд к обеду». Но если смотреть глубже, это история не про магию, а про дисциплину. DS-STAR побеждает на бенчмарках только потому, что выстраивает процесс по-человечески: читает данные, строит план, проверяет себя, переделывает. Это то, о чём мы говорим в тексте про AI-оркестрацию маркетинга: без системы AI — это карго-культ.

Что вообще показал Google

Если коротко по фактам из исследования Google Research:

DS-STAR анализирует любой формат данных в директории: CSV, JSON, markdown, даже неструктурированный текст. Он сначала пишет скрипт, который описывает файлы, и только потом строит план.
Агента разделили на роли: Planner, Coder, Router, Verifier. Это похоже на sensemaking-сессии, только вместо людей — ЛЛМ. Одна роль планирует, другая пишет код, третья проверяет, четвёртая решает, что делать дальше.
Главное отличие — итеративная валидация. После каждого шага подключается Verifier (LLM-судья), который говорит: «план ок» или «переделываем». Без этого агенты скатываются в ошибочные цепочки.
По результатам DS-STAR обгоняет AutoGen и DA-Agent на бенчмарках DABStep, KramaBench и DA-Code: +4–5 п.п. точности на сложных задачах.

Тут важно вспомнить, что в определении data science на Википедии речь идёт не только про модели, но и про инфраструктуру: сбор, подготовка, валидация. Google просто честно показал, что дисциплина даёт результат. Когда команды вместо этого играют в «презентации и редизайны», получается то, о чём я писал в материале про редизайн без стратегии.

Таблица: почему DS-STAR превышает старых агентов

Компонент	AutoGen / DA-Agent	DS-STAR	Что это значит для нас
Анализ данных	Основной фокус на CSV, мало контекста	Отдельный File Analyzer описывает всё	Больше смысла перед планированием, меньше угадываний
Планирование	Линейные цепочки без самопроверки	Planner + Router + Verifier идут циклами	Процесс ближе к реальной работе аналитика
Верификация	Почти нет или ручная	LLM-судья после каждого шага	Легче ловить ошибки до деплоя
Работа с множеством файлов	Слабо, падает точность	Заточен под гетерогенные источники	Подходит проектам с wiki, логами, CRM одновременно
Бенчмарки	~41% точности на DABStep	45.2% и лидерство в рейтинге	Это не магия, но стабильный рост
Применимость	Нужна чистая предобработка руками	Агент сам понимает структуру	Быстрее старт для команд без идеального дата-лейка

Эта таблица напоминает ту же историю, что и в экономике внимания iGaming: выигрывает тот, кто управляет ожиданиями и процессом, а не тот, кто громче всех обещает революцию.

Как работает цикл DS-STAR (в человеческих терминах)

Data File Analyzer запускает Python-скрипт и описывает каждое найденное дерево файлов. Это как если бы аналитик делал ревизию папок в Notion, прежде чем писать SQL.
Planner формирует high-level план: какие данные читать, какие модели строить, что визуализировать.
Coder пишет код (обычно на Python) под каждую часть плана, используя pandas, matplotlib, scikit-learn.
Verifier проверяет вывод: корректны ли графики, верно ли посчитаны метрики, соответствует ли ответ вопросу.
Router решает: достаточно ли этого или нужно добавить/исправить шаг. Если нет — возвращаемся к Planner и идём кругом.

По сути, DS-STAR имитирует живого аналитика, который сидит в Colab и постоянно смотрит на промежуточный результат. Google честно пишет, что сложные задачи требуют в среднем 5.6 итераций (easy — 3.0). То есть даже «агент» не верит в идеальные решения с первого раза.

Что это значит для маркетинговых и продуктовых команд

Снижается порог входа. Теперь можно дать агенту папку с CSV, JSON и wiki-доками, и он сам сделает инвентаризацию. Это полезно тем, кто только начинает тянуть данные из разных систем.
Ускоряется sensemaking. В нашей практике мы тратим полдня на то, чтобы люди поняли, что лежит в папке *reports. DS-STAR делает эту рутину автоматически, а люди концентрируются на смыслах.
Появляется новая роль — Verifier. ЛЛМ-судья — это аналог ревьюера в команде. Если его нет, агенты скатываются в фантазии. Значит, в продуктовых командах тоже нужна роль «человека, который проверяет результаты AI», иначе будут «живые пресс-релизы».
Требуется governance. Если агент может писать код и переписывать SQL, кто будет отслеживать качество? Значит, нужны регламенты, доступы, логирование. Всё то, о чём мы говорим в тексте про sensemaking-сессии.

Практический чек-лист внедрения

Шаг	Что делаем	Вопросы для команды
1. Инвентаризация данных	Складываем все файлы в sandbox директорию, запускаем File Analyzer	Есть ли чувствительные данные? Настроены ли права?
2. Определяем задачи	Формулируем вопросы: прогноз, сегментация, «почему падает retention?»	Как эти ответы влияют на бизнес-метрики?
3. Настраиваем цикл план→код→верификация	Назначаем ответственных за просмотр результатов агента	Кто подписывает итоговые выводы?
4. Обновляем документацию	Агент генерирует markdown-отчёты, мы складываем их в repo или Notion	Совпадают ли выводы с текущими OKR/стратегией?
5. Учим команду	Проводим внутренний воркшоп: как читать лог агента, как вносить правки	Что пойдёт в прод, а что останется в песочнице?

FAQ

Заменит ли DS-STAR аналитиков?
Нет. Он ускоряет рутину, но не понимает контекста бизнеса. Без человека, который связывает цифры с реальностью, агент превращается в ещё один источник ошибки.

Можно ли встроить его в маркетинговый пайплайн?
Да, но нужно заранее определить точки контроля. Например, агент может собирать данные по CRM, но решение «какой сегмент запускать» остаётся за cross-функциональной командой.

Что с безопасностью?
Агент читает все файлы в директории. Значит, нужно создавать отдельные песочницы, логировать доступы и не давать туда информацию, которая не должна уходить в ЛЛМ.

Какие кейсы подходят лучше всего?
Исследовательские задачи: аудит воронки, анализ поведения сегментов, подготовка данных для sensemaking-сессии, автоматизация отчётов по кампаниям.

Можно ли использовать другой LLM?
Google говорит, что DS-STAR работает и на GPT-5. Разница в том, что Gemini 2.5 Pro лучше справляется с «тяжёлыми» задачами, а GPT-5 — с простыми. Значит, архитектура переносима.

Куда вести читателя дальше

Откуда	Куда ведём	Что найдёте
Этот лонгрид	AI-оркестрация маркетинга	Как собирать честные пайплайны AI
Этот лонгрид	Sensemaking-сессии	Как превращать данные в решения
Этот лонгрид	Экономика внимания iGaming	Зачем управлять ожиданиями аудитории
Этот лонгрид	Живой пресс-релиз	Почему фасады без процессов ломаются

Финальный вывод

DS-STAR — это не «супер-ИИ, который заменит всех». Это манифест дисциплины: анализируй данные, строй план, проверяй себя, повторяй. Пока одни команды верят, что AI сам всё решит, другие тихо внедряют такие циклы и выигрывают. Когда в следующий раз услышите «мы просто интегрируем агента и всё заработает», спросите: «А кто будет Verifier? Где журнал итераций? Кто подписывает выводы?» Без этих ответов любой агент — всего лишь очередной мираж в пустыне.

Об авторе