Логотип Casinokrisa
Published on

DS-STAR: агент смысла для данных или ещё одна иллюзия контроля?

Authors
  • avatar
    Name
    Михаил Дроздов
    Twitter

Об авторе

Digital философ с 10+ годами опыта. Соединяю SEO, аналитику, AI и iGaming-маркетинг, чтобы бренды росли за счёт стратегии, а не хайпа.

Casinokrisa · Digital философ и стратег маркетинга

Добрый вечер, коллеги. Google Research выпустил свежий лонгрид про DS-STAR — «универсального» агента данных, который будто бы умеет всё: от анализа файлов до визуализации и построения моделей. Звучит как мечта каждого, кто застрял в бесконечном цикле «дай дэшборд к обеду». Но если смотреть глубже, это история не про магию, а про дисциплину. DS-STAR побеждает на бенчмарках только потому, что выстраивает процесс по-человечески: читает данные, строит план, проверяет себя, переделывает. Это то, о чём мы говорим в тексте про AI-оркестрацию маркетинга: без системы AI — это карго-культ.

DS-STAR — пустынный иллюзионист данных

Что вообще показал Google

Если коротко по фактам из исследования Google Research:

  • DS-STAR анализирует любой формат данных в директории: CSV, JSON, markdown, даже неструктурированный текст. Он сначала пишет скрипт, который описывает файлы, и только потом строит план.
  • Агента разделили на роли: Planner, Coder, Router, Verifier. Это похоже на sensemaking-сессии, только вместо людей — ЛЛМ. Одна роль планирует, другая пишет код, третья проверяет, четвёртая решает, что делать дальше.
  • Главное отличие — итеративная валидация. После каждого шага подключается Verifier (LLM-судья), который говорит: «план ок» или «переделываем». Без этого агенты скатываются в ошибочные цепочки.
  • По результатам DS-STAR обгоняет AutoGen и DA-Agent на бенчмарках DABStep, KramaBench и DA-Code: +4–5 п.п. точности на сложных задачах.

Тут важно вспомнить, что в определении data science на Википедии речь идёт не только про модели, но и про инфраструктуру: сбор, подготовка, валидация. Google просто честно показал, что дисциплина даёт результат. Когда команды вместо этого играют в «презентации и редизайны», получается то, о чём я писал в материале про редизайн без стратегии.

Таблица: почему DS-STAR превышает старых агентов

КомпонентAutoGen / DA-AgentDS-STARЧто это значит для нас
Анализ данныхОсновной фокус на CSV, мало контекстаОтдельный File Analyzer описывает всёБольше смысла перед планированием, меньше угадываний
ПланированиеЛинейные цепочки без самопроверкиPlanner + Router + Verifier идут цикламиПроцесс ближе к реальной работе аналитика
ВерификацияПочти нет или ручнаяLLM-судья после каждого шагаЛегче ловить ошибки до деплоя
Работа с множеством файловСлабо, падает точностьЗаточен под гетерогенные источникиПодходит проектам с wiki, логами, CRM одновременно
Бенчмарки~41% точности на DABStep45.2% и лидерство в рейтингеЭто не магия, но стабильный рост
ПрименимостьНужна чистая предобработка рукамиАгент сам понимает структуруБыстрее старт для команд без идеального дата-лейка

Эта таблица напоминает ту же историю, что и в экономике внимания iGaming: выигрывает тот, кто управляет ожиданиями и процессом, а не тот, кто громче всех обещает революцию.

Как работает цикл DS-STAR (в человеческих терминах)

  1. Data File Analyzer запускает Python-скрипт и описывает каждое найденное дерево файлов. Это как если бы аналитик делал ревизию папок в Notion, прежде чем писать SQL.
  2. Planner формирует high-level план: какие данные читать, какие модели строить, что визуализировать.
  3. Coder пишет код (обычно на Python) под каждую часть плана, используя pandas, matplotlib, scikit-learn.
  4. Verifier проверяет вывод: корректны ли графики, верно ли посчитаны метрики, соответствует ли ответ вопросу.
  5. Router решает: достаточно ли этого или нужно добавить/исправить шаг. Если нет — возвращаемся к Planner и идём кругом.

По сути, DS-STAR имитирует живого аналитика, который сидит в Colab и постоянно смотрит на промежуточный результат. Google честно пишет, что сложные задачи требуют в среднем 5.6 итераций (easy — 3.0). То есть даже «агент» не верит в идеальные решения с первого раза.

Что это значит для маркетинговых и продуктовых команд

  • Снижается порог входа. Теперь можно дать агенту папку с CSV, JSON и wiki-доками, и он сам сделает инвентаризацию. Это полезно тем, кто только начинает тянуть данные из разных систем.
  • Ускоряется sensemaking. В нашей практике мы тратим полдня на то, чтобы люди поняли, что лежит в папке *reports. DS-STAR делает эту рутину автоматически, а люди концентрируются на смыслах.
  • Появляется новая роль — Verifier. ЛЛМ-судья — это аналог ревьюера в команде. Если его нет, агенты скатываются в фантазии. Значит, в продуктовых командах тоже нужна роль «человека, который проверяет результаты AI», иначе будут «живые пресс-релизы».
  • Требуется governance. Если агент может писать код и переписывать SQL, кто будет отслеживать качество? Значит, нужны регламенты, доступы, логирование. Всё то, о чём мы говорим в тексте про sensemaking-сессии.

Практический чек-лист внедрения

ШагЧто делаемВопросы для команды
1. Инвентаризация данныхСкладываем все файлы в sandbox директорию, запускаем File AnalyzerЕсть ли чувствительные данные? Настроены ли права?
2. Определяем задачиФормулируем вопросы: прогноз, сегментация, «почему падает retention?»Как эти ответы влияют на бизнес-метрики?
3. Настраиваем цикл план→код→верификацияНазначаем ответственных за просмотр результатов агентаКто подписывает итоговые выводы?
4. Обновляем документациюАгент генерирует markdown-отчёты, мы складываем их в repo или NotionСовпадают ли выводы с текущими OKR/стратегией?
5. Учим командуПроводим внутренний воркшоп: как читать лог агента, как вносить правкиЧто пойдёт в прод, а что останется в песочнице?

FAQ

Заменит ли DS-STAR аналитиков?
Нет. Он ускоряет рутину, но не понимает контекста бизнеса. Без человека, который связывает цифры с реальностью, агент превращается в ещё один источник ошибки.

Можно ли встроить его в маркетинговый пайплайн?
Да, но нужно заранее определить точки контроля. Например, агент может собирать данные по CRM, но решение «какой сегмент запускать» остаётся за cross-функциональной командой.

Что с безопасностью?
Агент читает все файлы в директории. Значит, нужно создавать отдельные песочницы, логировать доступы и не давать туда информацию, которая не должна уходить в ЛЛМ.

Какие кейсы подходят лучше всего?
Исследовательские задачи: аудит воронки, анализ поведения сегментов, подготовка данных для sensemaking-сессии, автоматизация отчётов по кампаниям.

Можно ли использовать другой LLM?
Google говорит, что DS-STAR работает и на GPT-5. Разница в том, что Gemini 2.5 Pro лучше справляется с «тяжёлыми» задачами, а GPT-5 — с простыми. Значит, архитектура переносима.

Куда вести читателя дальше

ОткудаКуда ведёмЧто найдёте
Этот лонгридAI-оркестрация маркетингаКак собирать честные пайплайны AI
Этот лонгридSensemaking-сессииКак превращать данные в решения
Этот лонгридЭкономика внимания iGamingЗачем управлять ожиданиями аудитории
Этот лонгридЖивой пресс-релизПочему фасады без процессов ломаются

Финальный вывод

DS-STAR — это не «супер-ИИ, который заменит всех». Это манифест дисциплины: анализируй данные, строй план, проверяй себя, повторяй. Пока одни команды верят, что AI сам всё решит, другие тихо внедряют такие циклы и выигрывают. Когда в следующий раз услышите «мы просто интегрируем агента и всё заработает», спросите: «А кто будет Verifier? Где журнал итераций? Кто подписывает выводы?» Без этих ответов любой агент — всего лишь очередной мираж в пустыне.