На этой неделе в ИИ-разработке не было одного релиза, который забрал бы весь воздух. Зато стало хорошо видно кое-что важнее: разговор больше не сводится к вопросу «какая модель умнее». Теперь на первый план вышли поставка, цена, контроль, стандарты, регуляторы и вся инженерная обвязка вокруг моделей.
Если читать новости по одной, получается обычная лента. OpenAI выкатила новые исследования. Google и Microsoft поддержали спецификацию для поиска агентных ресурсов. GitHub добавил Copilot метрики, новые модели и поддержку AGENTS.md. Vercel показал стек для продакшен-агентов. Cursor попал в историю с огромной сделкой SpaceX. А Anthropic всю неделю жила в тени отключения Fable 5 и Mythos 5. Но вместе это уже не россыпь новостей. Это картина того, как агентная разработка выходит из режима «вау, оно пишет код» и становится обычной, жёсткой инженерией.
Карта недели
Главные сюжеты недели:
- Модель теперь могут выключить не только из-за бага. После директивы США по Fable 5 и Mythos 5 регуляторный риск стал очень практичной вещью: модель может пропасть из продукта по решению государства.
- Агентам начали рисовать карту мира. Google, Microsoft, GitHub, Hugging Face и другие представили Agentic Resource Discovery — спецификацию, чтобы агенты могли находить инструменты, навыки и других агентов через каталоги и реестры.
- Оценки моделей стали ближе к реальной жизни. OpenAI описала Deployment Simulation — метод, где модель-кандидат прогоняют на реалистичных диалоговых контекстах ещё до релиза.
- Токены перестали быть мелким шрифтом в счёте. GitHub добавил AI credits в usage metrics API, а Vercel показал в AI Gateway production index, что дешёвые модели быстро забирают объём, но дорогие фронтирные модели всё ещё забирают деньги в самых ответственных задачах.
- ИИ-кодинг стал стратегическим активом. По сообщениям TechCrunch и AP, SpaceX договорилась купить Cursor за $60 млрд. Даже если держать в голове, что сделка ещё должна закрыться, сигнал понятный: coding agents уже воспринимают не как удобную IDE, а как инфраструктуру.
Anthropic и Fable 5: модель попала под экспортный контроль
История началась 12 июня, но именно на этой неделе она стала главным фоном рынка. Anthropic сообщила, что правительство США потребовало приостановить доступ к Fable 5 и Mythos 5 для любых иностранных граждан, включая иностранных сотрудников самой компании. В итоге Anthropic отключила модели для всех пользователей, чтобы не нарушить предписание.
Для разработчиков это неприятный, но полезный удар по самоуверенности. Мы привыкли думать о моделях как об обычных сервисах: лимиты, тарифы, перегрузки, запасной провайдер. Теперь сверху появился ещё один слой — юридическая и политическая доступность. Если продукт намертво завязан на одну модель, его может остановить не только outage, но и бумага, к которой у вас нет доступа.
В этой истории важен не только факт отключения. Важна причина: спор вокруг кибервозможностей модели. Anthropic раньше рассказывала о Project Glasswing, где модели класса Mythos помогают защитникам искать уязвимости в критическом софте. Но та же самая способность — читать код, находить слабые места и предлагать патчи — совсем иначе выглядит глазами регулятора. Для инженера это ассистент. Для государства это может быть инструмент двойного назначения.
Вывод простой: архитектура с одной незаменимой моделью стала слишком хрупкой. Нужны сменяемые провайдеры, режимы деградации, понятная карта зависимостей и ответ на скучный вопрос: что будет с продуктом, если нужную модель отключат сегодня ночью?
OpenAI: оценки, которые больше похожи на продакшен
Самая инженерно интересная публикация OpenAI за неделю — Predicting model behavior before release by simulating deployment. Суть простая: перед релизом новой модели берут реальные диалоговые префиксы, убирают ответ старой модели и просят модель-кандидат ответить вместо неё. Потом смотрят, какие нежелательные паттерны появились и насколько это похоже на то, что случится после выката.
Это не звучит как громкая новость, но на практике это очень важный сдвиг. Многие оценки моделей до сих пор живут в стерильной среде: синтетические промпты, заранее выбранные тяжёлые случаи, тесты на известные риски. Всё это нужно. Но у таких тестов есть проблема: они плохо показывают частоту ошибок в обычном трафике, а сильные модели всё чаще понимают, что их проверяют.
OpenAI пишет, что Deployment Simulation использовалась на примерно 1,3 млн деидентифицированных разговоров GPT-5-серии Thinking-моделей и отдельно тестировалась на 120 000 внутренних агентных coding-траекторий. Это уже ближе к тому, как модели реально живут: с контекстом, инструментами, историей, странными запросами и неидеальной средой.
Для ИИ-разработки здесь два вывода.
Первый: одной красивой цифры на бенчмарке всё меньше. Нужно понимать, как модель ведёт себя в вашем реальном контуре: с вашими задачами, вашими инструментами, вашей документацией и вашими странностями.
Второй: оценки становятся частью релиза, а не приложением к пресс-релизу. Хорошая команда будет не просто спрашивать «какая модель набрала больше баллов», а прогонять кандидата на прошлых PR, тикетах, инцидентах и пользовательских сценариях. И потом сверять прогноз с тем, что случилось в проде.
OpenAI в науке: агент уже не только пишет код
В тот же день OpenAI выпустила два научных сюжета: LifeSciBench и работу про почти автономного ИИ-химика.
LifeSciBench интересен не тем, что это «ещё один бенчмарк». Он построен вокруг настоящей работы в бионауке: разобрать неполные данные, спланировать эксперимент, оценить риски, сформулировать вывод так, чтобы он был полезен исследователю. В наборе 750 задач, 173 автора-учёных, 453 экспертных рецензента и подробные рубрики. Это попытка мерить не школьную биологию, а способность модели быть нормальным научным напарником в грязной реальности.
История с химиком ещё нагляднее. OpenAI подключила GPT-5.4 к Maria от Molecule.one — агентной системе, связанной с лабораторной автоматизацией, — и дала открытую цель: улучшить сложную реакцию в медицинской химии. Модель нашла неожиданную добавку, которая повысила выход реакции для большей части проверенных субстратов.
Почему это важно для разработчиков? Потому что это тот же контур, что и в coding agents: цель, инструменты, обратная связь и итерации. В софте обратная связь — это тесты, логи, линтеры, браузер, CI. В химии — лабораторные приборы. Если такой цикл начинает работать в лаборатории, в разработке он точно станет бытовым стандартом.
ARD: агентам выдали карту мира
Самый недооценённый релиз недели — Agentic Resource Discovery. Google описывает ARD как открытую спецификацию для публикации, поиска и проверки ИИ-возможностей: инструментов, навыков, MCP-серверов, агентов, API и рабочих процессов. Microsoft отдельно объясняет, почему это понадобилось: сегодня разработчик или ИИ-клиент часто сам ищет ресурс, сам решает, можно ли ему доверять, сам подключает и сам следит, чтобы всё не развалилось. Когда агентов и инструментов становится много, такой ручной режим быстро перестаёт работать.
GitHub сразу показал практическое применение: Agent finder for GitHub Copilot умеет искать подходящие ресурсы через реестр. Важная деталь: это не режим «подключим всё, что нашли». GitHub подчёркивает, что enterprise-настройки определяют, какие ресурсы вообще разрешены, а Agent Finder только помогает найти нужное внутри этих границ.
Почему это важно? Потому что контекстное окно не резиновое. Нельзя бесконечно скармливать агенту все инструменты, все схемы, все MCP-серверы и надеяться, что он станет умнее. Часто он просто станет дороже и шумнее. Хороший агентный стек должен работать иначе: найти одобренный инструмент, проверить, подходит ли он, и подключить ровно то, что нужно для текущей задачи.
ARD — не протокол ради протокола. Это попытка сделать для агентных возможностей то, что DNS, package registries и app stores сделали для других слоёв разработки: дать обнаружение, доверие и управляемость.
GitHub Copilot: меньше магии, больше бухгалтерии
GitHub на этой неделе выкатил несколько небольших, но очень показательных изменений.
В посте Getting more from each token команда Copilot описала две вещи, которые быстро станут нормой для всех coding agents: кэширование промптов и ленивую загрузку инструментов. Если агент работает долго, нет смысла на каждом шаге заново отправлять модели один и тот же контекст, историю и все схемы инструментов. Нужно держать широкий набор возможностей, но подгружать в контекст только то, что пригодится прямо сейчас.
Ещё одна важная деталь — Copilot code review теперь читает AGENTS.md. Для меня это почти символ недели. Файлы инструкций для агентов перестали быть локальной привычкой отдельных инструментов. Они становятся частью платформы: репозиторий сам объясняет агенту, как его ревьюить.
Параллельно GitHub расширил доступность MAI-Code-1-Flash — маленькой модели Microsoft для кодинга — и добавил ai_credits_used в API метрик Copilot. Это уже не романтика «ИИ пишет код». Это эксплуатация: кто сколько тратит, где расход, какие команды получают пользу, где бюджет сгорает без видимого результата.
Хорошая новость: платформа становится управляемее. Плохая: разработчикам и тимлидам придётся понимать не только качество ответа, но и экономику агентной сессии.
Vercel: продакшен-агенты как обычный веб-стек
Vercel на этой неделе очень прямо сформулировал свою ставку. В посте The Agent Stack компания описывает набор строительных блоков для production-grade agents: модели, маршрутизацию, память, инструменты, выполнение, наблюдаемость, оценки, UI и деплой. Отдельно вышел eve — open-source framework для запуска и масштабирования агентов с durable execution, песочницами, human-in-the-loop approvals, subagents и evals. Ещё один кусок — Vercel Connect, который даёт агентам доступ к Slack, GitHub, Linear, Figma, Salesforce и другим системам без долгоживущих секретов в runtime.
Это важный поворот для веб-разработки. Агент перестаёт быть «чатиком сбоку». Он становится бэкенд-процессом, которому нужны те же вещи, что и любой серьёзной системе: секреты, права, изоляция, очереди, логи, наблюдаемость, повторные попытки, бюджеты и UI для состояния.
А AI Gateway production index добавил к этому экономику. По данным Vercel за май, DeepSeek резко вырос до 17% токенов в AI Gateway, но остался около 1% расходов; Anthropic при этом удерживал большую часть расходов в ответственных сценариях вроде coding agents. Это не «вся индустрия в одной картинке», а срез клиентов Vercel, но тренд полезный: дешёвые модели забирают массовые токены, фронтирные модели остаются там, где ошибка дороже счёта за инференс.
Практический вывод: один endpoint на «самую умную модель» — слабая архитектура. Нужна маршрутизация. Простую классификацию, дешёвые правки и черновики можно отдавать более дешёвым моделям. Сложные многофайловые изменения, безопасность, архитектуру и финальное ревью — дорогим. И всё это нужно измерять, иначе счёт придёт раньше понимания.
Cursor и SpaceX: coding agents стали стратегическим активом
Самая шумная бизнес-новость недели — сообщения о сделке SpaceX и Cursor. TechCrunch пишет о $60 млрд в акциях, AP тоже сообщает о покупке AI coding startup Cursor. На момент публикации я бы относился к этому осторожно: это крупная медийная история, а не продуктовая заметка самого Cursor. Но игнорировать её нельзя.
Если сделка пройдёт в заявленном виде, это будет редкий случай, когда инструмент для программистов покупают как инфраструктурный слой для будущей ИИ-компании. Смысл не только в редакторе. Cursor — это доступ к разработчикам, агентный интерфейс, данные о реальных coding workflows, облачные агенты, собственные модели и место, где быстро видно, помогает ли новая модель на самом деле писать софт.
При этом сам Cursor тоже движется в сторону автономности: в changelog на сайте видны июньские обновления про Automations, Cloud Environment Setup и Cloud Subagents. Это тот же общий тренд недели: кодинг уходит от «помоги мне в этом файле» к «вот задача, окружение, проверка, PR и повторяемый процесс».
Что это меняет для разработчика
Эта неделя дала довольно практичный список решений, которые пора принимать не когда-нибудь, а сейчас.
Первое: проектируйте заменяемость модели. Провайдеры, цены, доступность и правила меняются слишком быстро. Абстракция над моделью, запасной маршрут и ручка деградации — уже не архитектурная роскошь.
Второе: относитесь к контексту как к бюджету. Чем больше агентных инструментов, тем дороже лишние схемы, инструкции и история. Tool search, ленивое подключение ресурсов, короткие AGENTS.md и нормальная документация экономят не только токены, но и качество.
Третье: оценки должны быть похожи на ваши реальные задачи. Мало знать, что модель хорошо прошла общий benchmark. Нужно прогонять её на ваших прошлых PR, тикетах, инцидентах, пользовательских диалогах и краевых случаях.
Четвёртое: стоимость станет частью code review. Если агент сделал PR за $40 токенов и 40 минут ожидания, это может быть нормально для сложной миграции и странно для мелкой правки. Команды начнут смотреть не только на код, но и на путь, которым этот код появился.
Пятое: инструкции для агентов станут частью репозитория. AGENTS.md, правила ревью, карты окружений, списки разрешённых инструментов — это не мусорные файлы для одного ассистента. Это новый слой инженерной документации.
Главный вывод недели
ИИ-разработка взрослеет не тогда, когда модель пишет больше кода. Она взрослеет, когда вокруг модели появляется нормальная инженерная система: поиск инструментов, права доступа, оценки, бюджеты, маршрутизация, запасные сценарии, наблюдаемость и юридическая устойчивость.
Почти каждая крупная новость недели была именно об этом. Anthropic показала риск зависимости от одной модели. OpenAI показала, как оценивать поведение до релиза. Google, Microsoft и GitHub показали слой обнаружения для агентов. GitHub и Vercel показали, как считать токены и строить продакшен-контур. Cursor показал, что рынок coding agents уже слишком важен, чтобы оставаться игрушкой для энтузиастов.
Следующая гонка будет не только за лучшую модель. Она будет за лучший контур вокруг модели.
Источники: Anthropic о Fable 5 и Mythos 5 · Anthropic Project Glasswing · OpenAI Deployment Simulation · OpenAI LifeSciBench · OpenAI AI chemist · Google ARD · Microsoft ARD · GitHub Agent Finder · GitHub Copilot context and routing · GitHub AGENTS.md support · GitHub AI credits metrics · Vercel Agent Stack · Vercel eve · Vercel AI Gateway index · TechCrunch о SpaceX и Cursor · AP о SpaceX и Cursor · Cursor changelog