На этой неделе ИИ-разработка меньше всего напоминала витрину новых моделей. Главный вопрос был другой: как запустить агента в настоящей компании, не раздать ему все ключи, не сжечь бюджет, не утонуть в ложных находках и не остаться без нужной модели из-за правил, которые меняются снаружи.
Снаружи это всё ещё похоже на гонку: OpenAI показала GPT-5.6 Sol, Anthropic запустила Claude Tag в Slack, GitHub рассказал про агентную обвязку Copilot, Google продолжил двигать Jules и A2A, Vercel выпустил AI SDK 7, а OpenAI вместе с Broadcom показала собственный inference-чип Jalapeño. Но если убрать логотипы, неделя была не про «ещё умнее». Она была про «теперь этим надо нормально пользоваться каждый день».
Что было главным
- OpenAI показала GPT-5.6 Sol. Модель стала сильнее в кодинге, науке и кибербезопасности, но стартует через ограниченный preview для доверенных партнёров. После истории с Anthropic это уже отдельный сигнал: модель выпускают вместе с правилами доступа и безопасностным периметром.
- Daybreak и Patch the Planet. OpenAI расширила киберпрограмму: Codex Security, GPT-5.5-Cyber и помощь open-source мейнтейнерам не только в поиске уязвимостей, но и в доведении патчей до конца.
- Claude Tag пришёл в Slack. Anthropic двигает Claude из приватного чата в общий рабочий канал. Это уже не «спросил у ассистента», а «позвал участника команды».
- GitHub и Google говорят про оценки агентов. Copilot оценивают по всей обвязке: как агент выбирает инструменты, тратит токены и доходит до результата. Google через Jules говорит похожую вещь: мало проверить закрытую задачу, надо понять, умеет ли агент вообще выбрать правильный момент для вмешательства.
- Vercel AI SDK 7 добавляет производственные мелочи. Загрузка файлов и skills по ссылке вместо повторной отправки байтов, approval flow, durability, telemetry — не блестит на демо, зато решает боль многошаговых агентов.
- OpenAI и Broadcom показали Jalapeño. Инференс становится настолько важным, что OpenAI идёт глубже в железо: дешевле, быстрее, стабильнее.
GPT-5.6 Sol: модель с правилами доступа
OpenAI представила GPT-5.6 Sol 26 июня. Это флагман новой серии: Sol как самая сильная модель, Terra как сбалансированная и Luna как быстрая и более дешёвая. Из интересного для разработчиков: Sol показывает новый максимум на Terminal-Bench 2.1, OpenAI добавляет max reasoning effort и режим ultra, где сложная работа раскладывается на субагентов.
Если бы это произошло год назад, заголовок был бы простой: «новая лучшая модель для кода». Но сейчас важнее другое. GPT-5.6 выходит после нервной истории с Fable 5 и Mythos 5 у Anthropic, поэтому OpenAI сразу говорит о контролируемом preview, консультациях с правительством США, кибер-safeguards и поэтапном доступе.
Это не мелкая сноска внизу релиза. Для разработчика модель теперь приходит не одна. Вместе с ней приходят правила доступа, мониторинг, цена, кэширование, лимиты, разные режимы рассуждения и объяснение, почему одних пускают раньше, а других позже. Похоже, так теперь будут запускать модели, которые умеют не просто писать текст, а реально работать с кодом, уязвимостями и длинными задачами.
Поэтому выбирать модель только по benchmark всё опаснее. Надо смотреть на доступность, условия доступа, запасной маршрут, цену долгих задач и то, насколько провайдер готов заранее объяснять изменения. Самая сильная модель бесполезна, если продукт не может на неё рассчитывать.
Daybreak: от «нашли баг» к «довели патч»
22 июня OpenAI расширила Daybreak — кибернаправление вокруг Codex Security и GPT-5.5-Cyber. Параллельно вышла Patch the Planet — инициатива с Trail of Bits для open-source мейнтейнеров.
Самая здравая часть этой истории: фокус смещается с поиска уязвимостей на ремедиацию. Найти «подозрительное место» уже не так сложно. Сложно доказать, что это настоящая проблема, не завалить мейнтейнера мусором, предложить патч, написать тест и провести изменение через проект. Уязвимость без исправления — это не защита, а ещё один тикет в очереди.
OpenAI пишет, что обновлённый GPT-5.5-Cyber должен помогать проходить весь цикл: найти компонент, проверить достижимость, воспроизвести проблему в контролируемой среде, подготовить патч и собрать доказательства для человека. Звучит как мечта AppSec-команд, но тут же появляется неприятный вопрос: как отличить полезную защитную работу от того же набора действий в чужих руках?
Ответ пока не магический: проверенные участники, ограниченный доступ, логи, человеческое ревью, изолированные среды. То есть безопасность AI-инструмента всё больше похожа на безопасность обычного доступа к продакшену. Никакой романтики, просто права, аудит и ответственность.
Claude Tag: агент переехал из личного чата в общий канал
Anthropic 23 июня представила Claude Tag — Claude, которого можно позвать в Slack через @Claude. На слух это небольшая интеграция. На деле меняется место, где живёт агент.
Чат с моделью обычно приватный. Вы спросили, получили ответ, унесли его куда-то дальше. В Slack всё иначе: задача, контекст, уточнения и результат видны команде. Claude становится не личной шпаргалкой, а участником канала. Он может следить за обсуждением, помнить контекст выбранного пространства, разбирать задачи на шаги и возвращать результат туда, где его увидят остальные.
Самая громкая цифра из поста Anthropic: 65% кода продуктовой команды компании создаётся внутренней версией Claude Tag. К ней стоит относиться спокойно: это цифра от самой компании, которая продаёт инструмент. Но направление видно и без неё. AI coding перестаёт жить только в IDE. Он ползёт туда, где на самом деле рождается работа: в Slack-треды, тикеты, обсуждения, созвоны и короткие «а можешь быстро посмотреть?».
И здесь у компаний начнутся реальные вопросы. В какие каналы пускать агента? Что он может читать? Какие инструменты ему доступны? Кто платит за токены? Что он должен помнить, а что обязан забыть? Как доказать, что он не видел приватный контекст? Claude Tag интересен не как «ещё одна фича», а как ранний набросок корпоративного AI-режима.
OpenAI: Codex стал не инструментом разработчиков, а формой работы
OpenAI 25 июня опубликовала исследование How agents are transforming work. Там много внутренних цифр про Codex, но смысл простой: агентный инструмент перестал быть только инженерной игрушкой.
По данным OpenAI, к маю 2026 года 70,2% пользователей в выборке сделали хотя бы один Codex-запрос, который тянул больше чем на час человеческой работы, а 25,6% — запрос дольше восьми часов. Внутри OpenAI Codex стал основным AI-инструментом не только у инженеров: legal, finance и recruiting тоже используют его как рабочий интерфейс. У самых активных внутренних пользователей на 99-м перцентиле набиралось больше 60 часов агентных запусков в день — не одним процессом, а параллельной пачкой задач.
Это не значит, что юристы внезапно стали программистами. Скорее, граница «техническая задача / нетехническая задача» стала мягче. Если человеку из бизнеса нужно почистить данные, собрать небольшой внутренний инструмент, проверить гипотезу, автоматизировать рутину — он больше не обязательно ждёт инженера. Он может делегировать кусок агенту.
Для инженерных команд это двоякий сигнал. С одной стороны, часть мелких внутренних задач уйдёт из очереди. С другой — появится больше кода, скриптов, автоматизаций и «временных» инструментов, которые кто-то всё равно должен обслуживать. Демократизация разработки почти всегда приносит с собой демократизацию технического долга.
GitHub и Google: качество агента живёт не только в модели
GitHub 25 июня рассказал, как оценивает агентную обвязку Copilot. Хорошая формулировка там такая: Copilot должен уметь выбирать среди 20+ моделей, но качество и эффективность зависят от всей системы вокруг модели — как агент планирует, какие инструменты вызывает, сколько токенов тратит, как работает с окружением.
Это ровно то, что многие команды обнаруживают у себя. Можно заменить модель и получить небольшой прирост. А можно исправить загрузку инструментов, промпт-кэш, контекст, тестовый цикл и получить агент, который наконец перестаёт ходить кругами. В агентной разработке модель — только один слой. Часто не самый грязный.
Google 22 июня опубликовал Measuring What Matters with Jules и пример cross-language multi-agent pipeline с ADK и A2A. Там похожая мысль с другой стороны: агенту мало уметь закрыть чётко сформулированный issue. Proactive coding agent должен понять, что вообще важно, когда стоит вмешаться, какие сигналы собрать, когда промолчать и как передать работу другому агенту без каши в контексте.
Вот где сейчас начинается настоящая инженерия. Не «какая модель лучше на SWE-bench», а «какой контур даёт меньше мусорных PR, дешевле проходит длинные задачи и не требует от человека постоянного надзора».
Vercel AI SDK 7: скучные детали, без которых агенты не живут
Vercel 25 июня выпустил AI SDK 7. В прошлые годы такие релизы часто выглядели как набор удобных API для чата. Сейчас фокус другой: многошаговые агенты, ссылки на файлы и skills вместо повторной отправки байтов, подтверждения опасных действий, устойчивые workflow и телеметрия.
Это звучит буднично, но в продакшене именно такие вещи решают, будет агент полезен или просто дорог. Если агент на каждом шаге заново отправляет одни и те же файлы, skills и контекст, он не «умный», он расточительный. Если вызов инструмента нельзя остановить подтверждением, агент опасен. Если долгий workflow нельзя восстановить после сбоя, он годится только для демо. Если нет телеметрии, вы не знаете, почему счёт вырос и где агент ушёл в тупик.
Vercel хорошо попал в момент: рынок уже наигрался в «сделайте чат». Теперь всем нужны примитивы для того, чтобы агент мог жить долго, работать с файлами, ходить в инструменты, ждать разрешения, падать и подниматься обратно.
Jalapeño: инференс стал продуктовой стратегией
OpenAI и Broadcom 24 июня показали Jalapeño — первый OpenAI Intelligence Processor, заточенный под LLM inference. OpenAI говорит, что инженерные образцы уже гоняют ML workloads в лаборатории, а первая платформа рассчитана на развёртывание к концу 2026 года.
Почему это касается разработчиков, а не только датацентров? Потому что агентные продукты упираются не только в качество модели. Они упираются в задержку ответа, цену output-токенов, стабильность capacity и возможность держать длинные циклы рассуждения без безумного счёта. Чем больше задач уходит в фоновые агенты, тем важнее стоимость одного шага и скорость ответа.
У OpenAI здесь понятная логика: если ты контролируешь модель, продукт, serving stack и теперь часть железа, ты можешь оптимизировать всё под один тип нагрузки. Это ещё не значит, что Jalapeño завтра изменит API-цены. Но направление очевидно: фронтирные лаборатории больше не хотят быть просто клиентами чужого железа.
Что делать разработчикам
После этой недели у меня короткий список практических выводов.
Не выбирайте модель отдельно от режима доступа. Для сильных моделей важны не только качество и цена, но и правила preview, защитные ограничения, доступность по регионам, лимиты и вероятность внезапных изменений.
Стройте обвязку, а не просто обёртку над API. Агенту нужны инструменты, память, кэш, тесты, окружение, подтверждения опасных действий, телеметрия и понятный способ остановиться. Без этого даже сильная модель будет генерировать уверенный шум.
Считайте токены как инженерный ресурс. Не потом, когда придёт счёт, а во время проектирования. Долгие агентные запуски, повторная отправка файлов, лишние схемы инструментов и плохая загрузка контекста быстро превращаются в деньги.
Думайте о Slack, Linear и GitHub как о runtime. Всё больше задач будет начинаться не в IDE, а в рабочих каналах. Агентам придётся понимать разговор, но не читать лишнее; действовать, но не получать master key.
Оценивайте результат, а не театральность. Хороший агент не тот, который написал длинный план. Хороший агент тот, который сделал правильный PR, не сломал соседние части, объяснил риск и оставил понятный след.
Главный вывод недели
Агенты выходят из красивых демо в скучную взрослую жизнь. Там их спрашивают не «насколько ты умный», а «какие у тебя права, сколько ты стоишь, кто тебя проверил, что ты сделал, где логи, почему ты полез в этот файл и что случится, если модель завтра отключат».
Это хороший знак. Когда технология становится по-настоящему полезной, вокруг неё быстро появляются неприятные вопросы эксплуатации. На этой неделе таких вопросов стало больше, и это, пожалуй, главная новость.
Источники: OpenAI GPT-5.6 Sol · OpenAI Daybreak · OpenAI Patch the Planet · OpenAI agents and work · OpenAI and Broadcom Jalapeño · Anthropic Claude Tag · GitHub Copilot agentic harness · Google Jules evals · Google ADK and A2A multi-agent pipeline · Vercel AI SDK 7