NVIDIA представила Cosmos 3 — відкриту омнімодель для фізичного ШІ, роботів і автономних систем

2 Червня, 2026 Vitaliy Kairov Nvidia, ШІ63 переглядів 2 хв. читання

⠀Поширити:

NVIDIA на GTC Taipei анонсувала Cosmos 3 як першу «повністю відкриту омнімодель» для фізичного штучного інтелекту.
Архітектура поєднує трансформер для міркування про фізичні взаємодії з трансформером для генерації відео, дій та іншого мультимодального контенту.
Cosmos 3 працює як візуально-мовна модель, світова модель для симуляції середовищ і прогнозування станів світу та як база для спеціалізованих моделей дій роботів і агентів.
Лінійка включає Cosmos 3 Super з максимальною деталізацією, компактнішу Cosmos 3 Nano та майбутню Cosmos 3 Edge для роботи в реальному часі на крайових пристроях.

NVIDIA на конференції GTC Taipei представила Cosmos 3 — світову модель, яку компанія називає першою «повністю відкритою омнімоделлю». Вона здатна до міркування на основі зору та підтримує мультимодальний вивід у форматі тексту, зображень, відео та навколишнього звуку. Модель розроблена для застосування у робототехніці, автономному транспорті та візуальних агентах, де важливо коректно розуміти фізичне оточення за обмеженої навчальної вибірки та фрагментованих симуляційних стеків.

Cosmos 3 NVIDIA описує як відкриту омнімодель, що «нативно розуміє та генерує текст, зображення, відео, навколишній звук і дії з високою фізичною точністю». Ключова особливість полягає в архітектурі: модель поєднує трансформер для міркування з трансформером для генерації, що дає змогу спершу інтерпретувати фізичні взаємодії, рух та просторово-часові зв’язки, а вже потім будувати на цій основі відео та траєкторії дій. Такий підхід дозволяє моделі спочатку «зрозуміти» структуру сцени, а потім генерувати контент, який спирається на цю інтерпретацію.

У загальному вигляді трансформер — це глибинна нейромережа, що відстежує зв’язки та контекст у послідовних даних, наприклад у тексті. Такі мережі можуть суттєво прискорювати генерацію вихідних даних завдяки паралельній обробці, коли послідовність аналізується цілком, а не поелементно.

За даними NVIDIA, Cosmos 3 можна використовувати в кількох ролях. Як візуально-мовну модель — для задач, де потрібно одночасно працювати з зображеннями, відео та текстом і виконувати логічне візуальне міркування. Як світову модель, що симулює фізичні середовища та прогнозує майбутні стани світу, що важливо для навчання та тестування роботів і автономних транспортних засобів. А також як основу для інших світових моделей, на базі яких можна будувати спеціалізовані рішення.

Лінійка Cosmos 3 включає кілька варіантів. Cosmos 3 Super пропонує результати найвищої деталізації й орієнтований на задачі, де важлива максимально точна генерація. Cosmos 3 Nano — компактніша модифікація, доступна вже зараз разом із Super. Версія Cosmos 3 Edge буде представлена пізніше й орієнтована на роботу в режимі реального часу на крайових пристроях, зокрема в роботах та інших системах, які повинні приймати рішення без підключення до потужних датацентрів.

⠀Поширити:

Vitaliy Kairov

Залишити відповідь Скасувати коментар