OpenAI шукає нові шляхи подолання обмежень у тренуванні ШІ-моделей

12 Листопада, 2024 Vitaliy Kairov ChatGPT, OpenAI, ШІ261 переглядів 2 хв. читання

OpenAI та інші компанії зі сфери штучного інтелекту стикаються з новими викликами на шляху розвитку великих мовних моделей. Головні проблеми — брак потужностей для тренування, енергозатрати та обмежений доступ до необхідних даних. Однак замість традиційного нарощування обчислювальних ресурсів, дослідники шукають більш людяні та ефективні підходи для “мислення” алгоритмів, повідомляє Reuters.

Інсайдери розповідають, що ці нові методи, на основі яких працює нещодавно випущена модель OpenAI під назвою o1, можуть значно вплинути на перегони у сфері ШІ. Використовуючи підхід, де моделі проводять обчислення під час етапу “виконання” (тобто вже після навчання), дослідники сподіваються досягти більшої ефективності без додаткових витрат на обчислення. Цей підхід вже залучив інтерес відомих інвесторів, таких як Sequoia та Andreessen Horowitz, які активно вкладають у розвиток передових рішень у сфері ШІ.

До недавнього часу переважала філософія “більше — значить краще”, що передбачала додавання великих обсягів даних і збільшення потужностей для підвищення якості ШІ-моделей. Однак Ілля Суцкевер, співзасновник OpenAI та лабораторії Safe Superintelligence, відзначив, що результати масштабування стали досягати свого максимуму. Суцкевер, відомий своїм внеском у створення ChatGPT, підкреслив, що масштабування потребує більш виваженого підходу.

Наразі його команда зосереджена на альтернативному способі масштабування, але Суцкевер залишив подробиці конфіденційними. Тим часом інші великі лабораторії, такі як Google DeepMind та xAI, також розглядають нові методи покращення продуктивності своїх моделей без звичних масштабних тренувань.

Щоб подолати технологічні виклики, дослідники вводять концепцію “тестового обчислення”, де модель виконує кілька варіантів обчислень, аналізує їх результати в реальному часі та обирає найкращий варіант відповіді. Наприклад, дослідник OpenAI Ноам Браун зазначив, що навіть 20 секунд “роздумів” в певних завданнях дають такий же ефект, як і масштабування на рівні тисячі разів більших моделей.

Новий підхід вже реалізовано в моделі o1, яка, як зазначають розробники, “мислить” багатокроково, обираючи оптимальні рішення для складних завдань, таких як математика та програмування. Використання такого алгоритму може значно змінити попит на апаратне забезпечення для моделей ШІ, зокрема, знизити потребу у високопродуктивних чипах від Nvidia, що домінують на ринку.

У перспективі такі зміни можуть створити конкуренцію на ринку обладнання для ШІ, що зараз стрімко зростає. Генеральний директор Nvidia Дженсен Хуанг нещодавно заявив, що компанія зосередиться на розширенні ринку чипів для виконання моделей ШІ, оскільки ці технології стають все більш необхідними для індустрії.

Vitaliy Kairov

Залишити відповідь Скасувати коментар