Від великих мовних моделей до галюцинацій: простий гайд найважливішими термінами штучного інтелекту

5 Червня, 2025 Vitaliy Kairov ШІ186 переглядів 11 хв. читання

⠀Поширити:

Штучний інтелект має власну складну термінологію — від великих мовних моделей (LLM) до галюцинацій, коли ШІ вигадує неправдиву інформацію. Ключові поняття включають AGI (штучний загальний інтелект), ШІ-агентів для автономних завдань, глибоке навчання з нейронними мережами, дифузійні моделі для генерації контенту та ваги, що визначають важливість різних даних під час навчання. Розуміння цих термінів допомагає краще зрозуміти, як працює сучасний ШІ та куди рухається індустрія.

Штучний інтелект — це складний і заплутаний світ, де науковці часто послуговуються жаргоном та специфічною лексикою для пояснення своїх розробок. Журналістам доводиться використовувати ці технічні терміни у висвітленні індустрії ШІ, тому варто розібратися, що вони насправді означають.

Експерти постійно відкривають нові методи розвитку штучного інтелекту та виявляють нові ризики безпеки, тому цей словник термінів буде регулярно поповнюватися новими визначеннями.

Штучний загальний інтелект (AGI)

Штучний загальний інтелект — це розпливчастий термін, який зазвичай описує ШІ, здатний перевершувати пересічну людину у багатьох, якщо не у більшості завдань. Генеральний директор OpenAI Сем Альтман нещодавно охарактеризував AGI як “еквівалент пересічної людини, яку можна було б найняти як колегу”. Тим часом статут OpenAI визначає AGI як “високоавтономні системи, що перевершують людей у найбільш економічно цінній роботі”. У Google DeepMind трохи інше розуміння — там AGI розглядають як “ШІ, що принаймні настільки ж здатний, як люди, у більшості когнітивних завдань”. Заплутались? Не переживайте — експерти на передовій ШІ-досліджень теж.

ШІ-агент (AI agent)

ШІ-агент — це інструмент, що використовує технології штучного інтелекту для виконання низки завдань від вашого імені. Це набагато більше, ніж може зробити звичайний чат-бот — агент здатний подавати звіти про витрати, бронювати квитки чи столик у ресторані, навіть писати та підтримувати код. Правда, у цій галузі ще багато нез’ясованого, тому “ШІ-агент” може означати різні речі для різних людей. Інфраструктура для реалізації всіх задуманих можливостей досі розбудовується. Базова концепція передбачає автономну систему, яка може використовувати кілька ШІ-систем для багатоетапних завдань.

Ланцюг міркувань (Chain of thought)

Людський мозок може відповісти на просте запитання, майже не замислюючись — наприклад, “хто вищий, жираф чи кіт?”. Але часто потрібні папір та олівець, щоб дійти правильної відповіді через проміжні кроки. Скажімо, якщо у фермера є кури та корови, разом у них 40 голів та 120 ніг, можливо доведеться скласти просте рівняння, щоб отримати відповідь (20 курей та 20 корів).

У контексті ШІ ланцюг міркувань для великих мовних моделей означає розбиття проблеми на менші проміжні кроки для покращення якості кінцевого результату. Зазвичай це займає більше часу, але відповідь частіше буває правильною, особливо у логічних задачах чи програмуванні. Моделі міркування розробляються на основі традиційних великих мовних моделей та оптимізуються для такого мислення завдяки навчанню з підкріпленням.

Глибоке навчання (Deep learning)

Це підмножина самовдосконалюваного машинного навчання, де ШІ-алгоритми створюються з багатошаровою структурою штучної нейронної мережі. Це дозволяє їм встановлювати складніші кореляції порівняно з простішими системами машинного навчання, такими як лінійні моделі чи дерева рішень. Структура алгоритмів глибокого навчання черпає натхнення з взаємопов’язаних шляхів нейронів людського мозку.

Моделі ШІ глибокого навчання здатні самостійно виявляти важливі характеристики даних, не потребуючи від інженерів визначення цих особливостей. Структура також підтримує алгоритми, які можуть вчитися на помилках і через процес повторення та коригування покращувати власні результати. Однак системи глибокого навчання потребують величезної кількості даних для хороших результатів (мільйони чи більше) і зазвичай тренуються довше за простіші алгоритми машинного навчання, тому витрати на розробку вищі.

Дифузія (Diffusion)

Дифузія — це технологія в основі багатьох ШІ-моделей, що генерують мистецтво, музику та тексти. Натхненні фізикою, дифузійні системи повільно “руйнують” структуру даних — наприклад, фотографій, пісень тощо — додаючи шум, поки нічого не залишається. У фізиці дифузія спонтанна та незворотна — цукор, розчинений у каві, не можна повернути у форму кубика. Але дифузійні системи у ШІ намагаються навчитися свого роду “зворотному дифузійному” процесу для відновлення зруйнованих даних, набуваючи здатності відновлювати дані з шуму.

Дистиляція (Distillation)

Дистиляція — це техніка витягання знань з великої ШІ-моделі за допомогою моделі “вчитель-учень”. Розробники надсилають запити до моделі-вчителя та записують результати. Відповіді іноді порівнюються з набором даних для перевірки точності. Ці результати потім використовуються для тренування моделі-учня, яка навчається наслідувати поведінку вчителя.

Дистиляція може використовуватися для створення меншої, ефективнішої моделі на основі більшої моделі з мінімальними втратами. Ймовірно, саме так OpenAI розробила GPT-4 Turbo — швидшу версію GPT-4.

Хоча всі ШІ-компанії використовують дистиляцію внутрішньо, деякі могли використовувати її для наздоганяння передових моделей. Дистиляція від конкурента зазвичай порушує умови використання ШІ API та чат-асистентів.

Тонке налаштування (Fine-tuning)

Це подальше тренування ШІ-моделі для оптимізації продуктивності для специфічнішого завдання чи галузі, ніж було раніше у фокусі її навчання — зазвичай шляхом подачі нових спеціалізованих даних, орієнтованих на завдання.

Багато ШІ-стартапів беруть великі мовні моделі як відправну точку для створення комерційного продукту, але намагаються підвищити корисність для цільового сектора чи завдання, доповнюючи ранні цикли навчання тонким налаштуванням на основі власних доменних знань та експертизи.

Генеративно-змагальна мережа (GAN)

GAN — це тип фреймворку машинного навчання, що лежить в основі важливих розробок у генеративному ШІ для створення реалістичних даних, включно з інструментами дипфейків. GAN використовують пару нейронних мереж, одна з яких черпає з навчальних даних для генерації результату, що передається другій моделі для оцінки. Ця друга модель-дискримінатор виконує роль класифікатора результатів генератора, дозволяючи йому покращуватися з часом.

Структура GAN налаштована як змагання — дві моделі по суті запрограмовані намагатися перевершити одна одну: генератор намагається провести свій результат повз дискримінатор, тоді як дискримінатор працює над виявленням штучно згенерованих даних. Це структуроване змагання може оптимізувати ШІ-результати, роблячи їх реалістичнішими без потреби у додатковому людському втручанні. Хоча GAN працюють найкраще для вужчих застосувань (наприклад, створення реалістичних фото чи відео), а не для універсального ШІ.

Галюцинації (Hallucination)

Галюцинація — це улюблений термін ШІ-індустрії для позначення того, як ШІ-моделі вигадують речі, буквально генеруючи неправильну інформацію. Очевидно, це величезна проблема для якості ШІ.

Галюцинації створюють генеративні ШІ-результати, які можуть вводити в оману і навіть призводити до реальних ризиків з потенційно небезпечними наслідками. Уявіть медичний запит, що повертає шкідливі медичні поради. Ось чому дрібний шрифт більшості генеративних ШІ-інструментів тепер попереджає користувачів перевіряти відповіді, згенеровані ШІ, хоча такі застереження зазвичай набагато менш помітні за інформацію, яку інструменти видають натисканням кнопки.

Проблема фабрикування інформації ШІ виникає внаслідок прогалин у навчальних даних. Для універсального генеративного ШІ, також відомого як базові моделі, це виглядає складно вирішуваним. Просто не існує достатньо даних для навчання ШІ-моделей вичерпно відповідати на всі можливі запитання. Коротко: ми ще не винайшли Бога.

Галюцинації сприяють поштовху до дедалі спеціалізованіших та/або вертикальних ШІ-моделей — тобто доменоспецифічних ШІ, що потребують вужчої експертизи — як спосіб зменшити ймовірність прогалин знань та скоротити ризики дезінформації.

Інференція (Inference)

Інференція — це процес роботи ШІ-моделі. Це “спускання модель з ланцюга” для прогнозів чи висновків з раніше бачених даних. Зрозуміло, інференція неможлива без навчання — модель спершу має вивчити закономірності в наборі даних, перш ніж ефективно екстраполювати з цих навчальних даних.

Багато типів обладнання можуть виконувати інференцію — від процесорів смартфонів до потужних GPU та спеціально розроблених ШІ-прискорювачів. Але не всі з них можуть однаково добре запускати моделі. Дуже великі моделі займуть вічність для прогнозів на, скажімо, ноутбуці порівняно з хмарним сервером з високоякісними ШІ-чипами.

Велика мовна модель (Large language model, LLM)

Великі мовні моделі, або LLM, — це ШІ-моделі, що використовуються популярними ШІ-асистентами, такими як ChatGPT, Claude, Google Gemini, Meta AI Llama, Microsoft Copilot чи Mistral Le Chat. Коли ви спілкуєтеся зі ШІ-асистентом, ви взаємодієте з великою мовною моделлю, яка обробляє ваш запит безпосередньо чи за допомогою різних доступних інструментів, таких як веб-перегляд чи інтерпретатори коду.

ШІ-асистенти та LLM можуть мати різні назви. Наприклад, GPT — це велика мовна модель OpenAI, а ChatGPT — продукт ШІ-асистента.

LLM — це глибокі нейронні мережі з мільярдів числових параметрів (або ваг), які вивчають взаємозв’язки між словами та фразами і створюють репрезентацію мови — своєрідну багатовимірну карту слів.

Ці моделі створюються з кодування закономірностей, які вони знаходять у мільярдах книг, статей та транскриптів. Коли ви звертаєтеся до LLM з запитом, модель генерує найімовірніший шаблон, що відповідає запиту. Потім вона оцінює найімовірніше наступне слово після останнього на основі сказаного раніше. І так далі, далі, далі.

Нейронна мережа (Neural network)

Нейронна мережа означає багатошарову алгоритмічну структуру, що лежить в основі глибокого навчання і, ширше, всього буму генеративних ШІ-інструментів після появи великих мовних моделей.

Хоча ідея черпання натхнення з густо взаємопов’язаних шляхів людського мозку як структури дизайну для алгоритмів обробки даних сягає ще 1940-х років, саме набагато пізніший підйом графічного процесорного обладнання (GPU) через індустрію відеоігор справді розкрив потужність цієї теорії. Ці чипи виявились добре придатними для навчання алгоритмів з набагато більшою кількістю шарів, ніж було можливо в попередні епохи, дозволяючи ШІ-системам на основі нейронних мереж досягати набагато кращої продуктивності в багатьох доменах, включно з розпізнаванням голосу, автономною навігацією та відкриттям ліків.

Навчання (Training)

Розробка машинного навчання ШІ включає процес, відомий як навчання. Простими словами, це означає подачу даних, щоб модель могла вчитися з закономірностей та генерувати корисні результати.

Тут речі стають трохи філософськими у ШІ-стеку — адже до навчання математична структура, що використовується як відправна точка для розробки системи навчання, — це просто купа шарів та випадкових чисел. Лише через навчання ШІ-модель справді набуває форми. По суті, це процес реагування системи на характеристики даних, що дозволяє їй адаптувати результати до бажаної мети — чи то розпізнавання зображень котів, чи створення хайку на вимогу.

Важливо зазначити, що не всі ШІ потребують навчання. ШІ на основі правил, запрограмовані слідувати вручну визначеним інструкціям — наприклад, лінійні чат-боти — не потребують навчання. Однак такі ШІ-системи, ймовірно, будуть обмеженішими за (добре навчені) самонавчальні системи.

Навчання може бути дорогим, бо потребує багато входів — і зазвичай обсяги входів, необхідних для таких моделей, зростають.

Гібридні підходи іноді можуть використовуватися для скорочення розробки моделі та керування витратами. Наприклад, тонке налаштування ШІ на основі правил за допомогою даних означає, що розробка потребує менше даних, обчислень, енергії та алгоритмічної складності, ніж якби розробник почав будувати з нуля.

Трансферне навчання (Transfer learning)

Техніка, де раніше навчена ШІ-модель використовується як відправна точка для розробки нової моделі для іншого, але зазвичай споріднененого завдання, дозволяючи повторно застосувати знання, набуті в попередніх циклах навчання.

Трансферне навчання може забезпечити економію ефективності, скорочуючи розробку моделі. Воно також може бути корисним, коли дані для завдання, для якого розробляється модель, дещо обмежені. Але важливо зазначити, що підхід має обмеження. Моделі, що покладаються на трансферне навчання для набуття узагальнених здібностей, ймовірно, потребуватимуть навчання на додаткових даних для хорошої роботи у своєму фокусному домені.

Ваги (Weights)

Ваги є центральними для навчання ШІ, оскільки вони визначають, скільки важливості (або ваги) надається різним особливостям (або вхідним змінним) у даних, використаних для навчання системи, таким чином формуючи результат ШІ-моделі.

Іншими словами, ваги — це числові параметри, що визначають, що найважливіше в наборі даних для даного навчального завдання. Вони виконують свою функцію, застосовуючи множення до входів. Навчання моделі зазвичай починається з випадково призначених ваг, але в процесі ваги корегуються, коли модель намагається досягти результату, що ближче відповідає цілі.

Наприклад, ШІ-модель для прогнозування цін на житло, навчена на історичних даних нерухомості для цільової локації, може включати ваги для таких особливостей, як кількість спалень та ванних кімнат, чи є будинок окремо стоячим чи таунхаусом, чи є парковка, гараж тощо.

Зрештою, ваги, які модель приписує кожному з цих входів, відображають, наскільки вони впливають на вартість нерухомості на основі даного набору даних.

🔗Джерело: TechCrunch