TollBit — новий стартап, який хоче стати iTunes у сфері ліцензування контенту зі штучним інтелектом
28-річні засновники нью-йоркського стартапу TollBit, якому лише пів року, вважають, що ми живемо у «часи Napster» у сфері штучного інтелекту. Подібно до того, як люди певного покоління завантажували цифрову музику, компанії обкрадають величезні масиви інтернету, не сплачуючи правовласникам. Як повідомляє Engadget, вони хочуть, щоб TollBit став iTunes у світі ШІ.
Останні новини: Працівники DeepMind закликають Google відмовитися від військових контрактів
«Зараз це щось на кшталт Дикого Заходу», – сказала в інтерв’ю Engadget Олівія Джослін, співзасновниця і головна операційна директорка компанії, – «Ми хочемо зробити так, щоб це було простіше для користувачів. Ми хочемо полегшити компаніям, що займаються штучним інтелектом, оплату за необхідні їм дані».
Їхня ідея проста: створити маркетплейс, який з’єднає ШІ-компанії, що потребують доступу до свіжих, якісних даних, з видавцями, які витрачають гроші на їхнє створення.
ШІ-компанії, дійсно, лише нещодавно почали платити за (деякі) дані, які їм потрібні, від видавців новин. OpenAI розпочала гонку озброєнь наприкінці 2022 року, але лише рік тому компанія підписала першу зі своїх численних ліцензійних угод з Associated Press. Пізніше того ж року OpenAI оголосила про партнерство з німецьким видавництвом Axel Springer, яке управляє Business Insider і Politico в США. З того часу багато видавництв, включаючи Vox, Financial Times, News Corp і TIME, підписали угоди з OpenAI та Google.
Читайте також: OpenAI тепер буде використовувати контент Wired, Vogue і The New Yorker у відповідях ChatGPT
Але це все ще залишає незліченну кількість інших видавців і авторів на холоді – без можливості укласти цю фаустівську угоду, навіть якщо вони цього хочуть. Саме на цей «довгий хвіст» видавців і хоче націлитися TollBit.
«Потужні моделі штучного інтелекту вже існують, і вони вже навчені», – розповів Engadget Тошит Паніграхі, співзасновник і генеральний директор TollBit. «І зараз є тисячі додатків, які просто беруть ці існуючі моделі з полиць. Їм потрібен свіжий контент. Але зараз немає інфраструктури – ні для них, щоб купувати його, ні для контент-мейкерів, щоб продавати його безперешкодно».
І Джослін, і Паніграхі не були особливо обізнані з медіаіндустрією. Але вони обидва знали, як працюють онлайн-маркети та платформи – вони були колегами в Toast, платформі, яка дозволяє ресторанам керувати виставленням рахунків та бронюванням. Паніграхі спостерігав за угодами – і судовими позовами – у секторі штучного інтелекту, а потім зателефонував Джослін.
Їхні перші розмови стосувалися RAG, що розшифровується як Retrieval-Augmented Generation (Покоління розширеного пошуку) у світі ШІ. За допомогою RAG моделі ШІ спочатку шукають інформацію в певних базах даних (наприклад, у відкритих частинах Інтернету) і використовують цю інформацію для синтезу відповіді, а не просто покладаються на навчальні дані. Такі сервіси, як ChatGPT, не знають поточних цін на житло чи останніх новин. Замість цього вони отримують ці дані, як правило, переглядаючи вебсайти. Відсутність свіжих даних призводить до того, що чат-боти зі штучним інтелектом часто ставлять у глухий кут запити про останні новини – якщо вони не отримують найсвіжішу інформацію, вони просто не встигають за нею.
«Ми думали, що використання контенту для RAG – це щось кардинально інше, ніж використання його для навчання, – каже Паніграхі.

За деякими оцінками, RAG – це майбутнє пошукових систем. Все більше і більше людей ставлять запитання в інтернеті й очікують отримати на них вичерпні відповіді, а не список синіх посилань. Трохи більше ніж за рік такі стартапи, як Perplexity, за підтримки Джесса Безоса та NVIDIA, увірвалися на сцену з амбіціями поборотися з Google. Навіть OpenAI планує одного дня дозволити ChatGPT стати вашим пошуковиком. У відповідь Google почав діяти – тепер він відбирає релевантну інформацію з результатів пошуку і представляє її у вигляді зв’язної відповіді у верхній частині сторінки результатів – функція, яку компанія називає AI Overviews (Огляди ШІ). (Вона не завжди працює добре, але, схоже, залишиться надовго).
Поява пошукових систем на основі RAG змушує видавців тремтіти в чоботях. Зрештою, хто зароблятиме гроші, якщо ШІ читатиме інтернет за нас? Після того, як Google запустив AI Overviews на початку цього року, принаймні в одному звіті було підраховано, що видавці втратять понад 2 мільярди доларів доходу від реклами, оскільки менше людей матимуть причину відвідувати їхні вебсайти.
«ШІ-компанії також потребують постійного доступу до високоякісного контенту та даних», – каже Джослін, – «але якщо ви не розробите якусь економічну модель, ні в кого не буде стимулу створювати контент, і це буде кінець і для додатків зі штучним інтелектом».
Замість того, щоб урізати разові перевірки, модель TollBit спрямована на компенсацію видавцям на постійній основі. Гіпотетично, якщо чийсь контент був використаний у тисячі відповідей, згенерованих штучним інтелектом, він отримає оплату тисячу разів за ціною, яку він сам встановив і може змінювати на льоту.
Щоразу, коли ШІ-компанія отримує доступ до свіжих даних від видавця через TollBit, вона може заплатити невелику плату, встановлену видавцем, яка, на думку Паніграхі та Джослін, має бути приблизно еквівалентною тому, що видавцеві приніс би традиційний перегляд сторінки. Платформа також може заблокувати доступ до даних видавців компаніям, які не зареєструвалися.
Наразі засновники стверджують, що з моменту запуску TollBit у лютому до нього приєдналися сотня видавців і три компанії, що займаються розробкою штучного інтелекту, проводять пілотні проєкти. Вони відмовилися повідомити, з якими саме видавцями або ШІ-компаніями співпрацюють, посилаючись на положення про конфіденційність, але не заперечують, що розмовляли з OpenAI, Anthropic, Google і Meta. Наразі, за їхніми словами, жодні гроші не переходили з рук в руки між ШІ-компаніями та видавцями на їхній платформі.

Поки цього не станеться, їхня модель залишається гіпотетичною, хоча інвестори вже вклали в неї 7 мільйонів доларів. Серед інвесторів TollBit – Sunflower Capital, Lerer Hippeau, Operator Collective, AIX і Liquid 2 Ventures, і ще більше інвесторів зараз «стукають у їхні двері», стверджує Джослін. У квітні TollBit також найняв старшим радником Кемпбелла Брауна, колишнього телеведучого, який до цього більшу частину десятиліття очолював відділ новинних партнерств компанії Meta.
Попри кілька гучних судових процесів, компанії, що займаються розробкою штучного інтелекту, все ще продовжують безплатно шкрябати інтернет і здебільшого їм це сходить з рук. Звідки у них стимул платити видавцям за ці дані?
На думку засновників, є три основні причини: все більше вебсайтів вживають заходів, щоб запобігти вилученню їхнього контенту відтоді, як генеративний ШІ став мейнстрімом, а це означає, що вилучати дані з Інтернету стає все важче і дорожче; ніхто не хоче мати справу з позовами про порушення авторських прав; і, що особливо важливо, можливість легко платити за контент при потребі дозволяє компаніям, що займаються ШІ, працювати з меншими та більш нішевими виданнями, оскільки неможливо укласти індивідуальні ліцензійні угоди з кожним окремим вебсайтом. Джослін також зазначила, що багато інвесторів TollBit також інвестували в ШІ-компанії, які, на їхню думку, можуть зіткнутися з судовими позовами за використання контенту без дозволу.
Змусити ШІ-компанії платити за контент може забезпечити постійний потік доходів не тільки для великих видавців, але й для всіх, хто публікує що-небудь в Інтернеті. Минулого місяця компанія Perplexity, яку звинуватили в незаконному вилученні контенту з Forbes, Wired і Condé Nast, запустила програму для видавців, в рамках якої вона планує ділитися з видавцями частиною свого доходу, якщо використовуватиме їхній контент для генерації відповідей за допомогою ШІ. Успіх програми, однак, залежить від того, скільки грошей Perplexity заробить, коли запровадить рекламу в додатку пізніше цього року. Як і Tollbit, це ще одна повністю гіпотетична програма.
«Наша теза з TollBit полягає в тому, що якщо ви втрачаєте перегляд сторінки сьогодні, ви повинні отримати компенсацію за нього негайно, а не через кілька років після того, як технологічна компанія розбереться зі своєю рекламною програмою», – говорить Паніграхі про ініціативу Perplexity.
Попри всі існуючі ліцензійні угоди та технічний прогрес, чат-боти зі штучним інтелектом все ще залишаються жахливими джерелами новин. Вони все ще вигадують факти та впевнено створюють цілі посилання на історії, яких насправді не існує. Але технологічні компанії зараз запихають чат-ботів зі штучним інтелектом у кожну щілину, а це означає, що в недалекому майбутньому багато людей все одно отримуватимуть новини від одного з цих продуктів.
Більш цинічний погляд на передумови TollBit полягає в тому, що стартап фактично пропонує гроші за мовчання видавцям, чия робота, швидше за все, буде перетворена на дезінформацію. Його засновники, звісно, не згодні з такою характеристикою.
«Ми обережно ставимося до наших партнерів у сфері штучного інтелекту», – каже Паніграхі. «Ці компанії дуже уважно ставляться до якості вхідних матеріалів і коректності відповідей. Ми бачимо, що оплата контенту – навіть номінальна – створює стимул поважати вихідні дані для їхніх систем, а не ставитися до них як до безплатного, замінного товару».