Google представив VaultGemma — першу LLM, що зберігає приватність даних
- Google Research представила VaultGemma — свою першу LLM, що використовує диференційну приватність.
- Ця технологія додає “шум” до процесу навчання моделі, щоб зменшити ймовірність “запам’ятовування” конфіденційних даних.
- Дослідження Google показало, що продуктивність моделі залежить від співвідношення між “шумом” та даними.
- VaultGemma базується на моделі Gemma 2 та має 1 мільярд параметрів, але не поступається в продуктивності моделям без функцій приватності.
- Модель доступна для завантаження на платформах Hugging Face і Kaggle.
Команда Google Research представила VaultGemma — нову відкриту модель, яка використовує технологію диференційної приватності. Це рішення має зменшити ймовірність того, що великі мовні моделі (LLM) “запам’ятовуватимуть” конфіденційні дані з навчальних наборів, що є важливим кроком у забезпеченні приватності.
Проблема полягає в тому, що під час навчання ШІ може “запам’ятати” особисту інформацію або дані, захищені авторським правом. Їхня поява у відповідях моделі може порушувати приватність. Технологія диференційної приватності вирішує це, додаючи “шум” до процесу навчання. Це, своєю чергою, знижує ризик відтворення конфіденційних даних, пише Ars Technica.

Google Research провела дослідження, щоб визначити, як диференційна приватність впливає на продуктивність ШІ-моделей. Виявилося, що продуктивність моделі залежить від співвідношення між кількістю доданого “шуму” та обсягом навчальних даних. Чим більше “шуму”, тим гірша якість результатів, якщо не збільшити обчислювальні ресурси або дані.
VaultGemma — це модель з 1 мільярдом параметрів, що базується на Gemma 2. Вона була навчена з урахуванням результатів дослідження, щоб досягти оптимального балансу між приватністю та продуктивністю. За словами Google Research, VaultGemma не поступається за ефективністю моделям того ж розміру, що не мають функцій приватності.
Команда Google Research сподівається, що їхня робота допоможе іншим розробникам створювати приватні ШІ-моделі. На їхню думку, це особливо ефективно для менших LLM, що використовуються для конкретних завдань. VaultGemma доступна для завантаження на платформах Hugging Face і Kaggle. Хоча модель має відкриту вагу, вона не є відкритим вихідним кодом. Google дозволяє її модифікувати та розповсюджувати, але з дотриманням умов ліцензії.
