Отчет: ИИ-модели Meta и OpenAI подвержены сбоям при попытках «забыть» данные

Bitget App

Торгуйте разумнее

Incrypted2024/07/30 12:35

Автор:Pavel Kot

Исследователи нескольких университетов США изучили так называемые методы «отучивания» ИИ-моделей.
Это процесс, в ходе которого искусственный интеллект заставляют удалить некоторые данные, используемые им для обучения.
При использовании такого подхода эффективность больших языковых моделей может снизиться вплоть до полной неработоспособности.

Группа американских ученых опубликовала результаты исследования, связанные с эффективностью работы больших языковых моделей (LLM). Специалисты пришли к выводу, что так называемые методы «забывания» данных оказывают негативное влияние на возможности ИИ-технологии.

Процесс «отучивания» (unlearning) LLM — это техническая операция, которая позволяет избежать обращения ИИ-моделей к нежелательным данным, говорится в исследовании. При таком подходе специалисты пытаются повлиять на работу искусственного интеллекта так, чтобы он не выводил определенную информацию и не сохранял ее.

В ходе анализа этого метода ученые разработали эталон и выбрали восемь различных открытых алгоритмов для тестирования. Проект получил название MUSE (Machine Unlearning Six-way Evaluation).

Его основная цель заключалась в том, чтобы проверить возможность ИИ-моделей исключить вывод конкретной информации, используемой ими для обучения. Вдобавок LLM в рамках эксперимента должен был полностью удалить знания ИИ касательно этих данных, а также стереть любые доказательства, указывающие на их применение в ходе обучения.

В итоге ученые пришли к выводу, что подобные методы действительно позволяют добиться желаемого результата. Однако они оказывают сильное влияние на работоспособность LLM. Разработки на базе искусственного интеллекта испытывали трудности с предоставлением общих ответов на запросы и анализе информации после этого, подчеркнули исследователи.

По их мнению, современные ИИ-модели от компаний OpenAI и Meta особенно уязвимы для таких операций. Причиной тому является активное использование LLM такого типа информационной базы интернета и публичных данных.

«В настоящее время не существует эффективных методов, позволяющих модели забыть конкретные данные без существенной потери полезности», — заявил кандидат наук в области информатики из Университета Вашингтона Вейджиа Ши (Weijia Shi).

Исследователи отдельно подчеркивают, что падение эффективности в отдельных случаях достигает критического уровня. При определенных обстоятельствах ИИ-модели могут полностью выйти из строя, пришли к выводу эксперты.

Отметим, что OpenAI неоднократно сталкивался с судебными исками от различных компаний из-за использования сторонних данных. К примеру, в мае 2024 года восемь американских изданий подали в суд на стартап и корпорацию Microsoft за нарушение авторских прав. Дело касалось различных материалов для обучения чат-ботов ChatGPT и Copilot.

OpenAI, в свою очередь, обвиняла редакцию The New York Times во взломе их продукта и генерации фейковых доказательств для подачи иска.Напомним, мы писали, что компания Meta презентовала новую ИИ-модель для конкуренции с OpenAI и Google.

Дисклеймер: содержание этой статьи отражает исключительно мнение автора и не представляет платформу в каком-либо качестве. Данная статья не должна являться ориентиром при принятии инвестиционных решений.

PoolX: вносите активы и получайте новые токены.

APR до 12%. Аирдропы новых токенов.

Внести!