The Atlantic сделал публично доступным поиск по музыкальным датасетам, которые используются или могли использоваться для обучения AI-моделей. Как пишет The Verge, журналист Alex Reisner обнаружил четыре набора данных с музыкой и превратил их в базу, где можно проверить конкретные имена исполнителей и произведения. Два датасета особенно велики: один содержит около 12 млн треков, другой — около 9 млн. Ещё два меньше, но всё равно насчитывают более 100 тыс. песен каждый.

Главная проблема не в том, что файлы технически доступны в интернете. По словам Reisner, наборы скачивали тысячи раз, а точный круг пользователей установить невозможно. При этом Google и Stability подтверждали использование некоторых таких датасетов в исследовательских работах. The Verge подчёркивает, что часть источников, например Free Music Archive, разрешает бесплатное прослушивание для личного использования, но требует лицензии для коммерческих сценариев.

В базе встречаются имена крупных артистов и групп: Lady Gaga, Fred Again.., Radiohead, Aphex Twin, Wu-Tang Clan, Bruce Springsteen, а также экспериментальный музыкант Hainbach. Это делает историю особенно чувствительной для музыкальной индустрии: речь идёт не о гипотетической возможности, а о конкретных каталогах, которые можно найти в наборах, связанных с обучением генеративной музыки.

Технически обучение на таких данных не сводится к простому скачиванию архива и запуску модели: нужны очистка, разметка, вычислительные ресурсы и пайплайн подготовки. Но юридический и этический вопрос остаётся прежним. Если датасет доступен исследователям, он может попасть в коммерческий контур, а исполнители и правообладатели не всегда понимают, где именно использовалась их музыка и как доказать связь с результатом модели.

Публичный поиск меняет баланс сил. Музыканты получают инструмент первичной проверки, журналисты — способ задавать компаниям конкретные вопросы, а AI-разработчики — дополнительный риск репутационных и правовых претензий. Для рынка генеративной музыки это означает, что спор о «публично доступных данных» будет всё чаще переходить от общих заявлений к проверяемым спискам произведений, лицензий и следов использования.

Источник: The Verge, 20 июня 2026