Une base de données musicale massive utilisée pour entraîner l'IA rendue publique
- 01Le *Atlantic* a rendu publique une base de données de 12 millions de morceaux musicaux utilisée pour entraîner des IA.
- 02Deux ensembles de données dépassent les 9 millions de titres, tandis que les deux autres en comptent plus de 100 000 chacun.
- 03Cette initiative interroge la transparence des données d’entraînement et les questions de droits d’auteur.

Un journaliste du Atlantic a rendu publique une base de données musicale massive, utilisée pour entraîner des modèles d’IA, et la rend désormais interrogeable en ligne. Alex Reisner a identifié quatre ensembles de données musicaux, dont deux particulièrement volumineux : l’un contient 12 millions de morceaux et l’autre 9 millions. Les deux autres, bien que plus modestes, restent significatifs avec plus de 100 000 titres chacun.
Ces jeux de données, déjà téléchargés des milliers de fois, soulèvent des questions sur leur utilisation par des acteurs comme Google ou Stability AI, bien que leur impact exact reste difficile à évaluer. Leur publication interroge également la transparence des sources employées pour entraîner les systèmes d’IA générative, ainsi que les implications en matière de droits d’auteur. Le projet vise à offrir une visibilité sans précédent sur les données musicales exploitées par ces technologies.