| Телеграм-канал БлоGнот

14 июня 2025 г. / Source

Гарвардский университет выпустил датасет для обучения AI, состоящий из почти миллиона книг, опубликованных начиная с XV века на 254 языках. Проект поддерживается Microsoft и OpenAI и направлен на использование данных из общественного достояния, что позволяет избежать судебных исков от современных авторов.

Коллекция содержит 394 миллиона отсканированных страниц с примерно 242 миллиардами токенов. Для сравнения — последняя версия языковой модели Meta обучалась на более чем 30 триллионах токенов. Менее половины произведений написаны на английском языке, преобладают европейские языки, особенно немецкий, французский, итальянский и латынь.

Интересно, что Google, который с 2006 года оцифровывал эти книги для своего проекта Google Books и долго судился с авторами, теперь сотрудничает с Гарвардом в передаче данных AI-разработчикам. Библиотеки получают финансирование на дорогостоящую оцифровку, а технологические компании — легальный доступ к историческим данным.

Впрочем, специалисты указывают, что датасет содержит большое количество устаревших сведений, начиная от научных теорий и заканчивая общественно-политическими воззрениями. Представляете себе чатбот, который будет уверять вас в существовании флогистона или серьезности “бремени белого человека”. Впрочем, как-то сейчас он с тарологией и наличием всемирного правительства все же справляется.