23h atrás
Harvard disponibiliza 1 milhão de livros de domínio público para treinamento de IA
A Universidade de Harvard, em parceria com a Microsoft e a OpenAI, lançará um enorme conjunto de dados com quase 1 milhão de livros de domínio público para o treinamento de modelos de IA. O projeto, parte da Institutional Data Initiative de Harvard, visa democratizar o acesso a conteúdos de qualidade, tradicionalmente restritos às grandes empresas de tecnologia.
Os livros, digitalizados através do projeto Google Books, abrangem uma vasta gama de gêneros e idiomas. Este banco de dados é cinco vezes maior que o Books3, um dos conjuntos de dados mais conhecidos, e tem como objetivo "nivelar o campo de jogo", segundo Greg Leppert, diretor da iniciativa. Ele acredita que a disponibilização desses dados permitirá que pequenas empresas e pesquisadores acessem informações valiosas que antes eram inacessíveis.
A nova base de dados promete oferecer um recurso significativo para o desenvolvimento de modelos de linguagem e outras ferramentas de IA, proporcionando aos desenvolvedores uma fonte rica e diversificada de conteúdo. A utilização de livros de domínio público garante que o material esteja legalmente disponível para uso, evitando complicações com direitos autorais e incentivando a inovação no campo da inteligência artificial.
Essa iniciativa é um passo importante para tornar a tecnologia mais acessível e promover a igualdade de oportunidades no desenvolvimento de IA. Com o suporte de grandes nomes como a Microsoft e a OpenAI, o projeto tem o potencial de transformar a maneira como modelos de linguagem são treinados, beneficiando tanto a academia quanto a indústria.
•
Usamos os cookies e dados de navegação visando proporcionar uma melhor experiência durante o uso do site. Ao continuar, você concorda com nossa Política de Privacidade.