A Apple reafirmou seu compromisso em utilizar apenas dados de alta qualidade e licenciados para treinar seus modelos de inteligência artificial, incluindo o Apple Intelligence. A empresa deixou claro que não planeja usar os dados de transcrição do YouTube, que foram controversamente utilizados por outras empresas para treinamento de IA.
Principais Pontos de Destaque:
– A Apple esclareceu que não usa os dados de transcrição do YouTube para treinar seus modelos de IA, incluindo o Apple Intelligence.
– A empresa se comprometeu a utilizar apenas dados de alta qualidade e licenciados, como conteúdo de editores e imagens de banco de dados.
– O modelo de pesquisa OpenELM, que foi treinado com os dados controvertidos do Pile, não será mais desenvolvido pela Apple.
Apple reafirma compromisso com direitos dos criadores
Após um relatório revelar que várias empresas usaram, em parte, os dados de transcrição de vídeos do YouTube para treinar suas IAs, a Apple deu um passo à frente para esclarecer o uso e os planos da empresa para o OpenELM, que foi treinado nos dados controversos do Pile.
A Apple entrou em contato com a TechRadar após ler o relatório que detalhou como a empresa que forneceu o Pile, a EleutherAI, aparentemente usou o conjunto de dados de legendas do YouTube, um ato que seria contrário às políticas de uso de dados da plataforma de vídeos.
Embora não tenha falado diretamente sobre a questão dos dados do YouTube, a Apple reiterou seu compromisso com os direitos dos criadores e editores e acrescentou que oferece a sites a capacidade de optar por não ter seus dados usados para treinar o Apple Intelligence, que a empresa revelou durante a WWDC 2024 e deve chegar ao iOS 18.
Modelos de pesquisa, não de recursos
A empresa também confirmou que treina seus modelos, incluindo os do futuro Apple Intelligence, usando dados de alta qualidade que incluem dados licenciados de editores, imagens de banco de dados e alguns dados públicos disponíveis na web. Os dados de transcrição do YouTube não se destinam a ser um recurso público, mas não está claro se eles estão totalmente ocultos da visualização.
OpenELM é apenas para pesquisa
A Apple também constrói modelos de pesquisa e é essencialmente isso que o OpenELM é, uma ferramenta para aprender mais sobre modelos de linguagem. Em um artigo sobre o OpenELM (PDF), os pesquisadores observam que o treinaram nos dados do Pile.
No entanto, a Apple afirma que o OpenELM é apenas para fins de pesquisa e não é usado para alimentar recursos de IA em nenhum dos dispositivos Apple, o que incluiria, entre outras coisas, os melhores iPhones, iPads e Macs. Além disso, parece que o momento de glória do OpenELM está chegando ao fim, pois a Apple nos disse que não tem planos de construir versões futuras do modelo.
Criadores do YouTube podem ficar aliviados
Embora tudo isso possa oferecer algum alívio aos criadores do YouTube (incluindo a TechRadar) cujos dados foram raspados para o Pile e usados em, entre outros modelos, o OpenELM da Apple, isso não aborda o fato de que a EleutherAI aparentemente fez a raspagem sem a permissão do YouTube ou dos criadores e, em seguida, a repassou para empresas como a Apple.
Conclusão
O que resta ver é o que o YouTube fará a seguir. Por enquanto, no entanto, a Apple deixou claro que foi uma e pronto com o OpenELM e que esses dados nunca farão parte do Apple Intelligence. Portanto, posso dizer com confiança que a Apple está priorizando o respeito aos direitos dos criadores e a qualidade dos dados utilizados em seus modelos de IA.