Apple descobre como executar modelos maiores de IA em um telefone

Fonte: Ryan Whitwam3 de janeiro de 2024Atualizada:4 de janeiro de 2024Nenhum comentário0 Visualizações

O ano passado assistiu a mudanças radicais nas grandes tecnologias, à medida que a inteligência artificial suplantou o metaverso como a causa célebre da Internet. De repente, todos estão criando seus próprios grandes modelos de linguagem (LLMs), mas a maioria deles roda na nuvem com hardware de servidor poderoso. Os smartphones não têm memória suficiente para rodar os modelos maiores e mais capazes, mas a Apple acha que tem uma solução. Em um novo artigo de pesquisa, os engenheiros da Apple propõem manter os parâmetros LLM no flash NAND do iPhone, em vez da falta de RAM.

Com Qualcomm, Intel e outros adicionando hardware de aprendizado de máquina aos chips mais recentes, seu próximo gadget poderá ter o que precisa para executar uma IA local. O problema é que grandes modelos de linguagem são, bem, grande. Pode haver trilhões de parâmetros que precisam permanecer na memória enquanto o modelo está em execução, e os telefones não têm muita RAM – principalmente os telefones da Apple, que chegam a apenas 8 GB no iPhone 15 Pro.

As placas aceleradoras de IA que executam esses modelos em data centers vêm com muito mais memória do que placas gráficas semelhantes. Por exemplo, a Nvidia H100 vem com 80 GB de memória HBM2e em comparação com apenas 24 GB de GDDR6X no RTX 4090 Ti voltado para jogos.

O Google está trabalhando para aprimorar LLMs móveis com seu novo modelo Gemini, que apresenta uma versão “nano” destinada a smartphones. A nova pesquisa da Apple visa colocar um modelo maior em um smartphone, contando com o armazenamento flash NAND, que geralmente é pelo menos 10 vezes maior que a RAM do telefone. O principal problema é a velocidade – o armazenamento flash é muito, muito mais lento.

Ganhos de velocidade NAND da Apple

A Apple afirma melhorias significativas na velocidade ao ajustar o uso de NAND. Crédito: Apple

Segundo a pesquisa, a equipe utilizou duas técnicas para fazer seu modelo rodar sem RAM. Ambos visam reduzir a quantidade de dados que o modelo precisa carregar do armazenamento. O janelamento permite que o modelo carregue parâmetros apenas para os últimos tokens, essencialmente reciclando dados para reduzir o tempo de acesso ao armazenamento. O agrupamento linha-coluna também foi empregado para agrupar dados de forma mais eficiente, para que o modelo pudesse processar blocos de dados maiores.

A pesquisa teve sucesso na expansão dos recursos LLM do iPhone. Com essa abordagem, os LLMs são executados de 4 a 5 vezes mais rápido em CPUs padrão e de 20 a 25 vezes mais rápido em GPUs. Talvez o mais importante seja que o iPhone pode executar modelos de IA com o dobro do tamanho da RAM instalada, mantendo os parâmetros no armazenamento interno. O estudo conclui que esta abordagem pode abrir caminho para a execução de LLMs em dispositivos com memória limitada.

A mais vistas

STF rejeita recurso e mantém pena de prisão contra Collor

Se o espaço está cheio de estrelas, por que vemos tanta escuridão?

Cientistas finalmente entendem a criatura bizarra do fundo do mar descoberta em 2000

Apple descobre como executar modelos maiores de IA em um telefone

Em breve, o Snapchat poderá alertar os pais quando seu filho adolescente sair ou chegar em determinados locais

Como as imagens e vídeos que você vê na Internet alteram sua percepção sobre determinados temas?

Proteja seus dados pessoais: dicas para mantê-los fora da dark web

SOBRE O BLOG

As Mais Vistas

Fuzis e carros de luxo: o que a PF achou em esquema de tráfico de cocaína que lucrou R$ 700 milhões

Relatório da PEC que dá ainda mais autonomia ao Banco Central sai até junho

Tempo ficará instável neste domingo (07/04) | Confira a previsão para os próximos dias

Mais Populares

Como é usar o modo Lockdown da Apple

Microsoft anuncia ‘nova’ interface de instalação do Windows 11 que na verdade tem 10 anos

Os preços da super GPU Nvidia RTX vazam e é surpreendentemente razoável

Subscribe to Updates

A mais vistas

Apple descobre como executar modelos maiores de IA em um telefone

Noticias Relacionadas

SOBRE O BLOG

As Mais Vistas

Mais Populares