O ano passado assistiu a mudanças radicais nas grandes tecnologias, à medida que a inteligência artificial suplantou o metaverso como a causa célebre da Internet. De repente, todos estão criando seus próprios grandes modelos de linguagem (LLMs), mas a maioria deles roda na nuvem com hardware de servidor poderoso. Os smartphones não têm memória suficiente para rodar os modelos maiores e mais capazes, mas a Apple acha que tem uma solução. Em um novo artigo de pesquisa, os engenheiros da Apple propõem manter os parâmetros LLM no flash NAND do iPhone, em vez da falta de RAM.
Com Qualcomm, Intel e outros adicionando hardware de aprendizado de máquina aos chips mais recentes, seu próximo gadget poderá ter o que precisa para executar uma IA local. O problema é que grandes modelos de linguagem são, bem, grande. Pode haver trilhões de parâmetros que precisam permanecer na memória enquanto o modelo está em execução, e os telefones não têm muita RAM – principalmente os telefones da Apple, que chegam a apenas 8 GB no iPhone 15 Pro.
As placas aceleradoras de IA que executam esses modelos em data centers vêm com muito mais memória do que placas gráficas semelhantes. Por exemplo, a Nvidia H100 vem com 80 GB de memória HBM2e em comparação com apenas 24 GB de GDDR6X no RTX 4090 Ti voltado para jogos.
O Google está trabalhando para aprimorar LLMs móveis com seu novo modelo Gemini, que apresenta uma versão “nano” destinada a smartphones. A nova pesquisa da Apple visa colocar um modelo maior em um smartphone, contando com o armazenamento flash NAND, que geralmente é pelo menos 10 vezes maior que a RAM do telefone. O principal problema é a velocidade – o armazenamento flash é muito, muito mais lento.
A Apple afirma melhorias significativas na velocidade ao ajustar o uso de NAND. Crédito: Apple
Segundo a pesquisa, a equipe utilizou duas técnicas para fazer seu modelo rodar sem RAM. Ambos visam reduzir a quantidade de dados que o modelo precisa carregar do armazenamento. O janelamento permite que o modelo carregue parâmetros apenas para os últimos tokens, essencialmente reciclando dados para reduzir o tempo de acesso ao armazenamento. O agrupamento linha-coluna também foi empregado para agrupar dados de forma mais eficiente, para que o modelo pudesse processar blocos de dados maiores.
A pesquisa teve sucesso na expansão dos recursos LLM do iPhone. Com essa abordagem, os LLMs são executados de 4 a 5 vezes mais rápido em CPUs padrão e de 20 a 25 vezes mais rápido em GPUs. Talvez o mais importante seja que o iPhone pode executar modelos de IA com o dobro do tamanho da RAM instalada, mantendo os parâmetros no armazenamento interno. O estudo conclui que esta abordagem pode abrir caminho para a execução de LLMs em dispositivos com memória limitada.