A febre da inteligência artificial generativa está a arrefecer. E não por falta de interesse ou potencial disruptivo. De acordo com a mais recente análise da Canalys, o verdadeiro travão à adoção em larga escala não é ético, técnico, ou mesmo regulatório — é económico. Mais concretamente, reside na opacidade e imprevisibilidade dos custos associados à inferência, ou seja, ao uso real dos modelos em produção.

É a diferença entre construir uma máquina e mantê-la a funcionar 24/7. O treino de modelos — aquela fase épica, computacionalmente intensiva, que domina manchetes e orçamentos — é um investimento único. Já a inferência é a nova linha de despesa que se renova a cada clique, a cada prompt, a cada token gerado. E é aqui que muitas empresas estão a pisar o travão.

O paradoxo da escalabilidade

“A inferência representa um custo operacional recorrente, o que a torna uma barreira crítica na comercialização da IA”, afirma Rachel Brindley, diretora da Canalys. À medida que a IA generativa transita dos laboratórios para o terreno, as empresas tornam-se subitamente conservadoras, limitando implementações, reduzindo a complexidade dos modelos e reservando as ferramentas mais poderosas para casos de uso de elevado retorno. É um paradoxo cruel — quanto mais prometedora a tecnologia, mais restrito o seu uso.

A culpa? O modelo de negócio do próprio ecossistema de IA. Segundo o analista Yi Zhang, muitos dos serviços atualmente disponíveis funcionam com base em modelos de preços por uso — cada token conta, cada chamada à API tem um preço. Esta lógica, semelhante ao contador de eletricidade em casa, torna-se difícil de prever quando se escalam operações.

A matemática da incerteza

A maioria das empresas ainda está a descobrir como orçamentar a utilização de modelos como o GPT-4, Claude ou Gemini numa lógica diária. “Quando os custos de inferência são voláteis ou excessivamente altos, as empresas são forçadas a limitar o uso, o que acaba por castrar o verdadeiro potencial da IA generativa”, explica Zhang.

Pior ainda: esta incerteza está a provocar um movimento defensivo. Em vez de explorar novos casos de uso, muitos líderes tecnológicos optam por arquiteturas mais simples, evitam personalizações profundas ou adiam decisões estratégicas até haver maior previsibilidade nos custos. Ou seja, a inovação está a ser sufocada pelo medo da fatura do fim do mês.

GPU vs. aceleradores personalizados: a nova guerra fria da IA

Há ainda outra variável nesta equação: o hardware. Para conter custos, as empresas começam a olhar para alternativas aos tradicionais GPUs — como os TPUs da Google ou chips personalizados da AWS. “A corrida já não é apenas por modelos maiores ou mais inteligentes, mas por infraestruturas que consigam sustentar a inferência a um custo racional”, destaca Brindley.

É uma batalha silenciosa, mas estratégica: quem conseguir oferecer o melhor rácio desempenho/custo na fase de inferência poderá dominar o mercado empresarial da IA nos próximos anos.

O que vem a seguir?

Se há uma mensagem clara que emerge deste relatório da Canalys é que o hype já não é suficiente. A IA generativa está agora sujeita às mesmas regras implacáveis de qualquer tecnologia empresarial: ROI, previsibilidade, e eficiência operacional.

O desafio para as big techs será ajustar os modelos de negócio, oferecer maior transparência nos custos e, idealmente, desenvolver soluções de inferência otimizadas e economicamente sustentáveis. Até lá, a adoção será prudente — não por falta de visão, mas por excesso de cautela.

A revolução continua, mas agora, com a calculadora na mão.

Com informação Computerworld