A discussão sobre a capacidade de agentes de IA para executar tarefas complexas ganhou um novo capítulo com a resposta da ServiceNow a um artigo crítico. Pesquisadores Vishal e Varin Sikka argumentaram que agentes baseados em grandes modelos de linguagem tendem a falhar quando confrontados com tarefas cuja complexidade computacional excede o núcleo estatístico do modelo, o que pode levar a respostas incorretas ou alucinações.
O estudo, publicado no arXiv, questiona se esses agentes conseguem completar tarefas de múltiplas etapas e verificar resultados de forma confiável, especialmente em cenários que exigem validação rigorosa.
A posição da ServiceNow
Para a ServiceNow, esse diagnóstico não se aplica diretamente ao seu caso de uso. Amit Zavery, presidente e COO da empresa, afirmou que a plataforma incorpora cerca de 20 anos de dados operacionais e mais de 80 bilhões de workflows executados em produção. Segundo ele, esse histórico fornece referências claras do que constitui um resultado correto e viabiliza mecanismos de verificação que vão além do comportamento probabilístico de um modelo de linguagem.
Agentes como pilha em camadas
A empresa descreve seus agentes como parte de uma arquitetura em camadas. O modelo de linguagem é apenas um componente, enquanto a maior parte do valor estaria em propriedade intelectual própria, lógica de negócio, regras de governança, controles de compliance e mecanismos de previsibilidade e monitoramento.
Zavery chegou a estimar que, nos agentes desenvolvidos para clientes, o LLM realizaria cerca de 10% do trabalho, com os outros 90% suportados por dados de fluxo, software interno e controles operacionais.
Práticas de validação e monitoramento
Esse enfoque se traduz em práticas como definição prévia do que é um resultado correto em processos recorrentes, por exemplo onboarding de funcionários, uso de métricas e logs para monitoramento contínuo e camadas adicionais de segurança e conformidade para ambientes regulados.
A ServiceNow também oferece agentes prontos e ferramentas para criação personalizada. Segundo a empresa, cerca de 6.000 aplicações já foram publicadas por clientes em seu portal após o lançamento do build agent.
Integração com modelos e foco setorial
Em termos tecnológicos, a ServiceNow informou a integração do Claude Code, da Anthropic, ao motor do build agent, com o objetivo de ampliar capacidades de geração de código e acelerar o desenvolvimento de aplicações. Executivos mencionaram a expectativa de multiplicar a produção de apps e destacaram iniciativas voltadas a setores regulados, como saúde e ciências da vida, onde a empresa já oferece modelos de dados e fluxos de trabalho específicos.
O que o debate revela para as empresas
Do ponto de vista prático, o debate destaca dois pontos centrais para organizações que avaliam agentes de IA. O primeiro é a limitação inerente de modelos estatísticos ao lidar com tarefas de alta complexidade. O segundo é a necessidade de complementar esses modelos com dados operacionais, governança, monitoramento e mecanismos formais de verificação.
Mesmo quando um fornecedor adota um modelo de linguagem de última geração, a efetividade do agente depende da engenharia ao redor do modelo e dos processos de auditoria e correção implementados.
Em síntese
A resposta da ServiceNow à crítica técnica se apoia na ideia de que experiência operacional acumulada e camadas adicionais de software podem mitigar riscos associados a agentes centrados apenas em LLMs. Para organizações interessadas em aplicar agentes de IA em processos críticos, a avaliação deve ir além do modelo escolhido e incluir maturidade dos workflows, governança, auditoria e capacidade de correção contínua.













