O Colapso de Preços de 10x é uma Aposta em Arquitetura

Engenheiros passam horas reescrevendo prompts para economizar alguns tokens. Esse esforço é frequentemente desperdiçado.

Tokens não são gratuitos, mas o custo da IA está caindo rápido demais. O custo para um nível específico de desempenho de IA cai cerca de 10x todos os anos. Isso é chamado de LLMflation.

Dados mostram que essa tendência é real:

  • A qualidade de nível GPT-3 custava US$ 60 por milhão de tokens em 2021.
  • Agora custa cerca de US$ 0,06 usando Llama 3.2 3B.
  • Isso é uma queda de 1.000x em três anos.
  • Os custos de qualidade do GPT-3.5 caíram 280x em apenas 18 meses.

Os modelos de fronteira continuam caros. Mas os modelos que você usa para tarefas padrão estão com preços em queda livre. Se você otimizar para os preços de hoje, estará otimizando para um número que desaparecerá em meses.

Não foque em truques de prompt. Foque em arquitetura.

Siga estas três regras para vencer:

• Trate o modelo como um componente. Use uma única interface para entradas e saídas. Não codifique modelos específicos diretamente no seu app. Isso permite que você troque de modelos por meio de uma simples mudança de configuração.

• Construa primeiro um framework de avaliação (evaluation harness). Você precisa de um conjunto de testes para provar se um novo modelo mais barato funciona tão bem quanto o antigo. Sem testes, você ficará preso a modelos caros por medo de quebrar algo.

• Invista em coisas que não ficam mais baratas. Sua qualidade de dados, seus sistemas de recuperação (retrieval), seus guardrails e sua experiência do usuário não caem de preço 10x por ano. Apenas o modelo faz isso.

Pare de fazer fine-tuning para capacidade bruta. O fine-tuning é uma aposta contra a curva. Você prende seus dados e infraestrutura a um modelo específico. Quando um novo modelo base chega, seu modelo ajustado torna-se uma relíquia cara. Faça fine-tuning apenas para coisas que permanecem as mesmas, como o tom específico da sua marca ou formatos de dados exclusivos.

A estratégia vencedora é construir um sistema que torne a troca de modelos trivial. Pare de contar tokens. Projete seu produto para acompanhar a curva de queda de preços.

Source: https://dev.to/aiexplore369zoho/the-10x-a-year-price-collapse-is-an-architecture-bet-not-a-prompt-trick-49df

Optional learning community: https://t.me/GyaanSetuAi