Pesquisadores da Nvidia permitem que robôs se auto-treinem usando agentes de codificação de IA
O gargalo da coleta manual de dados e da constante intervenção humana na robótica está finalmente sendo resolvido. Ao aproveitar agentes de codificação de IA, pesquisadores desenvolveram um sistema onde os robôs podem escrever autonomamente seu próprio código de treinamento e refinar sua destreza em ambientes do mundo real.
Quebrando o gargalo manual com o ENPIRE
Tradicionalmente, ensinar tarefas complexas a um robô, como a preensão de objetos com destreza, exige que engenheiros humanos resetem cenas, coletem conjuntos de dados e ajustem algoritmos manualmente. Esse processo intensivo de mão de obra cria um ponto de fricção massivo na escala da inteligência robótica. Para resolver isso, pesquisadores da Nvidia, da Carnegie Mellon University e da UC Berkeley introduziram o ENPIRE, um framework que transforma o processo de treinamento em um ciclo de feedback autossustentável.
Em vez de esperar por instruções humanas, o sistema ENPIRE utiliza agentes de codificação de IA para gerenciar todo o ciclo de vida: resetar o espaço de trabalho, executar uma estratégia de movimento, avaliar o resultado e iterar imediatamente no código para melhorar o desempenho. Isso move a robótica de "human-in-the-loop" para "agent-in-the-loop".
Como agentes de codificação autônomos impulsionam a destreza
O framework ENPIRE opera em duas fases distintas. Na primeira fase, o agente estabelece um espaço de trabalho usando o mínimo de orientação humana — muitas vezes apenas alguns minutos de vídeo mostrando tentativas bem-sucedidas e falhas. Crucialmente, o agente escreve suas próprias funções de recompensa. Por exemplo, durante tarefas de inserção de pinos, o agente desenvolveu uma verificação personalizada combinando alinhamento visual, altura da garra e força estimada para determinar o sucesso.
Na segunda fase, os agentes operam com total autonomia. Eles leem artigos de pesquisa, formulam hipóteses e editam o código de treinamento diretamente. Eles podem escolher entre métodos como clonagem de comportamento (imitando o movimento humano) ou aprendizado por reforço (tentativa e erro) com base em qual abordagem produz melhores sinais no mundo real. Durante os testes, os pesquisadores utilizaram modelos de alto desempenho, incluindo Codex (com GPT-5.5), Claude Code (com Opus 4.7) e Kimi Code (com Kimi K2.6), com o Codex emergindo como o de melhor desempenho.
Escalando por meio de uma frota de robôs habilitada para Git
Um dos aspectos mais inovadores desta pesquisa é a coordenação de uma frota de oito estações robóticas YAM de braço duplo. Em vez de trabalharem isoladamente, essas estações atuam como uma equipe de pesquisa distribuída. Elas compartilham suas descobertas, "receitas" bem-sucedidas e hipóteses fracassadas usando o Git, a ferramenta padrão de controle de versão utilizada na engenharia de software.
Esta abordagem baseada em frota gera ganhos temporais massivos:
- Teste Push-T: A escala de um para oito agentes reduziu o tempo de conclusão de cinco horas para apenas duas.
- Inserção de Pinos: O tempo de conclusão da tarefa caiu de mais de 90 minutos para aproximadamente 40 minutos.
- Taxas de Sucesso: A frota alcançou até 99% de sucesso em tarefas exigentes, incluindo a classificação de pinos e o corte de abraçadeiras de nylon.
O Gap de Realidade: Simulação vs. Hardware
Apesar desses avanços, a pesquisa destaca o gap "sim-to-real". Embora todos os três agentes testados tenham resolvido o teste Push-T em simulação, dois de três falharam ao serem transferidos para o hardware físico devido a variáveis imprevisíveis, como o atrito e a dinâmica do robô. No entanto, o ENPIRE demonstrou um desempenho superior na simulação RoboCasa em comparação com modelos estabelecidos como o GR00T.
À medida que a indústria avança em direção à robótica de propósito geral, a capacidade das máquinas de realizarem "autopesquisa" por meio de código será a chave para ir além de movimentos estreitos e pré-programados, em direção a uma inteligência verdadeira e adaptável.
Principais Conclusões
- Iteração Autônoma: O ENPIRE permite que os robôs escrevam suas próprias funções de recompensa e código de treinamento, reduzindo significativamente a necessidade de engenheiros humanos resetarem cenas ou ajustarem algoritmos.
- Aprendizado Colaborativo: Ao usar o Git para compartilhar dados, uma frota de oito robôs pode aprender coletivamente com os sucessos e falhas uns dos outros, acelerando drasticamente o cronograma de treinamento.
- Complexidade do Mundo Real: Embora o sistema alcance até 99% de sucesso em tarefas específicas, a natureza imprevisível dos ambientes físicos continua sendo um desafio significativo em comparação ao treinamento simulado.