Warum wir eine Token-Ersparnis von 96 % abgelehnt haben

Translated for your language. Original lesen.

AI-assisted draft.

GyaanSetu Editorialvor 2 Wochen2Min. Lesezeit

Warum wir eine Token-Ersparnis von 96 % abgelehnt haben

In diesem Artikel

Warum wir eine 96%ige Token-Ersparnis abgelehnt haben

Wir haben einen MCP-Server gefunden, der 96 % an Token spart. Er nutzt ein einziges Tool: execute_code. Anstatt spezifische Funktionen aufzurufen, schreibt der Agent JavaScript, um Daten abzurufen.

Auf dem Papier gewinnt er. Bei komplexen Aufgaben schlägt die Code-Ausführung das Tool-Calling in Sachen Effizienz.

Aber wir haben ihn nicht übernommen. Stattdessen sind wir bei unseren diskreten, benannten Tools geblieben.

Hier ist der Grund, warum die offensichtliche Wahl die falsche Wahl für unseren Agenten war.

Das Ziel bestimmt das Design

Die meisten Menschen entwickeln für Frontier-Modelle in einem Chat-Fenster. Diese Modelle verfügen über riesige Token-Budgets. Für sie ist die Code-Ausführung das Maß aller Dinge.

Wir entwickeln für einen Voice-First-Agenten auf einem kleinen lokalen Modell (Hermes 3 8B) auf einem Boot.

Bei einem kleinen Modell ist nicht die Token-Anzahl die Einschränkung. Die Einschränkung ist die Zuverlässigkeit.

Wenn ein kleines Modell bereits Schwierigkeiten hat, ein einfaches Tool aufzurufen, ist die Aufgabe, korrektes JavaScript zu schreiben, weitaus schwieriger. execute_code tauscht Zuverlässigkeit gegen Token ein. Diesen Kompromiss können wir uns nicht leisten.

Das Last-Mile-Problem

Die Code-Ausführung verlagert die „letzte Meile“ der Arbeit auf den Agenten. Der Agent muss:

Daten filtern
Ergebnisse sortieren
Die Ausgabe formatieren

Unsere Tools erledigen diese Arbeit innerhalb des Servers. Wenn wir beispielsweise nach dem Batteriestatus fragen, gibt unser Tool einen String zurück, der bereit für Text-to-Speech ist. Er sagt „68 Prozent, 12,8 Volt“ anstatt nur Rohdaten zu liefern.

Wenn wir execute_code verwenden, muss der Agent die Logik schreiben, um diese Sprachausgabe zu formatieren. Kleine Modelle scheitern ständig daran.

Die Regel für fehlende Werte

Auf einem Boot fallen Sensoren aus. In unserem System liefert ein fehlender Sensor ein sauberes null. Dies ist ein erfolgreicher Aufruf.

In einem Modell zur Code-Ausführung führt ein fehlender Sensor oft zu einem Fehler. Wenn ein kleines Modell ein paar falsche Pfade errät, werden Fehlerschwellenwerte überschritten und der Agent bricht ab. Benannte Tools ermöglichen es uns, das Fehlen eines Wertes als Erfolg zu behandeln und nicht als Fehler.

Checkliste: Übernehmen vs. Selbst bauen

Bevor Sie einen MCP-Server übernehmen oder selbst bauen, stellen Sie sich diese Fragen:

• Wer ist der Ziel-Agent? (Frontier-Modell vs. kleines lokales Modell) • Was ist die entscheidende Einschränkung? (Token vs. Zuverlässigkeit) • Wer erledigt die letzte Meile? (Formatiert das Tool die Daten oder der Agent?) • Wie wird das Fehlen von Werten gehandhabt? (Ist ein fehlender Wert ein Fehler oder ein null?) • Wie hoch sind die Wartungskosten? (Übernehmen Sie eine brachliegende Codebasis?)

Wir haben das andere Projekt nicht ignoriert. Wir haben dessen Ideen genutzt. Wir haben deren Alarmbehandlung und Pfadentdeckungslogik übernommen und in unsere Roadmap integriert.

Effizienz ist großartig, aber Zuverlässigkeit ist erforderlich, wenn man auf dem Wasser ist.

Quelle: https://dev.to/clarkbw--/why-we-kept-named-mcp-tools-despite-a-96-token-saving-40ae

Optionale Lern-Community: https://t.me/GyaanSetuAi

Warum wir eine Token-Ersparnis von 96 % abgelehnt haben

Warum wir eine 96%ige Token-Ersparnis abgelehnt haben

Das Ziel bestimmt das Design

Das Last-Mile-Problem

Die Regel für fehlende Werte

Checkliste: Übernehmen vs. Selbst bauen

Weiterlesen

𝗠𝗖𝗣 𝗗𝗶𝗿𝘁𝘆 𝗦𝗲𝗰𝗿𝗲𝘁: 𝗬𝗼𝘂𝗿 𝗔𝗴𝗲𝗻𝘁 𝗜𝘀 𝗕𝘂𝗿𝗻𝗶𝗻𝗴 𝗧𝗼𝗸𝗲𝗻𝘀

Das MCP-Tool hat sein Schema geändert. Dein Agent hat es nicht bemerkt.

KI-Agenten brauchen Grenzen, keine Generalschlüssel

Ihre MCP-Server verbrennen Token, noch bevor Sie ein Wort tippen