Zürich – Salesforce AI Research stellt eine Simulationsumgebung vor, mit der sich die Leistungsfähigkeit von KI-Agenten in realistischen Geschäftsszenarien testen lässt. Ausserdem werden neue Benchmarking-Tools zur Bewertung von Agenten in verschiedenen Anwendungsfällen eingeführt. Damit erhalten Unternehmen eine sachliche und überprüfbare Grundlage für den Einsatz von KI-Agenten im Unternehmensalltag. Darüber hinaus wurde die Data Cloud um fortschrittliche Konsolidierungsfunktionen erweitert, die kleine und grosse Sprachmodelle nutzen, um Daten autonom zu vereinheitlichen.
Simulation von Unternehmensumgebungen mit CRMArena-Pro
Die Simulationsumgebung CRMArena-Pro bildet komplexe Geschäftsszenarien realitätsnah nach. Unternehmen können damit KI-Agenten in Bereichen wie Umsatzprognosen, Priorisierung von Supportanfragen oder CPQ-Prozessen prüfen und Schwachstellen frühzeitig erkennen. Strukturierte Basis dafür sind synthetische Daten, sichere API-Aufrufe und verbindliche Datenschutzmechanismen. Zugleich treibt Salesforce AI Research durch diese niederschwelligen Anreize die Entwicklung von Agenten voran.
Benchmarking-Tools für Agenten
Aktuelle Large Language Models (LLMs) kämpfen trotz der Fortschritte noch immer mit Einschränkungen wie dem Verlust von Informationen in langen Kontexten oder Schwierigkeiten im Umgang mit Unbekannten. Mit den Benchmarks von Salesforce können Unternehmen diese Schwächen gezielt identifizieren und ihre Systeme entsprechend optimieren. Agentic Benchmark for CRM ist das erste Benchmarking-Tool, das KI-Agenten in den für Unternehmen wichtigsten Kontexten wie Kundenservice, Aussendienst, Marketing und Vertrieb bewertet. Damit erhalten Unternehmen eine datengestützte und vergleichbare Grundlage, unterschiedliche Modelle und Agenten mit ihren jeweiligen Anwendungsfällen abzugleichen. Dies ermöglicht eine fundierte Entscheidung abseits von Markttrends oder der reinen Grösse von Sprachmodellen.
Mit dem Nachhaltigkeits-Benchmark können Unternehmen ihre KI-Nachhaltigkeit präzise messen und die Modellgrösse gezielt an den benötigten Intelligenzgrad anpassen. Das spart Rechenressourcen und stellt zugleich eine konsistente, zielgerechte und vertrauenswürdige Performance sicher. Zusätzlich wurden mit MCP-Eval und MCP-Universe zwei weitere Benchmarks vorgestellt, die sich gegenseitig ergänzen und die Leistungsfähigkeit von Agenten in realen Anwendungsszenarien prüfen. Während MCP-Eval eine skalierbare, automatisierte Bewertung anhand synthetischer Aufgaben ermöglicht, setzt MCP-Universe auf komplexe, praxisnahe Tests. Gemeinsam bilden sie ein leistungsstarkes Toolkit, das sowohl umfassende Erstbewertungen als auch tiefgreifende Fehlerdiagnosen erlaubt.
Datenkonsolidierung mit Kontenabgleich
Account Matching ist eine Funktion in der Data Cloud, die Sprachmodelle nutzt, um fragmentierte und doppelte Datensätze in Echtzeit zusammenzuführen. So konnte ein Salesforce Kunde bereits im ersten Monat mehr als eine Million Konten mit einer Übereinstimmungsrate von 95 Prozent zusammenführen und die durchschnittliche Bearbeitungszeit pro Vorgang um 30 Minuten reduzieren.
Weitere Informationen über die jüngsten Entwicklungen sind hier zu finden: SalesforceAIResearch.com (Salesforce/mc/ps)