{"id":505148,"date":"2024-02-14T12:04:52","date_gmt":"2024-02-14T20:04:52","guid":{"rendered":"https:\/\/www.genesys.com\/blog\/post\/bot-konfidenzschwellenwerte-festlegen"},"modified":"2024-04-18T02:38:10","modified_gmt":"2024-04-18T09:38:10","slug":"set-bot-confidence-thresholds","status":"publish","type":"blog","link":"https:\/\/www.genesys.com\/de-de\/blog\/post\/set-bot-confidence-thresholds","title":{"rendered":"Bot-Konfidenzschwellenwerte festlegen"},"content":{"rendered":"<div class=\"wpb-content-wrapper\"><p>[vc_section full_width=&#8220;stretch_row&#8220;][vc_row][vc_column][vc_column_text][\/vc_column_text][vc_column_text]Als ein Schl\u00fcsselaspekt der\u00a0<a href=\"https:\/\/www.genesys.com\/de-de\/capabilities\/genesys-ai\" target=\"_blank\" rel=\"noopener\">k\u00fcnstlichen Intelligenz (KI)<\/a> \u00fcberbr\u00fcckt Natural Language Understanding (NLU) die L\u00fccke zwischen menschlicher Sprache und dem Verst\u00e4ndnisverm\u00f6gen von Computern. Bots, die nat\u00fcrliche Sprache verstehen, haben f\u00fcr Unternehmen mittlerweile gro\u00dfe strategische Bedeutung in Bezug auf die Customer\u00a0Experience. Das erste, was ein Bot verstehen muss, ist die Kundenabsicht. Wenn der <a href=\"https:\/\/www.genesys.com\/blog\/post\/optimizing-your-bot-an-ai-love-story\" target=\"_blank\" rel=\"noopener\">Bot die Absicht richtig erkennt<\/a>, macht er sich an die L\u00f6sung des Kundenproblems im Selfservice. Manchmal ist jedoch nicht ganz sicher, ob das NLU-System die richtige Absicht erkannt hat. In diesem Fall wird der Benutzer aufgefordert, die erkannte Absicht zu best\u00e4tigen\u00a0\u2013 oder zu \u00e4ndern. Betrachten wir nun die Verwendung von Konfidenzschwellenwerten und die Schwierigkeiten, die bei mangelndem Verst\u00e4ndnis f\u00fcr ihre Auswirkungen auf die Wirksamkeit des Bot entstehen. Wenn ein NLU-Modell eine Hypothese f\u00fcr die Absicht hinter einer \u00c4u\u00dferung aufstellt, gibt es dazu einen Konfidenzwert an. Schauen wir uns an, was dieser Wert bedeutet.[\/vc_column_text][\/vc_column][\/vc_row][vc_row][vc_column][vc_column_text]<\/p>\n<div id=\"\" class=\"article-section\">\n<div class=\"article-section-part\">\n<div class=\"part-text\">\n<div class=\"text-content\">\n<h3>1. Was ein Konfidenzwert <em>ist<\/em><\/h3>\n<\/div>\n<\/div>\n<\/div>\n<\/div>\n<div id=\"confidence-score-overview\" class=\"article-section\">\n<div class=\"article-section-part\">\n<div class=\"part-text\">\n<div class=\"text-content\">\n<p>Wenn ein <a href=\"https:\/\/www.genesys.com\/de-de\/blog\/post\/cx-is-still-at-the-tip-of-the-conversational-ai-iceberg\" target=\"_blank\" rel=\"noopener\">dialogorientiertes KI-System<\/a> seiner Antwort einen Wert f\u00fcr \u201eKonfidenz\u201c beimisst, ist dies im Sinne von \u201eVertrauen\u201c zu verstehen. Der Wert gibt an, wie hoch das Vertrauen des Systems in seine Hypothese ist. Der Wert mag wie ein Wahrscheinlichkeitswert aussehen, aber die Summe der Konfidenzwerte f\u00fcr einen Satz Hypothesen ist meistens nicht 1.<\/p>\n<h3>2. Was ein Konfidenzwert <em>n<\/em><em>icht ist<\/em><\/h3>\n<p>Verwechseln Sie den Begriff \u201eKonfidenzwert\u201c nicht mit dem \u201eKonfidenzintervall\u201c, das in Statistiken zur Beschreibung der beobachteten Ergebnisse in einer Testreihe dient. In der Statistik ist ein <em>Konfidenzintervall<\/em> von 95\u00a0% der Bereich, in dem 95\u00a0% der Ergebniswerte liegen. Aber bei uns bedeutet Konfidenz etwas anderes. Ein Konfidenzwert kann auch mit der \u201eWahrscheinlichkeit\u201c verwechselt werden, dass eine Hypothese richtig ist, weil die meisten NLU-Engines Konfidenzwerte zwischen 0,0 und 1,0 ausgeben. Aber es geht hier auch nicht um Wahrscheinlichkeit.<\/p>\n<h3>3. Was sich an Konfidenzwerten ablesen l\u00e4sst<\/h3>\n<p>Die Leistungsf\u00e4higkeit eines KI-Systems kann anhand seiner Leistung bei verschiedenen Konfidenzschwellenwerten charakterisiert werden. Bei einem Konfidenzschwellenwert von 0 w\u00fcrde es jede Hypothese zulassen, unabh\u00e4ngig von ihrer Richtigkeit und ihrem Konfidenzwert. Bei einem Wert von 1 w\u00fcrde es jede Hypothese ablehnen (es sei denn, die Engine gibt manchmal einen Konfidenzwert von 1 aus). Idealerweise sortiert ein Konfidenzschwellenwert so viele falsche Hypothesen wie m\u00f6glich aus, ohne allzu viele richtige Hypothesen zu verwerfen. Eine Methode zur Ermittlung dieses Punktes besteht darin, eine ROC-Kurve (Receiver Operating Characteristic) zu zeichnen, die bei verschiedenen Konfidenzschwellenwerten die richtig positiven mit den falsch positiven Werten abgleicht, wie in dieser Abbildung dargestellt.<\/p>\n<\/div>\n<\/div>\n<\/div>\n<\/div>\n<p>[\/vc_column_text][vc_single_image image=&#8220;501386&#8243; css=&#8220;.vc_custom_1702312205889{margin-top: 1.0em !important;margin-bottom: 1.0em !important;}&#8220;][vc_column_text]Am h\u00f6chsten ist der Konfidenzschwellenwert in der unteren linken Ecke des Diagramms mit 0\u00a0richtig positiven und 0\u00a0falsch positiven Ergebnissen. Der niedrigste Schwellenwert liegt oben rechts. Der optimale Punkt mit der gr\u00f6\u00dftm\u00f6glichen Zahl an richtig positiven und der geringstm\u00f6glichen Zahl an falsch positiven Ergebnisse liegt zwischen ihnen. ROC-Kurven, wie die oben genannten, eignen sich gut f\u00fcr eine bin\u00e4re Klassifizierung. Eine <a href=\"https:\/\/www.genesys.com\/de-de\/capabilities\/voicebots\" target=\"_blank\" rel=\"noopener\">NLU-Engine<\/a>, die die Absicht hinter einer \u00c4u\u00dferung vorhersagt, ist jedoch ein System mit mehreren Klassen. Und damit nicht genug: Das System muss auch danach bewertet werden, wie gut es nicht der Dom\u00e4ne zugeh\u00f6rige Eingaben oder \u201ewahre Negative\u201c verarbeitet. Um dies zu erfahren, m\u00fcssen wir die Ergebnisse entsprechend der konkreten <em>Art<\/em> des Konfidenzschwellenwertes betrachten, die wir verwenden m\u00f6chten.<\/p>\n<h3><strong>4. Arten von Konfidenzschwellenwerten<\/strong><\/h3>\n<p>Eine NLU-Engine kann bei der \u00dcbermittlung von Hypothesen zwei Arten von Konfidenzschwellenwerten angeben: <strong>Best\u00e4tigungsschwellenwert<\/strong>: Wenn der h\u00f6chste Konfidenzwert einer Absichtshypothese unter diesem Wert liegt, bittet der Bot den Benutzer um Best\u00e4tigung der Hypothese. <strong>Ablehnungsschwellenwert<\/strong>: Wenn der Konfidenzwert unter diesem Wert liegt, fordert der Bot den Benutzer auf, die Eingabe zu \u00e4ndern. <em>Eine dritte Variante kommt dann ins Spiel, wenn die plausibelste Hypothese nur knapp vor der zweitplatzierten Hypothese liegt. In diesem Fall kann der Bot den Benutzer auffordern, zwischen den beiden zu w\u00e4hlen.<\/em><\/p>\n<h3><strong>5. Auswahl eines effektiven Schwellenwerts<\/strong><\/h3>\n<p>Um einen guten Schwellenwert f\u00fcr einen Bot zu finden, sollte ihm optimalerweise ein Satz von Testdaten mit empirisch wahren Werten \u00fcbergeben werden. Anschlie\u00dfend werden die Ergebnisse bei unterschiedlich hohen Konfidenzschwellenwerten verglichen. Da der Best\u00e4tigungs- und der Ablehnungsschwellenwert unterschiedliche Zwecke haben, m\u00fcssen sie separat bewertet werden.<\/p>\n<h4><strong>Best\u00e4tigungsschwellenwerte<\/strong><\/h4>\n<p>Diese vier Hypothesenkategorien sind f\u00fcr einen Best\u00e4tigungsschwellenwert relevant:<\/p>\n<ol>\n<li>Hypothese in Dom\u00e4ne, richtig und ohne Nachfrage akzeptiert (ID-CA)<\/li>\n<li>Hypothese in Dom\u00e4ne, richtig und vom Benutzer auf Nachfrage best\u00e4tigt (ID-CC)<\/li>\n<li>Hypothese in Dom\u00e4ne, falsch und ohne Nachfrage akzeptiert (ID-FA)<\/li>\n<li>Hypothese in Dom\u00e4ne, falsch und vom Benutzer auf Nachfrage abgelehnt (ID-FR)<\/li>\n<\/ol>\n<p><strong>Hinweis:<\/strong> Von diesen Hypothesengruppen ist 1 der beste Fall, 3 der schlechteste; 2 und 4 liegen dazwischen. Das liegt daran, dass es f\u00fcr den Benutzer zwar l\u00e4stig sein mag, st\u00e4ndig um eine Best\u00e4tigung gebeten zu werden, dies aber immer noch besser ist, als wenn eine falsche Antwort akzeptiert wird. Das folgende Diagramm zeigt diese vier Werte f\u00fcr einen Beispieldatensatz in 0,1-Schritten von 0 bis 1,0 Konfidenz.[\/vc_column_text][vc_single_image image=&#8220;501388&#8243; css=&#8220;.vc_custom_1702312519862{margin-top: 1.0em !important;margin-bottom: 1.0em !important;}&#8220;][vc_column_text]Das Diagramm zeigt, dass bei einem Konfidenzschwellenwert von 0 sowohl \u201erichtig und akzeptiert\u201c (die optimale Variante) als auch \u201efalsch und akzeptiert\u201c (die schlechteste) den Maximalwert annehmen. Wenn der Konfidenzschwellenwert auf 0,8 erh\u00f6ht wird, gibt es fast keine Fehler (falsch und akzeptiert), aber der Benutzer wird in mehr als jedem zweiten Fall um Best\u00e4tigung gebeten. Die ideale Einstellung f\u00fcr diesen Schwellenwert liegt bei etwa 0,25. An diesem Punkt ist ID-FA bereits deutlich, ID-CA aber noch nicht zu stark gesunken. Letztendlich kann die Entscheidung anwendungsspezifisch sein: Es ist abzuw\u00e4gen, wie sich falsche Annahmen im Vergleich zu zus\u00e4tzlichen Best\u00e4tigungsnachfragen auswirken.<\/p>\n<h4><strong>Ablehnungsschwellenwerte<\/strong><\/h4>\n<p>Die folgenden Hypothesenkategorien sind relevant f\u00fcr die Entscheidung \u00fcber den Schwellenwert, wenn jede Hypothese unterhalb des Schwellenwerts abgelehnt wird:<\/p>\n<ol>\n<li>Hypothese in Dom\u00e4ne, richtig und akzeptiert (ID-CA)<\/li>\n<li>Hypothese in Dom\u00e4ne, falsch und akzeptiert (ID-FA)<\/li>\n<li>Hypothese au\u00dferhalb der Dom\u00e4ne, richtig und abgelehnt (OOD-CR)<\/li>\n<li>Hypothese au\u00dferhalb der Dom\u00e4ne, falsch und abgelehnt\u00a0\u2013 das hei\u00dft, die Absicht h\u00e4tte als Hypothese aufgestellt werden sollen (OOD-FR)<\/li>\n<\/ol>\n<p>Von diesen Hypothesengruppen sind 1 und 3 richtig; 2 und 4 sind falsch. Das folgende Diagramm zeigt diese vier Werte f\u00fcr denselben Datensatz.[\/vc_column_text][vc_single_image image=&#8220;501389&#8243; css=&#8220;.vc_custom_1702312557429{margin-top: 1.0em !important;margin-bottom: 1.0em !important;}&#8220;][vc_column_text]Bei einem Ablehnungsschwellenwert von 0 werden sowohl \u201erichtig und akzeptiert\u201c als auch \u201efalsch und akzeptiert\u201c maximiert, \u201erichtig und abgelehnt\u201c und \u201efalsch und abgelehnt\u201c dagegen minimiert. Eine Erh\u00f6hung des Ablehnungsschwellenwerts auf 0,1 oder 0,2 w\u00fcrde \u201efalsch und akzeptiert\u201c reduzieren, w\u00e4hrend \u201erichtig und akzeptiert\u201c noch nicht steil abgefallen w\u00e4re.<\/p>\n<h3><strong>6. Der optimale Konfidenzschwellenwert unterscheidet sich von Engine zu Engine<\/strong><\/h3>\n<p>Engines f\u00fcr <a href=\"https:\/\/www.genesys.com\/blog\/post\/contact-center-ai-bridges-gaps-in-agent-and-customer-connections\" target=\"_blank\" rel=\"noopener\">dialogorientierte KI<\/a> berechnen den Konfidenzwert auf unterschiedliche Weise. Bei manchen Engines (zum Beispiel Engine A) liegen die Konfidenzwerte relativ gleichm\u00e4\u00dfig verteilt zwischen 0 und 1. Bei anderen sind sie in einem bestimmten Bereich konzentriert\u00a0\u2013 dadurch ver\u00e4ndert sich die Form ihres Schwellenwertgraphen. Das folgende Diagramm zeigt den Ablehnungsschwellenwert f\u00fcr eine andere Engine.[\/vc_column_text][vc_single_image image=&#8220;501390&#8243; css=&#8220;.vc_custom_1702312619378{margin-top: 1.0em !important;margin-bottom: 1.0em !important;}&#8220;][vc_column_text]Der Ablehnungsschwellenwert von Engine A (0,2) eignet sich offensichtlich nicht f\u00fcr Engine B, weil bei Engine B die falschen positiven Werte (ID-FA) an diesem Punkt noch recht hoch sind. In diesem Fall w\u00e4re 0,6 ein geeigneter Ablehnungsschwellenwert, bei dem ID-FA niedriger liegt, ohne dass zu viel ID-CA verloren geht. Zum Vergleich haben wir in der folgenden Abbildung beide Diagramme \u00fcbereinandergelegt.[\/vc_column_text][vc_single_image][vc_column_text]<\/p>\n<h3><strong>7. Der optimale Konfidenzschwellenwert kann sich im Laufe der Zeit \u00e4ndern<\/strong><\/h3>\n<p>Werden an einer Engine f\u00fcr dialogorientierte KI \u00c4nderungen vorgenommen, so kann sich dies auf die Verteilung der Konfidenzwerte f\u00fcr verschiedene Testf\u00e4lle auswirken. Daher sollten Sie gegebenenfalls den oben beschriebenen Konfidenztest wiederholen, um herauszufinden, ob Sie die Konfidenzschwellenwerte anpassen m\u00fcssen.<\/p>\n<h3><strong>8. Ein Schwellenwert passt nicht f\u00fcr alle F\u00e4lle<\/strong><\/h3>\n<p>Manche Bot-Frameworks sind f\u00fcr verschiedene NLU-Engines ausgelegt. Das l\u00e4sst einen Wechsel der Engine tr\u00fcgerisch leicht erscheinen. Pr\u00fcfen Sie Ihre Konfidenzschwellenwerte, bevor Sie die Engine wechseln. Die optimale Leistung erzielen Sie, wenn Sie auch nach der Erstellung eines neuen Bots die Konfidenzschwellenwerte testen\u00a0\u2013 selbst dann, wenn die NLU-Engine nicht gewechselt wurde. Bei verschiedenen Bots mit derselben Engine kann der optimale Schwellenwert unterschiedlich hoch sein. Lesen Sie den \u201e<a href=\"https:\/\/www.genesys.com\/de-de\/resources\/practical-guide-to-mastering-bots?ost_tool=blog&amp;ost_campaign=ft-blog\" target=\"_blank\" rel=\"noopener\">Praxisleitfaden zum Einsatz von Bots<\/a>\u201c, um mehr \u00fcber Best\u00a0Practices f\u00fcr die Bot-Entwicklung zu erfahren und zu verhindern, dass Fehlinterpretationen von Bots Ihre Kunden in die Irre f\u00fchren.[\/vc_column_text][\/vc_column][\/vc_row][\/vc_section]<\/p>\n<\/div>","protected":false},"excerpt":{"rendered":"<p>[vc_section full_width=&#8220;stretch_row&#8220;][vc_row][vc_column][vc_column_text][\/vc_column_text][vc_column_text]Als ein Schl\u00fcsselaspekt der\u00a0k\u00fcnstlichen Intelligenz (KI) \u00fcberbr\u00fcckt Natural Language Understanding (NLU) die L\u00fccke zwischen menschlicher Sprache und dem Verst\u00e4ndnisverm\u00f6gen von Computern. Bots, die nat\u00fcrliche Sprache verstehen, haben f\u00fcr Unternehmen mittlerweile gro\u00dfe strategische Bedeutung in Bezug auf die Customer\u00a0Experience. Das erste, was ein Bot verstehen muss, ist die Kundenabsicht. Wenn der Bot die Absicht richtig [&hellip;]<\/p>\n","protected":false},"author":954,"featured_media":501433,"template":"","tax_priority":[54],"tax_blogtype":[17746],"tax_blogcategory":[15930],"tax_contenttheme":[14884,14882],"tax_bundle":[],"tax_contenttheme2":[],"tax_capability_sitewide":[16219],"tax_products_programs":[16496],"tax_buying_job":[16788],"tax_buyer_persona":[16875,16898],"tax_sector":[],"tax_segment":[17118,17131,17077],"class_list":["post-505148","blog","type-blog","status-publish","has-post-thumbnail","hentry","tax_priority-54","tax_blogtype-genesys-de-de","tax_blogcategory-ai-and-machine-learning-de-de","tax_contenttheme-level-up-your-technology-de-de","tax_contenttheme-improve-customer-experience-de-de","tax_capability_sitewide-ai-and-automation-de-de","tax_products_programs-genesys-ai-de-de","tax_buying_job-job-7-product-adoption-de-de","tax_buyer_persona-business-de-de","tax_buyer_persona-technical-de-de","tax_segment-midsized-de-de","tax_segment-smb-de-de","tax_segment-enterprise-de-de","tax_content_type-blog-de-de"],"acf":[],"_links":{"self":[{"href":"https:\/\/www.genesys.com\/de-de\/wp-json\/wp\/v2\/blog\/505148","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.genesys.com\/de-de\/wp-json\/wp\/v2\/blog"}],"about":[{"href":"https:\/\/www.genesys.com\/de-de\/wp-json\/wp\/v2\/types\/blog"}],"author":[{"embeddable":true,"href":"https:\/\/www.genesys.com\/de-de\/wp-json\/wp\/v2\/users\/954"}],"version-history":[{"count":3,"href":"https:\/\/www.genesys.com\/de-de\/wp-json\/wp\/v2\/blog\/505148\/revisions"}],"predecessor-version":[{"id":515248,"href":"https:\/\/www.genesys.com\/de-de\/wp-json\/wp\/v2\/blog\/505148\/revisions\/515248"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.genesys.com\/de-de\/wp-json\/wp\/v2\/media\/501433"}],"wp:attachment":[{"href":"https:\/\/www.genesys.com\/de-de\/wp-json\/wp\/v2\/media?parent=505148"}],"wp:term":[{"taxonomy":"tax_priority","embeddable":true,"href":"https:\/\/www.genesys.com\/de-de\/wp-json\/wp\/v2\/tax_priority?post=505148"},{"taxonomy":"tax_blogtype","embeddable":true,"href":"https:\/\/www.genesys.com\/de-de\/wp-json\/wp\/v2\/tax_blogtype?post=505148"},{"taxonomy":"tax_blogcategory","embeddable":true,"href":"https:\/\/www.genesys.com\/de-de\/wp-json\/wp\/v2\/tax_blogcategory?post=505148"},{"taxonomy":"tax_contenttheme","embeddable":true,"href":"https:\/\/www.genesys.com\/de-de\/wp-json\/wp\/v2\/tax_contenttheme?post=505148"},{"taxonomy":"tax_bundle","embeddable":true,"href":"https:\/\/www.genesys.com\/de-de\/wp-json\/wp\/v2\/tax_bundle?post=505148"},{"taxonomy":"tax_contenttheme2","embeddable":true,"href":"https:\/\/www.genesys.com\/de-de\/wp-json\/wp\/v2\/tax_contenttheme2?post=505148"},{"taxonomy":"tax_capability_sitewide","embeddable":true,"href":"https:\/\/www.genesys.com\/de-de\/wp-json\/wp\/v2\/tax_capability_sitewide?post=505148"},{"taxonomy":"tax_products_programs","embeddable":true,"href":"https:\/\/www.genesys.com\/de-de\/wp-json\/wp\/v2\/tax_products_programs?post=505148"},{"taxonomy":"tax_buying_job","embeddable":true,"href":"https:\/\/www.genesys.com\/de-de\/wp-json\/wp\/v2\/tax_buying_job?post=505148"},{"taxonomy":"tax_buyer_persona","embeddable":true,"href":"https:\/\/www.genesys.com\/de-de\/wp-json\/wp\/v2\/tax_buyer_persona?post=505148"},{"taxonomy":"tax_sector","embeddable":true,"href":"https:\/\/www.genesys.com\/de-de\/wp-json\/wp\/v2\/tax_sector?post=505148"},{"taxonomy":"tax_segment","embeddable":true,"href":"https:\/\/www.genesys.com\/de-de\/wp-json\/wp\/v2\/tax_segment?post=505148"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}