{"id":533411,"date":"2023-12-12T14:19:07","date_gmt":"2023-12-12T22:19:07","guid":{"rendered":"https:\/\/www.genesys.com\/blog\/post\/set-bot-confidence-thresholds"},"modified":"2024-12-18T15:02:05","modified_gmt":"2024-12-18T23:02:05","slug":"set-bot-confidence-thresholds","status":"publish","type":"blog","link":"https:\/\/www.genesys.com\/es-mx\/blog\/post\/set-bot-confidence-thresholds","title":{"rendered":"Establecer umbrales de confianza de los bots"},"content":{"rendered":"<div class=\"wpb-content-wrapper\"><p>[vc_section full_width=&#8221;stretch_row&#8221;][vc_row][vc_column][vc_column_text css=&#8221;&#8221;]Como aspecto clave de la\u00a0<a href=\"https:\/\/www.genesys.com\/es-mx\/capabilities\/ai-and-automation\" target=\"_blank\" rel=\"noopener\">inteligencia artificial (IA)<\/a>, la comprensi\u00f3n del lenguaje natural (NLU) salva la distancia entre c\u00f3mo hablan las personas y lo que entienden los ordenadores.<\/p>\n<p>Los bots que entienden el lenguaje natural han entrado con fuerza en las estrategias de experiencia del cliente de las empresas. Lo primero que debe entender un bot es la intenci\u00f3n del cliente. Si el <a href=\"https:\/\/www.genesys.com\/blog\/post\/optimizing-your-bot-an-ai-love-story\" target=\"_blank\" rel=\"noopener\">capta bien la intenci\u00f3n<\/a>, sigue su alegre camino para ayudar al cliente a resolver el problema por s\u00ed mismo. Sin embargo, a veces, el sistema NLU no est\u00e1 muy seguro de la intenci\u00f3n que detecta. Es entonces cuando se pide al usuario que confirme lo que el bot ha detectado como intenci\u00f3n, o que reformule su intenci\u00f3n.<\/p>\n<p>Veamos el uso de los umbrales de confianza y las trampas de utilizarlos sin una comprensi\u00f3n adecuada de sus efectos sobre la eficacia del bot.<\/p>\n<p>Cuando un modelo NLU devuelve una hip\u00f3tesis sobre la intenci\u00f3n de un enunciado, viene con una puntuaci\u00f3n de confianza. Veamos a fondo qu\u00e9 significa esta puntuaci\u00f3n.[\/vc_column_text][\/vc_column][\/vc_row][vc_row][vc_column][vc_column_text css=&#8221;&#8221;]<\/p>\n<div id=\"\" class=\"article-section\">\n<div class=\"article-section-part\">\n<div class=\"part-text\">\n<div class=\"text-content\">\n<h2 class=\"h3\">1. Qu\u00e9 <em>es<\/em> una puntuaci\u00f3n de confianza<\/h2>\n<\/div>\n<\/div>\n<\/div>\n<\/div>\n<div id=\"confidence-score-overview\" class=\"article-section\">\n<div class=\"article-section-part\">\n<div class=\"part-text\">\n<div class=\"text-content\">\n<p>Cuando un <a href=\"https:\/\/www.genesys.com\/blog\/post\/cx-is-still-at-the-tip-of-the-conversational-ai-iceberg\" target=\"_blank\" rel=\"noopener\">sistema de IA conversacional<\/a> asigna un valor de &#8220;confianza&#8221; a su respuesta, el t\u00e9rmino se utiliza en su sentido cotidiano. Es simplemente una medida de la confianza que tiene el sistema en esa hip\u00f3tesis. El valor puede parecer un valor de probabilidad, pero la suma de los valores de confianza de un conjunto de hip\u00f3tesis probablemente no sea 1.<\/p>\n<h2 class=\"h3\">2. Qu\u00e9 <em>n<\/em><em>o<\/em> es una puntuaci\u00f3n de confianza<\/h2>\n<p>No confundas el t\u00e9rmino &#8220;puntuaci\u00f3n de confianza&#8221; con &#8220;confianza&#8221;, ya que se utiliza en estad\u00edstica cuando se describen los resultados observados de una serie de pruebas. En estad\u00edstica, un\u00a0<em>intervalo de confianza<\/em>\u00a0del 95% es el rango en el que cae el 95% de los valores de salida. Pero nuestro significado de confianza es diferente.<\/p>\n<p>Una puntuaci\u00f3n de confianza tambi\u00e9n puede confundirse con la &#8220;probabilidad&#8221; de que una hip\u00f3tesis sea correcta, porque la mayor\u00eda de los motores NLU dan valores de confianza entre 0,0 y 1,0. Pero tampoco es probabilidad.<\/p>\n<h2 class=\"h3\">3. Qu\u00e9 pueden revelar las puntuaciones de confianza<\/h2>\n<p>Una buena forma de caracterizar el rendimiento de un sistema de IA es ver c\u00f3mo funciona con distintos umbrales de confianza. Establecer un umbral de confianza en 0 significa que permitir\u00eda todas las hip\u00f3tesis, correctas o incorrectas, independientemente de su puntuaci\u00f3n de confianza. Establecerlo en 1 significa que rechazar\u00eda todas las hip\u00f3tesis (a menos que el motor devuelva a veces una puntuaci\u00f3n de confianza de 1). Un umbral de confianza ideal eliminar\u00eda el mayor n\u00famero posible de hip\u00f3tesis incorrectas, sin eliminar muchas hip\u00f3tesis correctas. Un m\u00e9todo para hallar ese punto es dibujar una curva ROC (curva de caracter\u00edsticas operativas del receptor) que represente gr\u00e1ficamente los verdaderos positivos frente a los falsos positivos con distintos umbrales de confianza, como se muestra en esta figura.<\/p>\n<\/div>\n<\/div>\n<\/div>\n<\/div>\n<p>[\/vc_column_text][vc_single_image image=&#8221;501386&#8243; css=&#8221;.vc_custom_1702312205889{margin-top: 1.0em !important;margin-bottom: 1.0em !important;}&#8221;][vc_column_text css=&#8221;&#8221;]En la esquina inferior izquierda de este gr\u00e1fico, con 0 verdaderos y 0 falsos positivos, se muestra el umbral de confianza m\u00e1s alto. La parte superior derecha muestra el umbral m\u00e1s bajo. Entre ambos se encuentra el punto \u00f3ptimo en el que se maximizan los verdaderos positivos y se minimizan los falsos positivos.<\/p>\n<p>Las curvas ROC, como la anterior, son \u00fatiles para los sistemas clasificadores binarios. Pero un\u00a0<a href=\"https:\/\/www.genesys.com\/capabilities\/voicebots\" target=\"_blank\" rel=\"noopener\">motor NLU<\/a>\u00a0que predice la intenci\u00f3n de un enunciado es un sistema multiclase. Y, para complicar a\u00fan m\u00e1s las cosas, el sistema debe evaluarse por lo bien que maneja las entradas fuera del dominio, o &#8220;verdaderos negativos&#8221;. Para obtener esa informaci\u00f3n, tenemos que ver los resultados de forma diferente para que se adapten al\u00a0<em>tipo<\/em>\u00a0espec\u00edfico de umbral de confianza que queramos utilizar.<\/p>\n<h2 class=\"h3\"><strong>4. Tipos de umbrales de confianza<\/strong><\/h2>\n<p>Un motor NLU puede utilizar dos tipos de umbrales de confianza al informar sobre hip\u00f3tesis:<\/p>\n<p><strong>Umbral de confirmaci\u00f3n<\/strong>: Si la puntuaci\u00f3n de confianza de la hip\u00f3tesis de mayor intenci\u00f3n est\u00e1 por debajo de este nivel, el bot pedir\u00e1 al usuario que confirme que la hip\u00f3tesis es correcta.<\/p>\n<p><strong>Umbral de rechazo<\/strong>: Si la puntuaci\u00f3n de confianza est\u00e1 por debajo de este nivel, el bot pedir\u00e1 al usuario que reformule la entrada.<\/p>\n<p><em>Un tercer uso de las puntuaciones de confianza ser\u00eda detectar cu\u00e1ndo la hip\u00f3tesis superior es apenas superior a la que ocupa el 2\u00ba lugar, en cuyo caso el bot podr\u00eda pedir al usuario que seleccionara entre ellas.<\/em><\/p>\n<h2 class=\"h3\"><strong>5. Selecci\u00f3n de un umbral eficaz<\/strong><\/h2>\n<p>La mejor forma de encontrar un buen umbral para un bot es alimentarlo con un conjunto de datos de prueba que hayan sido anotados con valores de realidad de campo. Luego, debes inspeccionar la salida con el umbral de confianza establecido en diferentes niveles. Como los umbrales de confirmaci\u00f3n y los umbrales de rechazo tienen finalidades distintas, tendr\u00e1s que evaluarlos por separado.<\/p>\n<h3 class=\"h4\"><strong>Umbrales de confirmaci\u00f3n<\/strong><\/h3>\n<p>Estas cuatro categor\u00edas de hip\u00f3tesis son relevantes para un umbral de confirmaci\u00f3n:<\/p>\n<ol>\n<li>Hip\u00f3tesis en el dominio, correcta y aceptada sin preguntar (ID-CA)<\/li>\n<li>Hip\u00f3tesis en el dominio, correcta y confirmada por el usuario cuando se le pregunta (ID-CC)<\/li>\n<li>Hip\u00f3tesis en el dominio, falsa y aceptada sin preguntar (ID-FA)<\/li>\n<li>Hip\u00f3tesis en el dominio, falsa y rechazada por el usuario cuando se le pregunta (ID-FR)<\/li>\n<\/ol>\n<p><strong>Nota:<\/strong> De estos grupos de hip\u00f3tesis, el 1 es el mejor caso; el 3 es el peor; el 2 y el 4 est\u00e1n entre ambos. Esto se debe a que puede resultar molesto para el usuario tener que responder constantemente a los avisos de confirmaci\u00f3n, pero sigue siendo preferible a aceptar una respuesta incorrecta.<\/p>\n<p>El siguiente gr\u00e1fico muestra esos cuatro valores para un conjunto de datos de muestra en cada incremento de 0,1 entre 0 y 1,0 de confianza.[\/vc_column_text][vc_single_image image=&#8221;501388&#8243; css=&#8221;.vc_custom_1702312519862{margin-top: 1.0em !important;margin-bottom: 1.0em !important;}&#8221;][vc_column_text css=&#8221;&#8221;]El gr\u00e1fico muestra que, si el umbral de confirmaci\u00f3n se establece en 0, se maximizar\u00e1n tanto las aceptaciones correctas (mejores) como las falsas (peores). Si el umbral de confirmaci\u00f3n se eleva a 0,8, casi no habr\u00e1 errores (aceptaciones falsas), pero el usuario tendr\u00e1 que responder a los avisos de confirmaci\u00f3n m\u00e1s de la mitad de las veces.<\/p>\n<p>El ajuste ideal para este umbral podr\u00eda estar en torno a 0,25, donde la ID-FA ha disminuido significativamente pero la ID-CA a\u00fan no ha descendido demasiado. En \u00faltima instancia, la decisi\u00f3n podr\u00eda ser espec\u00edfica de la aplicaci\u00f3n: sopesar lo malo que son las falsas aceptaciones frente a lo malo que es hacer que el usuario responda a una pregunta adicional.<\/p>\n<h3 class=\"h4\"><strong>Umbrales de rechazo<\/strong><\/h3>\n<p>Estas son las categor\u00edas de hip\u00f3tesis que son relevantes para decidir un umbral si se rechaza toda hip\u00f3tesis por debajo del umbral:<\/p>\n<ol>\n<li>Hip\u00f3tesis en el dominio, correcta y aceptada (ID-CA)<\/li>\n<li>Hip\u00f3tesis en el dominio, falsa y aceptada (ID-FA)<\/li>\n<li>Hip\u00f3tesis fuera del dominio, correcta y rechazada (OOD-CR)<\/li>\n<li>Hip\u00f3tesis fuera del dominio, falsa y rechazada, es decir, se deber\u00eda haber planteado la hip\u00f3tesis de una intenci\u00f3n (OOD-FR)<\/li>\n<\/ol>\n<p>De estos grupos de hip\u00f3tesis, 1 y 3 son correctas; 2 y 4 son incorrectas. El gr\u00e1fico siguiente muestra esos cuatro valores para el mismo conjunto de datos.[\/vc_column_text][vc_single_image image=&#8221;501389&#8243; css=&#8221;.vc_custom_1702312557429{margin-top: 1.0em !important;margin-bottom: 1.0em !important;}&#8221;][vc_column_text css=&#8221;&#8221;]Si el umbral de rechazo se establece en 0, se maximizar\u00e1n tanto las aceptaciones correctas como las falsas, mientras que se minimizar\u00e1n los rechazos correctos y los falsos. Aumentar el umbral de rechazo a 0,1 o 0,2 reducir\u00eda las aceptaciones falsas antes de que las aceptaciones correctas disminuyan de forma m\u00e1s pronunciada.<\/p>\n<h2 class=\"h3\"><strong>6. Los umbrales de confianza \u00f3ptimos difieren de un motor a otro<\/strong><\/h2>\n<p>Los motores de <a href=\"https:\/\/www.genesys.com\/blog\/post\/contact-center-ai-bridges-gaps-in-agent-and-customer-connections\" target=\"_blank\" rel=\"noopener\">IA conversacional<\/a> var\u00edan en la forma de calcular las puntuaciones de confianza. Algunos, como el motor A, tienden a producir hip\u00f3tesis con valores de confianza distribuidos de forma bastante uniforme entre 0 y 1. Para otros, las puntuaciones de confianza se agrupan mayoritariamente dentro de un determinado rango, y eso cambia la forma de sus gr\u00e1ficos de umbral. El siguiente gr\u00e1fico muestra el umbral de rechazo de un motor diferente.[\/vc_column_text][vc_single_image image=&#8221;501390&#8243; css=&#8221;.vc_custom_1702312619378{margin-top: 1.0em !important;margin-bottom: 1.0em !important;}&#8221;][vc_column_text]Utilizar el umbral de rechazo del motor A (0,2) claramente no funcionar\u00eda para el motor B, ya que el motor B tiene falsos positivos (ID-FA) que todav\u00eda son bastante altos en ese punto. En este caso, 0,6 ser\u00eda un umbral de rechazo razonable, que permitir\u00eda reducir la ID-FA sin sacrificar demasiado la ID-CA. A continuaci\u00f3n se muestran los mismos gr\u00e1ficos superpuestos para facilitar la comparaci\u00f3n.[\/vc_column_text][vc_single_image][vc_column_text css=&#8221;&#8221;]<\/p>\n<h2 class=\"h3\"><strong>7. Los umbrales de confianza \u00f3ptimos podr\u00edan cambiar con el tiempo<\/strong><\/h2>\n<p>Los cambios en un motor de IA conversacional pueden afectar a la forma en que se distribuyen sus puntuaciones de confianza entre los casos de prueba. Ten en cuenta esa posibilidad y vuelve a ejecutar este tipo de prueba de umbral para determinar si necesitas ajustar los umbrales de confianza.<\/p>\n<h2 class=\"h3\"><strong>8. Un tama\u00f1o de umbral no sirve para todo<\/strong><\/h2>\n<p>Algunos entornos de bots est\u00e1n dise\u00f1ados para trabajar con varios motores NLU, lo que puede hacer que parezca enga\u00f1osamente f\u00e1cil cambiar de motor. Antes de cambiar de motor, prueba tus umbrales de confianza.<\/p>\n<p>Para obtener el mejor rendimiento posible, te recomendamos que pruebes los umbrales de confianza despu\u00e9s de crear un nuevo bot, aunque no cambies de motor NLU. Distintos bots que utilicen el mismo motor pueden tener distintos umbrales \u00f3ptimos.<\/p>\n<p>Lee la <a href=\"\/es-mx\/resources\/practical-guide-to-mastering-bots?ost_tool=blog&amp;ost_campaign=ft-blog\" target=\"_blank\" rel=\"noopener\">gu\u00eda pr\u00e1ctica para dominar los bots<\/a>\u00a0para conocer m\u00e1s pr\u00e1cticas recomendadas para crear bots y asegurarte de que tus golpes de bot no llevan a los clientes a callejones sin salida.[\/vc_column_text][\/vc_column][\/vc_row][\/vc_section]<\/p>\n<\/div>","protected":false},"excerpt":{"rendered":"<p>[vc_section full_width=&#8221;stretch_row&#8221;][vc_row][vc_column][vc_column_text css=&#8221;&#8221;]Como aspecto clave de la\u00a0inteligencia artificial (IA), la comprensi\u00f3n del lenguaje natural (NLU) salva la distancia entre c\u00f3mo hablan las personas y lo que entienden los ordenadores. Los bots que entienden el lenguaje natural han entrado con fuerza en las estrategias de experiencia del cliente de las empresas. Lo primero que debe entender [&hellip;]<\/p>\n","protected":false},"author":954,"featured_media":346864,"template":"","tax_priority":[54],"tax_blogtype":[17753],"tax_blogcategory":[15938],"tax_contenttheme":[14932,14934],"tax_bundle":[],"tax_contenttheme2":[],"tax_capability_sitewide":[16212],"tax_products_programs":[16494],"tax_buying_job":[16782],"tax_buyer_persona":[16889,16921],"tax_sector":[],"tax_segment":[17090,17111,17127],"class_list":["post-533411","blog","type-blog","status-publish","has-post-thumbnail","hentry","tax_priority-54","tax_blogtype-genesys-es-mx","tax_blogcategory-ai-and-machine-learning-es-mx","tax_contenttheme-improve-customer-experience-es-mx","tax_contenttheme-level-up-your-technology-es-mx","tax_capability_sitewide-ai-and-automation-es-mx","tax_products_programs-genesys-ai-es-mx","tax_buying_job-job-7-product-adoption-es-mx","tax_buyer_persona-business-es-mx","tax_buyer_persona-technical-es-mx","tax_segment-enterprise-es-mx","tax_segment-midsized-es-mx","tax_segment-smb-es-mx","tax_content_type-blog-es-mx"],"acf":[],"_links":{"self":[{"href":"https:\/\/www.genesys.com\/es-mx\/wp-json\/wp\/v2\/blog\/533411","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.genesys.com\/es-mx\/wp-json\/wp\/v2\/blog"}],"about":[{"href":"https:\/\/www.genesys.com\/es-mx\/wp-json\/wp\/v2\/types\/blog"}],"author":[{"embeddable":true,"href":"https:\/\/www.genesys.com\/es-mx\/wp-json\/wp\/v2\/users\/954"}],"version-history":[{"count":10,"href":"https:\/\/www.genesys.com\/es-mx\/wp-json\/wp\/v2\/blog\/533411\/revisions"}],"predecessor-version":[{"id":551675,"href":"https:\/\/www.genesys.com\/es-mx\/wp-json\/wp\/v2\/blog\/533411\/revisions\/551675"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.genesys.com\/es-mx\/wp-json\/wp\/v2\/media\/346864"}],"wp:attachment":[{"href":"https:\/\/www.genesys.com\/es-mx\/wp-json\/wp\/v2\/media?parent=533411"}],"wp:term":[{"taxonomy":"tax_priority","embeddable":true,"href":"https:\/\/www.genesys.com\/es-mx\/wp-json\/wp\/v2\/tax_priority?post=533411"},{"taxonomy":"tax_blogtype","embeddable":true,"href":"https:\/\/www.genesys.com\/es-mx\/wp-json\/wp\/v2\/tax_blogtype?post=533411"},{"taxonomy":"tax_blogcategory","embeddable":true,"href":"https:\/\/www.genesys.com\/es-mx\/wp-json\/wp\/v2\/tax_blogcategory?post=533411"},{"taxonomy":"tax_contenttheme","embeddable":true,"href":"https:\/\/www.genesys.com\/es-mx\/wp-json\/wp\/v2\/tax_contenttheme?post=533411"},{"taxonomy":"tax_bundle","embeddable":true,"href":"https:\/\/www.genesys.com\/es-mx\/wp-json\/wp\/v2\/tax_bundle?post=533411"},{"taxonomy":"tax_contenttheme2","embeddable":true,"href":"https:\/\/www.genesys.com\/es-mx\/wp-json\/wp\/v2\/tax_contenttheme2?post=533411"},{"taxonomy":"tax_capability_sitewide","embeddable":true,"href":"https:\/\/www.genesys.com\/es-mx\/wp-json\/wp\/v2\/tax_capability_sitewide?post=533411"},{"taxonomy":"tax_products_programs","embeddable":true,"href":"https:\/\/www.genesys.com\/es-mx\/wp-json\/wp\/v2\/tax_products_programs?post=533411"},{"taxonomy":"tax_buying_job","embeddable":true,"href":"https:\/\/www.genesys.com\/es-mx\/wp-json\/wp\/v2\/tax_buying_job?post=533411"},{"taxonomy":"tax_buyer_persona","embeddable":true,"href":"https:\/\/www.genesys.com\/es-mx\/wp-json\/wp\/v2\/tax_buyer_persona?post=533411"},{"taxonomy":"tax_sector","embeddable":true,"href":"https:\/\/www.genesys.com\/es-mx\/wp-json\/wp\/v2\/tax_sector?post=533411"},{"taxonomy":"tax_segment","embeddable":true,"href":"https:\/\/www.genesys.com\/es-mx\/wp-json\/wp\/v2\/tax_segment?post=533411"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}