{"id":515803,"date":"2024-05-21T18:00:06","date_gmt":"2024-05-22T01:00:06","guid":{"rendered":"https:\/\/www.genesys.com\/blog\/post\/set-bot-confidence-thresholds"},"modified":"2024-05-31T07:45:16","modified_gmt":"2024-05-31T14:45:16","slug":"set-bot-confidence-thresholds","status":"publish","type":"blog","link":"https:\/\/www.genesys.com\/it-it\/blog\/post\/set-bot-confidence-thresholds","title":{"rendered":"Confidenza dei bot: capire e impostare le soglie"},"content":{"rendered":"<div class=\"wpb-content-wrapper\"><p>[vc_section full_width=&#8221;stretch_row&#8221;][vc_row][vc_column][vc_column_text][\/vc_column_text][vc_column_text css=&#8221;&#8221;]Aspetto chiave dell&#8217;<a href=\"https:\/\/www.genesys.com\/it-it\/capabilities\/genesys-ai\" target=\"_blank\" rel=\"noopener\">intelligenza artificiale (AI)<\/a>, la comprensione del linguaggio naturale (NLU) colma il divario tra il modo in cui le persone parlano e ci\u00f2 che i computer capiscono. I bot che comprendono il linguaggio naturale hanno compiuto notevoli passi avanti nelle strategie dedicate alla Customer Experience. La prima cosa che un bot deve cogliere \u00e8 l&#8217;intento del cliente. Se il <a href=\"https:\/\/www.genesys.com\/blog\/post\/optimizing-your-bot-an-ai-love-story\" target=\"_blank\" rel=\"noopener\">bot lo comprende correttamente<\/a>, avvicina il cliente alla risoluzione del problema in modalit\u00e0 self-service. Tuttavia, a volte succede che il sistema NLU non sia molto certo dell&#8217;intento rilevato. \u00c8 allora che all&#8217;utente viene chiesto di confermare ci\u00f2 che il bot ha individuato o di riformularlo. Esaminiamo quindi l&#8217;utilizzo delle soglie di confidenza e le insidie legate al loro utilizzo in assenza di una corretta comprensione del loro impatto sull&#8217;efficacia del bot. Di fatto, quando un modello NLU restituisce un&#8217;ipotesi per l&#8217;intento di un enunciato, ad essa viene associato un punteggio di confidenza. Analizziamone il significato.[\/vc_column_text][\/vc_column][\/vc_row][vc_row][vc_column][vc_column_text css=&#8221;&#8221;]<\/p>\n<div id=\"\" class=\"article-section\">\n<div class=\"article-section-part\">\n<div class=\"part-text\">\n<div class=\"text-content\">\n<h3>1. Che cosa <em>\u00e8<\/em> un punteggio di confidenza<\/h3>\n<\/div>\n<\/div>\n<\/div>\n<\/div>\n<div id=\"confidence-score-overview\" class=\"article-section\">\n<div class=\"article-section-part\">\n<div class=\"part-text\">\n<div class=\"text-content\">\n<p>Quando un <a href=\"https:\/\/www.genesys.com\/it-it?post_type=blog&amp;p=498792\" target=\"_blank\" rel=\"noopener\">sistema di intelligenza artificiale conversazionale<\/a> attribuisce un valore di &#8220;confidenza&#8221; alla sua risposta, il termine \u00e8 utilizzato nella sua accezione comune. Si tratta semplicemente di una misura del livello di confidenza del sistema rispetto a tale ipotesi. Il valore potrebbe essere simile a uno di probabilit\u00e0, ma la somma dei valori di confidenza per un insieme di ipotesi non corrisponde probabilmente a 1.<\/p>\n<h3>2. Che cosa <em>n<\/em><em>on<\/em> \u00e8 un punteggio di confidenza<\/h3>\n<p>Non confondere il termine &#8220;punteggio di confidenza&#8221; con il termine &#8220;confidenza&#8221; utilizzato in statistica quando si descrivono i risultati osservati in una serie di test. In statistica, un\u00a0<em>intervallo di confidenza<\/em>\u00a0del 95% \u00e8 l&#8217;intervallo in cui rientra il 95% dei valori di output. Ma il nostro significato del termine &#8220;confidenza&#8221; \u00e8 diverso. Un punteggio di confidenza potrebbe anche essere confuso con la &#8220;probabilit\u00e0&#8221; che un&#8217;ipotesi sia corretta, poich\u00e9 la maggior parte dei motori NLU producono valori di confidenza compresi tra 0,0 e 1,0. Ma non si tratta nemmeno di probabilit\u00e0.<\/p>\n<h3>3. Che cosa possono rivelare i punteggi di confidenza<\/h3>\n<p>Un valido modo per caratterizzare le prestazioni di un sistema di intelligenza artificiale \u00e8 osservane le prestazioni rispetto a varie soglie di confidenza. Una soglia di confidenza impostata su 0 significa che accetter\u00e0 tutte le ipotesi, corrette o non corrette, indipendentemente dal loro punteggio di confidenza. Se impostata su 1 significa che rifiuter\u00e0 tutte le ipotesi (a meno che il motore non restituisca a volte un punteggio di confidenza pari a 1). Una soglia di confidenza ideale elimina il maggior numero possibile di ipotesi non corrette, senza eliminare tante ipotesi corrette. Un metodo per trovare tale punto consiste nel disegnare una curva ROC (Receiver Operating Characteristic) che rappresenti graficamente i veri positivi rispetto ai falsi positivi rispetto a varie soglie di confidenza, come mostrato in questa figura.<\/p>\n<\/div>\n<\/div>\n<\/div>\n<\/div>\n<p>[\/vc_column_text][vc_single_image image=&#8221;501386&#8243; css=&#8221;.vc_custom_1702312205889{margin-top: 1.0em !important;margin-bottom: 1.0em !important;}&#8221;][vc_column_text]Nell&#8217;angolo in basso a sinistra di questo grafico, con 0 veri positivi e 0 falsi positivi, si trova la soglia di confidenza pi\u00f9 alta. L&#8217;angolo in alto a destra indica la soglia pi\u00f9 bassa. Il punto ottimale in cui i veri positivi sono massimizzati e i falsi positivi sono ridotti al minimo si trova tra questi due estremi. Le curve ROC, come quella riportata sopra, sono utili per i sistemi classificatori binari. Ma un\u00a0<a href=\"https:\/\/www.genesys.com\/it-it\/capabilities\/voicebot\" target=\"_blank\" rel=\"noopener\">motore NLU<\/a>\u00a0che predice l&#8217;intento di un enunciato \u00e8 un sistema multiclasse. Inoltre, per complicare ulteriormente le cose, il sistema deve essere valutato in base alla sua capacit\u00e0 di gestire correttamente l&#8217;input fuori dominio, ovvero i &#8220;veri negativi&#8221;. Per ottenere queste informazioni, dobbiamo visualizzare i risultati in modo diverso, cos\u00ec da essere adatti al\u00a0<em>tipo<\/em> specifico di soglia di confidenza che vogliamo utilizzare.<\/p>\n<h3><strong>4. Tipi di soglie di confidenza<\/strong><\/h3>\n<p>Quando segnala le ipotesi un motore NLU pu\u00f2 utilizzare due tipi di soglie di confidenza: <strong>Soglia di conferma<\/strong>: se il punteggio di confidenza dell&#8217;ipotesi di intento principale \u00e8 inferiore a questo livello, il bot chiede all&#8217;utente di confermare che l&#8217;ipotesi \u00e8 corretta. <strong>Soglia di rifiuto<\/strong>: se il punteggio di confidenza \u00e8 inferiore a questo livello, il bot chiede all&#8217;utente di riformulare l&#8217;input. <em>Un terzo utilizzo dei punteggi di confidenza consiste nel rilevare se l&#8217;ipotesi principale \u00e8 di poco superiore a quella al 2\u00b0 posto, nel qual caso il bot pu\u00f2 chiedere all&#8217;utente di scegliere fra le due.<\/em><\/p>\n<h3><strong>5. Selezione di una soglia efficace<\/strong><\/h3>\n<p>Il modo migliore per trovare una valida soglia per un bot consiste nel fornire ad esso un insieme di dati di test che sono stati annotati con valori di ground truth e quindi esaminare l&#8217;output con la soglia di confidenza impostata a livelli diversi. Poich\u00e9 le soglie di conferma e le soglie di rifiuto hanno finalit\u00e0 diverse, devi valutarle separatamente.<\/p>\n<h4><strong>Soglie di conferma<\/strong><\/h4>\n<p>Per una soglia di conferma sono pertinenti queste quattro categorie di ipotesi:<\/p>\n<ol>\n<li>Ipotesi nel dominio, corretta e accettata senza richiesta (ID-CA)<\/li>\n<li>Ipotesi nel dominio, corretta e confermata dall&#8217;utente dopo richiesta (ID-CC)<\/li>\n<li>Ipotesi nel dominio, falsa e accettata senza richiesta (ID-FA)<\/li>\n<li>Ipotesi nel dominio, falsa e rifiutata dall&#8217;utente dopo richiesta (ID-FR)<\/li>\n<\/ol>\n<p><strong>Nota:<\/strong> di questi gruppi di ipotesi, il n. 1 \u00e8 il caso migliore; il n. 3 \u00e8 il peggiore; il 2 e il 4 sono tra i due estremi. Questo perch\u00e9 potrebbe essere fastidioso per l&#8217;utente dover costantemente rispondere alle richieste di conferma, ma comunque preferibile rispetto all&#8217;accettazione di una risposta non corretta. Il grafico seguente mostra questi quattro valori per un set di dati di esempio a ogni incremento di 0,1 tra i valori di confidenza 0 e 1,0.[\/vc_column_text][vc_single_image image=&#8221;501388&#8243; css=&#8221;.vc_custom_1702312519862{margin-top: 1.0em !important;margin-bottom: 1.0em !important;}&#8221;][vc_column_text]Il grafico mostra che, se la soglia di conferma \u00e8 impostata su 0, le accettazioni di ipotesi corrette (caso migliore) e le accettazioni di ipotesi false (caso peggiore) saranno entrambe massimizzate. Se la soglia di conferma viene portata a 0,8, non ci saranno quasi errori (accettazioni di ipotesi false), ma all&#8217;utente verr\u00e0 domandato di rispondere alle richieste di conferma per oltre la met\u00e0 del tempo. L&#8217;impostazione ideale di questa soglia potrebbe essere intorno a 0,25, dove il gruppo ID-FA si \u00e8 notevolmente ridotto ma quello ID-CA non \u00e8 ancora troppo calato. In definitiva, la decisione potrebbe essere specifica dell&#8217;applicazione: quanto siano deleterie le accettazioni di ipotesi false, rispetto a quanto sia deleterio obbligare l&#8217;utente a rispondere a un&#8217;altra domanda.<\/p>\n<h4><strong>Soglie di rifiuto<\/strong><\/h4>\n<p>Sono le categorie di ipotesi pertinenti per decidere una soglia se ogni ipotesi al di sotto di essa viene rifiutata:<\/p>\n<ol>\n<li>Ipotesi nel dominio, corretta e accettata (ID-CA)<\/li>\n<li>Ipotesi nel dominio, falsa e accettata (ID-FA)<\/li>\n<li>Ipotesi fuori dominio, rifiutata correttamente (OOD-CR)<\/li>\n<li>Ipotesi fuori dominio, rifiutata erroneamente, ovvero l&#8217;intento avrebbe dovuto essere ipotizzato (OOD-FR)<\/li>\n<\/ol>\n<p>Di questi gruppi di ipotesi, il n. 1 e il n. 3 sono corretti; il n. 2 e il n. 4 non sono corretti. Il grafico seguente mostra questi quattro valori per lo stesso set di dati.[\/vc_column_text][vc_single_image image=&#8221;501389&#8243; css=&#8221;.vc_custom_1702312557429{margin-top: 1.0em !important;margin-bottom: 1.0em !important;}&#8221;][vc_column_text]Se la soglia di rifiuto \u00e8 impostata su 0, sia le accettazioni di ipotesi corrette che le accettazioni di ipotesi false saranno massimizzate, mentre i rifiuti corretti ed erronei saranno ridotti al minimo. L&#8217;aumento della soglia di rifiuto a 0,1 o 0,2 ridurrebbe le accettazioni di ipotesi false prima della discesa pi\u00f9 ripida delle accettazioni di ipotesi corrette.<\/p>\n<h3><strong>6. Le soglie di confidenza ottimali variano a seconda dei motori<\/strong><\/h3>\n<p>I motori di <a href=\"https:\/\/www.genesys.com\/blog\/post\/contact-center-ai-bridges-gaps-in-agent-and-customer-connections\" target=\"_blank\" rel=\"noopener\">intelligenza artificiale conversazionale<\/a> calcolano i punteggi di confidenza in modo diverso. Alcuni, come il motore A, tendono a produrre ipotesi con valori di confidenza distribuiti abbastanza uniformemente tra 0 e 1. Per altri, i punteggi di confidenza sono per lo pi\u00f9 raggruppati all&#8217;interno di un certo intervallo, modificando la forma dei loro grafici di soglia. Il grafico seguente mostra la soglia di rifiuto per un altro motore.[\/vc_column_text][vc_single_image image=&#8221;501390&#8243; css=&#8221;.vc_custom_1702312619378{margin-top: 1.0em !important;margin-bottom: 1.0em !important;}&#8221;][vc_column_text]Chiaramente, l&#8217;utilizzo della soglia di rifiuto del motore A (0,2) non funzionerebbe per il motore B, poich\u00e9 quest&#8217;ultimo presenta falsi positivi (ID-FA) che sono ancora piuttosto alti a tale punto. In questo caso, 0,6 sarebbe una soglia di rifiuto ragionevole, consentendo alle ipotesi ID-FA di diminuire senza troppo sacrificare le ipotesi ID-CA. Per facilitare il confronto, di seguito sono riportati gli stessi grafici sovrapposti.[\/vc_column_text][vc_single_image][vc_column_text]<\/p>\n<h3><strong>7. Le soglie di confidenza ottimali possono cambiare nel tempo<\/strong><\/h3>\n<p>Le modifiche apportate a un motore di intelligenza artificiale conversazionale possono influire sul modo in cui i suoi punteggi di confidenza vengono distribuiti tra i casi di test. Tieni presente questa possibilit\u00e0 ed esegui nuovamente questo tipo di test di soglia per determinare se occorre regolare le soglie di confidenza.<\/p>\n<h3><strong>8. Un valore di soglia non \u00e8 adatto a tutte le situazioni<\/strong><\/h3>\n<p>Alcuni framework di bot sono progettati per funzionare con pi\u00f9 motori NLU, il che potrebbe far sembrare ingannevolmente facile passare da un motore all&#8217;altro. Prima di un cambio di motore, testa le tue soglie di confidenza. Per ottenere le migliori prestazioni possibili, consigliamo di testare le soglie di confidenza dopo la creazione di un nuovo bot, anche se non cambi i motori NLU. Bot diversi che utilizzano lo stesso motore possono avere soglie ottimali diverse. Leggi la &#8220;<a href=\"https:\/\/www.genesys.com\/it-it\/resources\/practical-guide-to-mastering-bots?ost_tool=blog&amp;ost_campaign=ft-blog\" target=\"_blank\" rel=\"noopener\">Guida pratica al governo dei bot<\/a>&#8221; per sapere di pi\u00f9 sulle best practice per la creazione di bot e per assicurarti che i tuoi bot non conducano i clienti in vicoli ciechi.[\/vc_column_text][\/vc_column][\/vc_row][\/vc_section]<\/p>\n<\/div>","protected":false},"excerpt":{"rendered":"<p>[vc_section full_width=&#8221;stretch_row&#8221;][vc_row][vc_column][vc_column_text][\/vc_column_text][vc_column_text css=&#8221;&#8221;]Aspetto chiave dell&#8217;intelligenza artificiale (AI), la comprensione del linguaggio naturale (NLU) colma il divario tra il modo in cui le persone parlano e ci\u00f2 che i computer capiscono. I bot che comprendono il linguaggio naturale hanno compiuto notevoli passi avanti nelle strategie dedicate alla Customer Experience. La prima cosa che un bot deve [&hellip;]<\/p>\n","protected":false},"author":954,"featured_media":501433,"template":"","tax_priority":[54],"tax_blogtype":[17750],"tax_blogcategory":[15948],"tax_contenttheme":[14942,14944],"tax_bundle":[],"tax_contenttheme2":[],"tax_capability_sitewide":[16213],"tax_products_programs":[16474],"tax_buying_job":[16783],"tax_buyer_persona":[16890,16920],"tax_sector":[],"tax_segment":[17083,17101,17137],"class_list":["post-515803","blog","type-blog","status-publish","has-post-thumbnail","hentry","tax_priority-54","tax_blogtype-genesys-it-it","tax_blogcategory-ai-and-machine-learning-it-it","tax_contenttheme-improve-customer-experience-it-it","tax_contenttheme-level-up-your-technology-it-it","tax_capability_sitewide-ai-and-automation-it-it","tax_products_programs-genesys-ai-it-it","tax_buying_job-job-7-product-adoption-it-it","tax_buyer_persona-business-it-it","tax_buyer_persona-technical-it-it","tax_segment-enterprise-it-it","tax_segment-midsized-it-it","tax_segment-smb-it-it"],"acf":[],"_links":{"self":[{"href":"https:\/\/www.genesys.com\/it-it\/wp-json\/wp\/v2\/blog\/515803","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.genesys.com\/it-it\/wp-json\/wp\/v2\/blog"}],"about":[{"href":"https:\/\/www.genesys.com\/it-it\/wp-json\/wp\/v2\/types\/blog"}],"author":[{"embeddable":true,"href":"https:\/\/www.genesys.com\/it-it\/wp-json\/wp\/v2\/users\/954"}],"version-history":[{"count":6,"href":"https:\/\/www.genesys.com\/it-it\/wp-json\/wp\/v2\/blog\/515803\/revisions"}],"predecessor-version":[{"id":520630,"href":"https:\/\/www.genesys.com\/it-it\/wp-json\/wp\/v2\/blog\/515803\/revisions\/520630"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.genesys.com\/it-it\/wp-json\/wp\/v2\/media\/501433"}],"wp:attachment":[{"href":"https:\/\/www.genesys.com\/it-it\/wp-json\/wp\/v2\/media?parent=515803"}],"wp:term":[{"taxonomy":"tax_priority","embeddable":true,"href":"https:\/\/www.genesys.com\/it-it\/wp-json\/wp\/v2\/tax_priority?post=515803"},{"taxonomy":"tax_blogtype","embeddable":true,"href":"https:\/\/www.genesys.com\/it-it\/wp-json\/wp\/v2\/tax_blogtype?post=515803"},{"taxonomy":"tax_blogcategory","embeddable":true,"href":"https:\/\/www.genesys.com\/it-it\/wp-json\/wp\/v2\/tax_blogcategory?post=515803"},{"taxonomy":"tax_contenttheme","embeddable":true,"href":"https:\/\/www.genesys.com\/it-it\/wp-json\/wp\/v2\/tax_contenttheme?post=515803"},{"taxonomy":"tax_bundle","embeddable":true,"href":"https:\/\/www.genesys.com\/it-it\/wp-json\/wp\/v2\/tax_bundle?post=515803"},{"taxonomy":"tax_contenttheme2","embeddable":true,"href":"https:\/\/www.genesys.com\/it-it\/wp-json\/wp\/v2\/tax_contenttheme2?post=515803"},{"taxonomy":"tax_capability_sitewide","embeddable":true,"href":"https:\/\/www.genesys.com\/it-it\/wp-json\/wp\/v2\/tax_capability_sitewide?post=515803"},{"taxonomy":"tax_products_programs","embeddable":true,"href":"https:\/\/www.genesys.com\/it-it\/wp-json\/wp\/v2\/tax_products_programs?post=515803"},{"taxonomy":"tax_buying_job","embeddable":true,"href":"https:\/\/www.genesys.com\/it-it\/wp-json\/wp\/v2\/tax_buying_job?post=515803"},{"taxonomy":"tax_buyer_persona","embeddable":true,"href":"https:\/\/www.genesys.com\/it-it\/wp-json\/wp\/v2\/tax_buyer_persona?post=515803"},{"taxonomy":"tax_sector","embeddable":true,"href":"https:\/\/www.genesys.com\/it-it\/wp-json\/wp\/v2\/tax_sector?post=515803"},{"taxonomy":"tax_segment","embeddable":true,"href":"https:\/\/www.genesys.com\/it-it\/wp-json\/wp\/v2\/tax_segment?post=515803"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}