Progettiamo con Uipath copilot e agenti robotici automatizzati

Proviamo a costruire un sistema di comunicazione per dare informazioni ai nostri clienti su dati (procedure e dati personali) presenti nella nostra azienda. Rispondiamo vocalmente simulando la voce di un nostro collaboratore. Attiviamo ( se superata la fase autorizzativa) , su richiesta, l’invio di email o altra documentazione in automatico .

Nel video (in alto a sinistra) invio un whatsapp al telefono abilitato.
Il messaggio ricevuto dal whatsapp web del telefono gateway (in basso a sinistra) viene rimbalzato al processo in uipath orchestrator per la gestione degli eventi (lato destro dello schermo).
La risposta inviata in automatico da cellulare predisposto in atto ripete il testo del messaggio . Ma nei prossimi articoli:
– l’architetto della soluzione ci darà i modelli AS-IS e TO-BE del nostro progetto assisterà il cliente nella definizione del progetto e dei modelli di test
– L’analista della soluzione ci dirà quali strumernti informatici usa il cliente (immaginario) e come realmente utilizza gli strumenti di cui si è dotato
– Sceglieremo un modello LLM
– Lo addestreremo a rispondere sulle attività del cliente e attiveremo l’autoapprendimento del medesimo
– Risponderemo anche con messaggi vocali creando un modello vocale di un personaggio famoso
– Attiveremo Uipath copilot per inviare email su richiesta o altre attività aziendali in modo automatico
– Attiveremo gli agenti di uipath per compiere attività agentiche.

Scopo del progetto

Qualche giorno fa, mi sono ritrovato nello studio di un amico avvocato. Una chiacchierata informale, ma che ha portato alla luce una problematica interessante: molti dei suoi clienti preferiscono contattarlo direttamente su WhatsApp, bypassando il personale dedicato alla gestione delle informazioni. Questo comportamento crea non poche difficoltà nella circolazione delle informazioni e nella gestione condivisa delle attività all’interno dello studio legale.​

Partendo da questo esempio concreto, ho pensato di sviluppare una serie di articoli per affrontare e risolvere questo tipo di problematiche. E non solo nel contesto legale, ma in vari settori dove la comunicazione efficiente è fondamentale. Pensiamo, ad esempio, alle relazioni con i clienti fidelity di una grande distribuzione organizzata (GDO), dove offerte e promozioni personalizzate possono fare la differenza. Oppure alla gestione degli ordini in un’attività di ristorazione, dove una comunicazione fluida tra il banco vendita e la cucina è essenziale per garantire un servizio di qualità.​

L’idea è quella di realizzare soluzioni funzionanti e applicabili in diversi ambiti. Al termine di questo percorso, metteremo a disposizione un numero WhatsApp dedicato, (dotato dell’automatismo che andremo a progettare) attraverso il quale sarà possibile richiedere informazioni sugli articoli, spiegazioni dettagliate sui singoli step e chiedere l’invio dei documenti di sviluppo. Questo strumento sarà utile non solo per le aziende, ma anche per i consulenti informatici che vorranno implementare queste soluzioni nei propri contesti lavorativi.​

WhatsApp è solo uno dei tanti ambiti in cui queste metodologie possono essere applicate. Pensiamo, ad esempio, all’analisi delle email in arrivo: automatizzare la classificazione e la risposta può far risparmiare tempo prezioso. Oppure alla preparazione e all’invio di documenti in uscita, dove l’automazione garantisce precisione e velocità. Senza dimenticare le attività operative ripetitive e dispendiose in termini di tempo sui sistemi informatici, che possono essere eseguite automaticamente, liberando risorse per compiti più strategici.

Il nostro obiettivo non è quello di creare un percorso riservato agli addetti ai lavori. Cercheremo di semplificare le problematiche tecniche, concentrandoci sulla logica e sulle opportunità offerte da strumenti come WhatsApp integrato con sistemi di automazione. Alla fine di ogni articolo, affronteremo anche l’aspetto dei costi: dall’implementazione, ai giorni uomo necessari per lo sviluppo, fino ai canoni da sottoscrivere. Perché, si sa, l’adozione di nuovi strumenti passa anche attraverso la consapevolezza dei risparmi in termini di efficienza lavorativa e riduzione delle ore di lavoro del personale.​

In conclusione, questo percorso mira a offrire soluzioni pratiche e realizzabili per migliorare la gestione delle comunicazioni e delle informazioni in diversi settori, sfruttando al meglio le potenzialità offerte dalle tecnologie RPA moderne.

Costruiamo un connettore su un cellulare dotato di whatsapp

Molti anni fa, ho avuto il privilegio di partecipare come tester a un progetto ambizioso: la creazione di un connettore tra WhatsApp e Dialogflow. Durante questa esperienza di cui ringrazio ancora il collega promotore, seppur non conoscendo i dettagli tecnici esatti, ho potuto formulare alcune ipotesi intriganti. Si ipotizza che WhatsApp abbia implementato un sistema per facilitare il passaggio di intent tra terze parti come Dialogflow, utilizzando comunicazioni tra diversi prodotti attraverso chiamate server conformi a protocolli e procedure ben definiti. Utilizzando Tasker, un’app per dispositivi Android, ho tentato di intercettare i parametri di sessione necessari per avviare comunicazioni con i server WhatsApp con oggetti esposti a tasker presenti nell’app WhatsApp Business, operando all’interno di una comunicazione già in corso. Secondo questa ipotesi, tale processo in Tasker sarebbe in grado di gestire solo risposte testuali, escludendo immagini e file audio, mentre manipola e ritrasmette parametri e risposte all’interno dell’ambiente utente. In pratica, questo implica l’intercettazione delle chiamate, il loro instradamento a un server web PHP e il ritorno di un JSON con il testo di risposta elaborato alla sessione aperta.

Invio dati ad Uipath orchestrator

Una volta ricevuti i messaggi sul server web, è fondamentale inviare correttamente i dati a UiPath Orchestrator. Questo processo implica la serializzazione dei dati in un formato compatibile e l’utilizzo delle API di Orchestrator per avviare i processi appropriati. L’autenticazione e l’autorizzazione sono componenti cruciali in questa fase, garantendo che solo le richieste valide possano interagire con Orchestrator.

🔄 1. Ricezione dei messaggi sul server web

Il server web funge da punto di ingresso per eventi o dati provenienti da fonti esterne (ad esempio webhook, applicazioni, o sistemi legacy). Questi messaggi contengono le informazioni che dovranno poi essere elaborate da un processo UiPath.

🧾 2. Serializzazione dei dati

Prima di inviare i dati a Orchestrator, è necessario:

  • Estrarre i dati rilevanti dal messaggio ricevuto
  • Serializzarli in JSON, che è il formato accettato dall’API REST di UiPath
  • Eventualmente convertirli in input arguments se il processo in Orchestrator richiede variabili in input
🔐 3. Autenticazione verso Orchestrator

Le API di UiPath Orchestrator richiedono un token JWT o un access token OAuth 2.0. I passaggi comuni sono:

  • Effettuare una chiamata di login all’endpoint /api/account/authenticate (per versioni precedenti) o usare OAuth (più moderno)
  • Ricevere un token di accesso
  • Includere questo token nell’header Authorization: Bearer <token> per tutte le chiamate successive
▶️ 4. Avvio del processo in Orchestrator

Una volta autenticati, puoi avviare un processo usando l’endpoint:

POST /odata/Jobs/UiPath.Server.Configuration.OData.StartJobs

Nel payload, devi specificare:

  • Il nome del processo o il Release Key
  • L’Environment name o Robot ID
  • Gli input arguments (se richiesti dal workflow)
📥 5. – Assegnazione della Conversazione alla Coda di Lavoro

La conversazione, una volta arrivata nel cloud di Orchestrator, viene affidata da un apposito processo alla propria coda di lavoro, per la successiva elaborazione e per fini statistici.

Costi

Allora, partiamo da una cosa fondamentale: serve un ambiente UiPath, che può essere on-premise o cloud. anche la versione community — quindi roba gestibile, nulla di proibitivo.
Nel caso di un ambiente comunity i costi sono nulli ma lo sviluppo complessivo del progetto non sarebbe pienamente possibile.

Poi, rispetto alle API ufficiali di WhatsApp o a soluzioni tipo Twilio, qui siamo messi bene: zero costi di consumo per le chiamate ricevute e gestite. Sì, hai capito bene: niente tariffe a consumo.

L’unica spesa vera che ci troviamo davanti è Tasker, l’app che fa da coltellino svizzero su Android. Costa circa 10 euro una tantum — roba onesta.

C’è poi una piccola questione tecnica: bisogna mettere tre file PHP su un server web. Se già hai un sito aziendale, perfetto, te la cavi senza problemi. Se invece non hai nulla, un hosting base ti costa sui 50 euro l’anno. E anche qui, niente di esagerato.

Ultimo punto: implementazione. Qui dipende tutto da quanto è complesso il processo che vuoi automatizzare, ma mediamente parliamo di 1-2 giornate uomo. Roba fattibile, insomma per questo pezzettino di progetto.

Nel prossimo articolo tecnico entriamo nel vivo: si parla di LLM, cioè dei modelli linguistici di nuova generazione. Vedremo che scelte fare in termini di privacy, come gestire i dati e soprattutto come fare fine tuning in modo intelligente, senza reinventare la ruota ogni volta.

Ma non finisce qui! Sempre nel prossimo capitolo andremo a implementare il modello linguistico e partirà l’addestramento vero e proprio. Roba tosta, ma spiegata come si deve.

Insomma, tanta carne al fuoco, come piace a noi, per semplificare le cose complesse e portarci un passo più vicini a qualcosa di davvero figo.

Torna in alto