Ottimizzazione della miscelazione dei fluidi con apprendimento per rinforzo
Rapporti scientifici volume 12, numero articolo: 14268 (2022) Citare questo articolo
2479 accessi
2 citazioni
103 Altmetrico
Dettagli sulle metriche
La miscelazione dei fluidi è fondamentale in vari processi industriali. In questo studio, concentrandosi sulle caratteristiche che l'apprendimento per rinforzo (RL) è adatto per l'ottimizzazione globale nel tempo, proponiamo di utilizzare RL per l'ottimizzazione della miscelazione dei fluidi di campi scalari passivi. Per il problema della miscelazione del fluido bidimensionale descritto dalle equazioni di avvezione-diffusione, un miscelatore addestrato realizza una miscelazione esponenzialmente veloce senza alcuna conoscenza preliminare. L'allungamento e la piegatura da parte del miscelatore addestrato attorno ai punti di ristagno sono essenziali per un processo di miscelazione ottimale. Inoltre, questo studio introduce un metodo di trasferimento di apprendimento fisicamente ragionevole del mixer addestrato: riutilizzare un mixer addestrato a un certo numero di Péclet per il problema di miscelazione a un altro numero di Péclet. Sulla base dei risultati di ottimizzazione della miscelazione laminare, discutiamo le applicazioni del metodo proposto a problemi di miscelazione industriale, inclusa la miscelazione turbolenta.
La miscelazione dei fluidi gioca un ruolo fondamentale in diversi processi industriali. Tuttavia, la maggior parte dei processi di miscelazione sono progettati empiricamente utilizzando metodi di prova ed errore attraverso esperimenti fisici, piuttosto che ottimizzazione matematica. Sebbene la turbolenza sia un "miscelatore efficace"1, in alcuni casi (ad esempio, un bioreattore o un miscelatore nei processi dell'industria alimentare), la miscelazione turbolenta non è appropriata perché forti flussi di taglio danneggiano i materiali da miscelare. Inoltre, sostenere flussi turbolenti nei micro-miscelatori è difficile a causa dei bassi numeri di Reynolds; ciò richiede una migliore miscelazione mediante flussi laminari. Pertanto, l'ottimizzazione della miscelazione mediante flussi laminari è cruciale. Diversi studi analitici hanno valutato l'efficienza dei protocolli di miscelazione laminare2,3,4,5, ad esempio, dimostrando i limiti esponenziali della velocità di miscelazione; tuttavia, la ricerca sui metodi di ottimizzazione costruttiva rimane limitata.
Questo studio propone un'ottimizzazione del mixaggio basata sull'apprendimento per rinforzo (RL) come metodo costruttivo. Per illustrare l'efficacia dell'algoritmo RL per l'ottimizzazione della miscelazione dei fluidi, riassumiamo innanzitutto la sua struttura matematica. L'algoritmo RL è formulato in termini del processo decisionale di Markov (MDP)6,7: \(M= \{ {S}, {A}, p_{0}, P, R\}\), dove S denota il insieme di stati, \({S}=\{s_1, \cdots s_{|{S}|} \}\); A denota l'insieme di azioni, \({A}=\{ a_{1}, \cdots a_{|{A}|} \}\); \(p_{0}\) denota la distribuzione di probabilità dello stato iniziale, \(p_{0}: {S} \rightarrow [0,1]\); P denota la probabilità di transizione, \(P: {S} \times {S}\times {A} \rightarrow [0,1]\); e R denota la funzione di ricompensa, \(R:{S} \times {A} \rightarrow \mathbb {R}\). Lo stato iniziale, \(s_{0}\), è determinato da \(p_{0}(\cdot )\), e nel passaggio successivo, lo stato è determinato dalla probabilità di transizione, \(P(\cdot |s_{0},a_{0})\), che richiede l'azione \(a_0\). L'azione è determinata dalla policy, \(\pi : {S} \rightarrow {A}\), come \(a=\pi (s)\). L'algoritmo RL è implementato per determinare la politica ottimale, \(\pi ^*\), per un dato MDP, che massimizza l'aspettativa della ricompensa cumulativa, \(\sum _{t=0}^{\infty } \ gamma ^{t} R_{t+1}\). Qui, \(\gamma \in (0,1)\) indica il fattore di sconto e \(R_{t+1}:=R(s_{t},a_{t})\).
L'algoritmo RL massimizza la ricompensa cumulativa (cioè globale nel tempo) piuttosto che la ricompensa istantanea, \(R_{t}\) (cioè locale nel tempo). Pertanto, è adatto a problemi di ottimizzazione globale nel tempo. Progettare protocolli di miscelazione efficienti è uno dei problemi di ottimizzazione globale nel tempo, poiché il campo scalare finale dipende dall'ordine temporale delle azioni nell'intero processo di miscelazione, che include lo stiramento e il ripiegamento dei flussi di fluido e il suo accoppiamento con la diffusione molecolare. Un esempio illustrativo è stato presentato in Questioni di storia di Villermaux8. Nonostante l’efficacia degli algoritmi RL nel risolvere una vasta gamma di problemi nella meccanica dei fluidi9,10,11, tra cui la fusione nucleare12 e la modellazione della turbolenza13, il problema della miscelazione dei fluidi rimane inesplorato.