GNGTS 2021 - Atti del 39° Convegno Nazionale

GNGTS 2021 S essione 3.3 496 Con il metodo proposto, i dati passeranno prima una fase di pre-processing; seguirà un processo di training della SOM e infine, sarà applicato l’algoritmo k -means sui pesi ottenuti dalla SOM, ottenendo alla fine un clustering nel dominio dello spazio. L’identificazione dei bordi delle sorgenti sarà in corrispondenza l’area di contatto di due classi. Caso sintetico Per capire il comportamento dell’intero processo, abbiamo eseguito un test su un caso sintetico caratterizzato dalla presenza di due faglie verticali. Abbiamo calcolato le trasformazioni del campo gravimetrico utili (Fig. 2a), dovuto dal modello in Fig. 2c. Il modello considerato ha una profondità di 3 km, con i primi 1.5 km rappresentati da sedimenti con una densità di 2.0 g/cm 3 . Il livello più profondo è suddiviso in tre corpi, rispettivamente da sinistra a destra, con densità di 2.7 g/cm 3 , 2.2 g/cm 3 e 2.7 g/cm 3 . Questa distribuzione dei corpi rappresenta, in maniera semplificata, due contatti verticali. Il profilo gravimetrico è lungo 300 km con un passo di 1 km. Poiché la SOM agisce su dataset multivariati, è necessario procedere con una normalizzazione dei dati in modo che l’apprendimento non sia dominato da una sola variabile (quella che ha la varianza maggiore), ma tutte le variabili abbiano la stessa influenza durante il training. Non esiste una regola che definisca quale sia la normalizzazione più corretta da utilizzare. È quindi legittimo utilizzare un metodo di normalizzazione che tenda a diminuire queste differenze in modo tale da aiutare l’algoritmo di apprendimento non supervisionato a riconoscere le stesse caratteristiche del campo appartenenti alla stessa sorgente geologica. In questo caso specifico abbiamo utilizzato la normalizzazione histogram equalization , in modo da equalizzare i contributi maggiori e minori all’interno del segnale. Gli iperparametri della SOM sono stati scelti dopo un’ottimizzazione su 50 differenti esperimenti e selezionando la rete con il CE più basso. L’architettura di rete include 84 neuroni (disposti su una mappa 12x7), con un learning rate che decresce da 0.1 a 0.01 a con un raggio della funzione di vicinato che parte da 6 e decresce fino a 1 nelle fasi finali del training. Una volta terminato il training della SOM, i pesi dei neuroni vengono utilizzati come input per l’algoritmo k -means. La Fig.1 mostra che l’indice Silhouette riporta come valore ottimale Fig. 2 - a) Dati di input. b) Risultati dell’UBA, dove il blu rappresenta la classe 1, il verde rappresenta la classe 2 e il giallo rappresenta la classe 3. c) Modello reale.