Estrarre il testo semplice dal codice HTML in Java ~ L'Ingegnere Informatico

mercoledì 21 maggio 2014

Estrarre il testo semplice dal codice HTML in Java

12:33 html, java, jsoup, parsare html, parse html, testo da html, testo semplice da html, tipsandtricks No comments

Problema

Si ha dell'HTML in una stringa Java e si vuole estrarre il testo semplice escludendo il codice HTML.

Soluzione

Si può utilizzare una libreria Java di nome Jsoup (http://jsoup.org/) che permette di lavorare con l'HTML con estrema semplicità. Essa è in grado di:

Parsare HTML da un URL, File o stringa
Trovare e estrarre dati utilizzando il DOM o i selettori CSS
Manipolare elementi, attributi e testo

Per utilizzare questa libreria è sufficiente scaricare il file .jar da includere nel Class Path come External JAR (per Eclipse).

Nel caso del problema in oggetto, è utile fare un esempio. Avendo dell'html in una stringa:

String html = "<p>Un <a href='http://lingegnereinformatico.blogspot.it'><b>esempio</b></a> di recupero del solo testo.</p>";

Per ottenere "Un esempio di recupero del solo testo." è necessario utilizzare il codice:

String textOnly = Jsoup.parse(html).text();

0 commenti:

Posta un commento

Copyright © L'Ingegnere Informatico | Powered by Blogger
Design by Flythemes | Blogger Theme by NewBloggerThemes.com