Problema
Si ha dell'HTML in una stringa Java e si vuole estrarre il testo semplice escludendo il codice HTML.
Si può utilizzare una libreria Java di nome Jsoup (http://jsoup.org/) che permette di lavorare con l'HTML con estrema semplicità. Essa è in grado di:
- Parsare HTML da un URL, File o stringa
- Trovare e estrarre dati utilizzando il DOM o i selettori CSS
- Manipolare elementi, attributi e testo
Per utilizzare questa libreria è sufficiente scaricare il file .jar da includere nel Class Path come External JAR (per Eclipse).
Nel caso del problema in oggetto, è utile fare un esempio. Avendo dell'html in una stringa:
String html = "<p>Un <a href='http://lingegnereinformatico.blogspot.it'><b>esempio</b></a> di recupero del solo testo.</p>";
Per ottenere "Un esempio di recupero del solo testo." è necessario utilizzare il codice:
0 commenti:
Posta un commento