Zurück   Entwickler-Forum > Java™ > Java™ für Anfänger

Antwort
 
Themen-Optionen Ansicht

HTML-Tags aus String entfernen
Alt 12.03.2010, 12:00   #1
neo_1
Zaungast
 
neo_1 ist offline
Registriert seit: 21.01.2009
Beiträge: 20
neo_1 befindet sich auf einem aufstrebenden Ast
Standard HTML-Tags aus String entfernen

hallo,

ich habe ein einfaches thema, glaub ich :-)
ich haben einen string der alle möglichen html tags beinhaltet. ich möchte gerne alle tags entfernen.

ich hab folgendes versucht, was keine wirkung hatte

string.replaceAll("|</br>||<font[^<]*>|</font>|<font />|||<b />|<a[^<]*>|</a>|<hr[^<]*>", "");

ich verstehe den ausdruck nicht. muss ich für jedes tag einen eintrag anlegen? und wenn ja wie?

danke und grüße
  Mit Zitat antworten

Anzeige

Alt 12.03.2010, 12:29   #2
Christian Marquardt
Forenheld
 
Christian Marquardt ist offline
Registriert seit: 26.02.2003
Beiträge: 9.279
Christian Marquardt befindet sich auf einem aufstrebenden Ast
Standard

http://www.fileformat.info/tool/regex.htm

Würde einen Ausdruck versuchen, der alles was zwischen <> steht entfernt
__________________
Christian

________________________________________
C-Ecke
  Mit Zitat antworten

Alt 12.03.2010, 12:33   #3
Christian Marquardt
Forenheld
 
Christian Marquardt ist offline
Registriert seit: 26.02.2003
Beiträge: 9.279
Christian Marquardt befindet sich auf einem aufstrebenden Ast
Standard

Auf die Schnelle versuch es mit

<[^>]*>
__________________
Christian

________________________________________
C-Ecke
  Mit Zitat antworten

Alt 12.03.2010, 12:40   #4
Bernhard Geyer
Forenheld
 
Bernhard Geyer ist offline
Registriert seit: 26.02.2003
Beiträge: 6.091
Bernhard Geyer befindet sich auf einem aufstrebenden Ast
Standard

ich würde das mit einem HTML-Parser nehmen. Dieser analysiert den text und du kannst dann über den DOM relativ einfach den "Nutztext" heraus finden. Für Java finden sich Parser wie Sand am Meer.
  Mit Zitat antworten

Regular Expression
Alt 12.03.2010, 12:42   #5
ngomo
Stammgast
 
ngomo ist offline
Registriert seit: 01.02.2004
Beiträge: 209
ngomo befindet sich auf einem aufstrebenden Ast
Standard Regular Expression

Hallo neo_1,
Zitat:
string.replaceAll("|</br>||<font[^<]*>|</font>|<font />|||<b />|<a[^<]*>|</a>|<hr[^<]*>", "");

ich verstehe den ausdruck nicht. muss ich für jedes tag einen eintrag anlegen? und wenn ja wie?
Der Ausdruck ist eine Regular Expression. Infos dazu gibts hier: http://java.sun.com/javase/6/docs/ap...ttern.html#sum und hier: http://www.regular-expressions.info/

Und hier gibts eine Regular Expression, die html tags matcht. Das ist glaube ich, was Du suchst:http://www.regular-expressions.info/examples.html

Gruß ngomo
__________________
http://www.winfonet.eu
  Mit Zitat antworten

Alt 12.03.2010, 12:49   #6
Christian Marquardt
Forenheld
 
Christian Marquardt ist offline
Registriert seit: 26.02.2003
Beiträge: 9.279
Christian Marquardt befindet sich auf einem aufstrebenden Ast
Standard

Zitat:
Zitat von ngomo Beitrag anzeigen
Und hier gibts eine Regular Expression, die html tags matcht. Das ist glaube ich, was Du suchst:http://www.regular-expressions.info/examples.html

Gruß ngomo
Wollte er nicht das Gegenteil -> eben keine Tags??
__________________
Christian

________________________________________
C-Ecke
  Mit Zitat antworten

Alt 12.03.2010, 13:57   #7
neo_1
Zaungast
 
neo_1 ist offline
Registriert seit: 21.01.2009
Beiträge: 20
neo_1 befindet sich auf einem aufstrebenden Ast
Standard

hallo an alle,

super, danke das geholfen :-)

<[^>]*>

grüße
  Mit Zitat antworten

Alt 12.03.2010, 14:26   #8
ngomo
Stammgast
 
ngomo ist offline
Registriert seit: 01.02.2004
Beiträge: 209
ngomo befindet sich auf einem aufstrebenden Ast
Standard

Zitat:
Zitat von Christian Marquardt Beitrag anzeigen
Wollte er nicht das Gegenteil -> eben keine Tags??
Ja genau, und deswegen braucht er in replaceAll eine Regex die tags matcht...
__________________
http://www.winfonet.eu
  Mit Zitat antworten
Antwort

Lesezeichen

Themen-Optionen
Ansicht

Forumregeln
Es ist Ihnen nicht erlaubt, neue Themen zu verfassen.
Es ist Ihnen nicht erlaubt, auf Beiträge zu antworten.
Es ist Ihnen nicht erlaubt, Anhänge hochzuladen.
Es ist Ihnen nicht erlaubt, Ihre Beiträge zu bearbeiten.

BB-Code ist an.
Smileys sind an.
[IMG] Code ist an.
HTML-Code ist aus.

Gehe zu



Alle Zeitangaben in WEZ +2. Es ist jetzt 08:11 Uhr.



© 1995–2009 Software & Support Verlag GmbH. Vervielfältigung nur mit Genehmigung des Verlags.