Announcement

tp · 28.08.2001, 08:23

Hi J�rgen,

h�rt sich ein bischen nach StringTokenizer an. Nur "a href" ?

Gr��e auch von der Elbe...

c

**Klaus Berg** · 28.08.2001, 09:00

Hallo J�rgen, 
ich parse HTML files mit dem StreamTokenizer. Das geht sehr gut, 
wenn man nicht auf gute Performance achten muss, da StreamTokenizer 
gem�ss einem Java Performance Buch "a severely underoptimzed class" ist.

Klau

**Hans-Christoph Schuckmann** · 28.08.2001, 09:47

Hallo,

f�r HTML-Parsen gibt es den javax.swing.text.html.HTMLEditorKit.Parser, dem ubergibt man dann einen HTMLEditor.ParserCallBack in der Methode parse(Reader, HTMLEditorKit.ParserCallBack,boolean).
Von dem ParserCallBack �berschreibt man die Methode handleStartTag(HTML.Tag t,MutableAttributeSet,int) .

HTMLEditorKit.Parser parser= new ParserDelegator();
Reader r = ...
ParserCallBack callBack=...
parser.parse(r,callBack, true);

class ...extends HTMLEditorKit.ParserCallBack{
..
public void handleStartTag(HTML.Tag t, MutableAttributeSet a, int pos) {
if(t.equals(HTML.Tag.A)){
a.getAttribute(HTML.Tag.HREF); //liefert Link
}
..

**Juergen Wolther** · 28.08.2001, 11:03

Guten Morgen,
WOW !!! Gleich 3 Reaktionen, das lob ich mir ;-)
Also erstmal vielen Dank f�r Eure Anregungen.

Thomas: Den String Tokenizer hatte ich als erstes im Auge, ist auch nicht schlecht und tut seinen Dienst relativ performant.

Klaus: Der StreamTokenizer ist etwas besser vom handling mit dem sowieso vorhandenen InputStream (irgendwoher m�ssen die Daten ja kommen ;-). Nur sind mir leider die Performanceprobleme dieser Klasse gestern Abend recht schmerzhaft bewusst geworden ;-)

Hans Christoph: Dein Vorschlag liest sich so schon 'spacig' und clever, und vor allem.... ich kenne diesen Weg noch nicht. Auf den ersten Blick sieht das ganze ganz sch�n fieselig aus, aber ich werde mal versuchen die Sache zu kapieren.

Tja, nun gibt es viel zu tun... coden wir es weg.

Gr�sse und nochmals vielen Dank

J�rge

**Juergen Wolther** · 28.08.2001, 15:33

Hi Hans Christoph,
so, nun sitze ich seit geraumer Zeit �ber Deiner L�sung und begreife garnichts mehr.

Also das Erste was schonmal garnicht geht: Es gibt kein HTML.Tag.HREF

schau mal in die Doku. Javac nimmt mir das Ding so nicht ab.
Und dann begreife ich nicht was nun was sein soll. Wo bitte sind denn dann am Ende meine Links ? Das ganze mit EditorToolKit, Parser und ParserCallBack bringt mich um den Verstand. Ich kann nicht herausfinden was nun f�r was zust�ndig ist.

Kannst Du f�r Klarheit sorgen ???

Gruss

J�rge

**Hans-Christoph Schuckmann** · 28.08.2001, 17:01

Hallo,

ich habe ein minimal Programm geschrieben (auch ausprobiert):
<pre>
import java.io.FileReader;
import java.io.IOException;
import javax.swing.text.html.HTMLEditorKit;
import javax.swing.text.html.HTML;
import javax.swing.text.html.parser.ParserDelegator;
import javax.swing.text.MutableAttributeSet;

class CallBack extends HTMLEditorKit.ParserCallback{

public void handleStartTag(HTML.Tag t, MutableAttributeSet a, int pos){
if(t.equals(HTML.Tag.A)){
String url=(String)a.getAttribute(HTML.Attribute.HREF);
System.out.println(url);
}
}

public static void main(String argc[]){
try{
ParserDelegator parser= new ParserDelegator();
FileReader reader=new FileReader(argc[0]);
CallBack callBack=new CallBack();
parser.parse(reader,callBack, true);
}catch(IOException e){
e.printStackTrace();
}
}
}
</pre>
Ich hoffe es hilft Dir weiter.
Hans-Christop

**Juergen Wolther** · 28.08.2001, 17:23

Hi Hans Christoph,
hat sich erledigt. Habe mir das irgendwie selbst rausgepfriemelt *STOLZBIN*

Du hattest allerdings oben (erstes Posting) HTML.Tag.HREF geschrieben und eigentlich war es HTML.Attribute.HREF

Aber nun funkt alles, und dank Deiner hilfe habe ich nun eine richtig smarte L�sung (ich mag sowas ;-).

Auf weiteres erfolgreiches Coden

J�rge

**Klaus Berg** · 28.08.2001, 19:44

Hi all,
schliesse mich der Meinung von J�rgen an: HTML parsen mit dem 
javax.swing.text.html.HTMLEditorKit.Parser ist auf jeden Fall die 
eleganteste L�sung und die mit dem besten Reuse-Faktor! �ber die 
Performance scheint nichts bekannt, aber ich habe in diesem Thread auch 
noch nichts Gegenteiliges geh�rt. Sch�n, wenn man wieder was dazu 
lernen kann!

Klau

**Juergen Wolther** · 28.08.2001, 21:36

Hi Klaus,
die Performance k�nnte nicht besser sein. Also der Parser macht richtig Spass, wenn man ersteinmal das Prinzip der ganzen Sache verstanden hat.
Tja, und lernen m�ssen wir Entwickler doch eh jeden Tag.

Also gehen wir's an

J�rge

Announcement

HTML lesen und parsen--- einfache Frage

HTML lesen und parsen--- einfache Frage

Comment

Comment

Comment

Comment

Comment

Comment

Comment

Comment

Comment