hallo,
ich stehe vor einem Problem:
Ich versuche derzeit mit dem Programm Webharvest 2.0 b1 (http://web-harvest.sourceforge.net/) Forenbeiträge zu extrahieren.
Das klappt alles super mit xpath und xquery.
Leider wird dabei automatisch jeglicher htmlcode entfernt.
Dadurch verschwinden auch eingebundene Grafiken und Links.
Dazu hab ich schon ein wenig mit fn:replace() herumgespielt, um per regex die a- und img-tags durch die in href bzw src stehenden URLs zu ersetzen.
Leider klappt dies nicht.
Hat dazu noch jemand Ideen?
ich stehe vor einem Problem:
Ich versuche derzeit mit dem Programm Webharvest 2.0 b1 (http://web-harvest.sourceforge.net/) Forenbeiträge zu extrahieren.
Das klappt alles super mit xpath und xquery.
Leider wird dabei automatisch jeglicher htmlcode entfernt.
Dadurch verschwinden auch eingebundene Grafiken und Links.
Dazu hab ich schon ein wenig mit fn:replace() herumgespielt, um per regex die a- und img-tags durch die in href bzw src stehenden URLs zu ersetzen.
Leider klappt dies nicht.
Hat dazu noch jemand Ideen?
Comment