Announcement

Collapse
No announcement yet.

Xquery Links durch URLs ersetzen

Collapse
X
  • Filter
  • Time
  • Show
Clear All
new posts

  • Xquery Links durch URLs ersetzen

    hallo,

    ich stehe vor einem Problem:
    Ich versuche derzeit mit dem Programm Webharvest 2.0 b1 (http://web-harvest.sourceforge.net/) Forenbeiträge zu extrahieren.

    Das klappt alles super mit xpath und xquery.
    Leider wird dabei automatisch jeglicher htmlcode entfernt.
    Dadurch verschwinden auch eingebundene Grafiken und Links.

    Dazu hab ich schon ein wenig mit fn:replace() herumgespielt, um per regex die a- und img-tags durch die in href bzw src stehenden URLs zu ersetzen.

    Leider klappt dies nicht.

    Hat dazu noch jemand Ideen?

  • #2
    Ich kenne das Tool Webharvest nicht, aber das Resultat eines XPath-Ausdruckes kann ja jeder Knoten in Eingabedokument sein, XQuery kann sogar neue Knoten erzeugen, also leuchtet mit nicht ein, dass die Benutzung von XPath oder XQuery grundsätzlich dazu führen soll, das HTML-Elemente wie Links oder Bilder entfernt werden.
    Eventuell fragst du einfach in http://sourceforge.net/projects/web-harvest/forums nach, wie/ob man das Tool für deine Zwecke benutzen kann.

    Comment


    • #3
      Dort habe ich bereits - als snaggletooth - geschrieben, dass bei der Ausgabe jeglicher html-code entfernt wird - nur antwortet niemand.

      Außerdem möchte ich diese nicht entfernen, sondern ersetzen, wie man meinem Beitrag entnehmen kann. Wozu soll die Funktion fn:replace() sonst dienen, als mit XQuery strings zu ersetzen?

      Auch zielte meine Frage keineswegs darauf ab, dass ich neue Knoten einfügen will.

      Ob mein Vorhaben Sinn ergibt oder nicht ist vollkommen egal.

      Ich möchte nur wissen, ob dies möglich ist und wenn ja wie.

      Comment

      Working...
      X