Announcement

Collapse
No announcement yet.

Alle Links auslesen

Collapse
X
  • Filter
  • Time
  • Show
Clear All
new posts

  • Alle Links auslesen

    Hi,

    also ich grad das Problem, dass auf manchen Seiten der Inhalt ja durch Javascript verändert wird, bzw. dass sich Frames auf einer Seite befinden.
    Wenn man mit der Webbrowser-Komponente document.outerhtml ausliest, steht dort immernoch der Javascript-Quellcode. nehmen wir folgendes Beispiel an:
    HTML Code:
    <script type="text/javascript">document.write("<a href='");
    document.write("http://google.de");
    document.write("'>G</a>");
    </script>
    Stellen wir uns vor, aus diesem Quelltext müssten wir den Link extrahieren. Wir würden scheitern. Gäbe es aber eine Möglichkeit von dem obigen Script zu folgendem Quelltext zu kommen: <a href='http://google.de'>G</a> (also nach Ausführung des Javascriptes), könnte man den Link ganz einfach extrahieren.
    Dasselbe gilt für iFrames. Wenn die so aussehen:
    HTML Code:
    <iframe src="http://....de"></iframe>
    Bekommt man auch das nicht ausgelesen. Nun hatte ich bei diesem Problem versucht, einfach den Quelltext under src auszulesen, jedoch bekomme ich da als Rückgabe: "Error 400 Ungültige Anforderung".

    Nach 2 Tagen Google und Überlegungen bitt ich nun euch um Hilfe.
    mfg Holger91

  • #2
    Geh doch einfach das Links-Property des HTMl-Dokuments durch

    Comment


    • #3
      Das war meine erste Idee, jedoch werden Links, die erst mit Javascript geschrieben werden und Links, die in iFrames stecken damit nicht erkannt. Deshalb suche ich ja nach einem anderen Weg.

      Comment

      Working...
      X