Announcement

Collapse
No announcement yet.

Automatische Indexierung von Texten aus diversen Webseiten in einen MS SQL Server

Collapse
X
  • Filter
  • Time
  • Show
Clear All
new posts

  • Automatische Indexierung von Texten aus diversen Webseiten in einen MS SQL Server

    Hallo an alle Experten:-)

    Ich hätte da eine Frage, die mich zuzeit beschäftigt:

    Ist es möglich Texte aus diversen Webseiten automatisch in einen MS SQL Server zu indexieren und anschließend z.B. als Volltext suchbar zu machen?

    Vielen Dank schonmal für die Antworten.

    Viele Grüße

  • #2
    Hallo,

    prinzipiell Ja! Die Frage ist eher, was du unter "automatisch" verstehst.

    Gruß Falk
    Wenn du denkst du hast alle Bugs gefunden, dann ist das ein Bug in deiner Denksoftware.

    Quellcode ohne ein Mindestmaß an Formatierung sehe ich mir nicht an! Ich leiste keinen Privatsupport per Mail oder PN!

    Comment


    • #3
      Hallo Falk,

      das klingt ja schonmal gut. Also mit automatisch meine ich, dass er ein Dokument indexiert und gleichzeitig mit einem statistischem Verfahren z.B. die Worthäufigkeit zählt und das Ganze dann verschlagwortet.

      Viele Grüße

      Comment


      • #4
        Woher sollte die DB das koennen. Dieses musst du programieren
        Christian

        Comment


        • #5
          Ein VolltextIndex ist darauf ausgelegt Wörter, Phrasen in Dokumenten wiederzufinden. Irgendwelche statistischen Informationen die dazu unnötig sind wie zum Beispiel Worthäufigkeit werden nicht erhoben. Wäre nur überflüssiger Overhead.

          Wenn du die Statistiken selbst erheben willst hätten die dann aber nix mit dem VolltextIndex der DB gemein außer du programmierst denn auch selbst und nach einem Verfahren das deinen Statistiken irgendeine Aussagekraft bezüglich des Indexes erlaubt. Ansonsten haben Statitiken nichts mit einem Index gemein.

          Comment


          • #6
            Und wie würde dann so eine automatische Indexierung funktionieren? Sind dafür spezielle Plug-In nötig?

            Comment


            • #7
              Irgendwie wird heir m.E. das Pferd von hinten aufgezäumt. Ziel soll es sein, Webseiten zu indizieren.
              - Dazu wird es doch ein Liste von Seiten geben oder einen Art Crawler.
              - Jedenfalls kommt irgendwann mal HTML-Quellstext an. Dieser muss anaylsiert werden. Sollen alle Wörter erfasst werden? Füllwörter weg? Satzteile? Nur eine bestimmte Menge?? Nur aus bestimmten Tags?
              - Nach der Analyse werden die gewünschten Wörter/Satzteile in die DB geschrieben und mit der URL verknüpft.

              Bei den Punkten 1 & 2 sehe ich keine Beteiligung einer DB. Hier sollte eine entsprechende Sprache genutzt werden, die einen komfortablen HTTP-Client anbietet.
              Dann kann man sich über das Datenbankmodell Gedanken machen und wie ein Index am Besten erzeugt wird
              Christian

              Comment

              Working...
              X