Announcement

Collapse
No announcement yet.

Volltextsuche

Collapse
X
  • Filter
  • Time
  • Show
Clear All
new posts

  • Volltextsuche

    Hallo,

    hat jemand Erfahrung in Sachen Volltextsuche in pdf-files?
    Wenn ja, ich benötige da etwas hilfe...

    Danke


    Gruß

  • #2
    Hallo,

    wenn die Suche auf Rechnern ausgeführt werden soll, auf denen mindestens Windows 2000 Professional läuft, wäre der Indexdienst von Windows eine eigenete Stelle. Das Adope PDF Filter 6.0 (ifilter60.exe) steht kostenfrei zur Verfügung. Wenn es auf dem Rechner installiert wurde, kann der Indexdienst auch PDF-Dokumente indizieren.

    Für den Indexdienst gibt es in MDAC (gehört ab Windows 2000 zum Betriebssystem dazu) den Microsoft OLE DB Provider for Indexing Services, so dass SQL-Abfragen auf die Kataloge des Indexdienstes möglich sind. Da der Indexdienst alle Dokumente im Hintergrund automatisch indiziert, ist eine Auswertung unabhängig von der Menge und Größe der PDF-Dokumente sehr schnell.

    Comment


    • #3
      Hallo Andreas,

      danke für die ausführliche Antwort.
      Ich benötige die Suche aber leider online (webanwendung)...

      Ist die ifilter60 von Adobe auch webtauglich?

      Gruß

      Comment


      • #4
        Was willst du genau online machen?
        Die PDF-Dokumente liegen ja beim Server auch auf dem Dateisystem. Und wenns ein Windows-Rechner ist kann du ja u.U. dort den Index erzeugen.

        Comment


        • #5
          Hy,

          ein Kunde hat Manuals von seinem Produkt auf irgend einem Webserver liegen.
          Kunden können nun diese Manuals downloaden.

          Problem:
          Es sind mittlerweile ca. 3000 pdf-files mit jeweils um die 300 Seiten.
          Nun kann der Kunde auf gut Glück sich eine Datei downloaden, um bei einer langsamen Internetverbindung irgendwann festzustellen, dass es das falsche war.

          Also brauch ich eine Webanwendung, in der man gewisse Filter setzen kann, die pdf-files durchsuchen kann und mir anschliessend ein Index erstellt wird...

          Comment


          • #6
            Hallo,

            Ist die ifilter60 von Adobe auch webtauglich?
            selbstverständlich, denn auch die Suchseite (ASP oder ASP.NET) greift ja auf den Systembestand des Indexdienstes von Windows zu. Der Indexdienst ist speziell für sehr große Datenmengen ausgelegt, da die Indizierung automatisch im Hintergrund erfolgt. Wenn eine Webanwendung die Volltextsuche ausführt, greift der Indexdienst "nur" auf den im Hintergrund erstellten Katalog zu. In der SQL-Abfrage des Indexdienstes tauchen als Ergebnismenge nur die indizierten Dokumente auf, in denen die Kombination der Suchbegriffe vorkommt.

            Comment


            • #7
              Originally posted by Cytrics View Post
              Also brauch ich eine Webanwendung, in der man gewisse Filter setzen kann, die pdf-files durchsuchen kann und mir anschliessend ein Index erstellt wird...
              Hast du einen halbwegs aktuellen Windows-Web-Server?
              Falls nein kannst du die Lösung von Andreas vergessen. Auch wird das nicht funktionieren wenn diverse Acrobat-"Sicherheiten" eingestellt werden/benötigt werden.

              Falls es nur PDF's sind bietet Adobe Acrobat von haus aus die Möglichkeit ein gemeinsames Inhaltsverzeichnis + Volltext in einer neuen PDF-Datei zu erstellen. Sollten divese Dokumentenformate vorliegen so gibt es diverse kommerzielle Lösungen die im Rahmen eines Service Informations Systems sowas Online wie auch Offline anbieten.

              Comment


              • #8
                Hallo,

                der Webserver ist meines Wissens ein Windows Server 2003...
                Im Moment sind es nur pdf-files, ob es so bleibt, weiß ich noch nicht.

                Damit Acrobat diesen Index erstellen kann, muss doch aber Acrobat (Vollversion) auf dem Server installiert sein, oder??
                Schließlich kann jederzeit ein neues Manual dazukommen, eines wegfallen, dann muss der Index natürlich sofort aktuallisiert werden und das bekommt der Acrobat beim Client nicht mit...

                Ich teste gerade Lucena, hat mit dieser Engine jemand Erfahrung gesammelt (für dot.net)..??

                Gruß

                Comment


                • #9
                  Wenn man über Acrobat-Mitteln geht muß der Index natürlich von dem Client-Rechner aktualisiert werden von dem die Dokumente aktualisiert werden. Es muß ja auch dafür gesorgt werden das dieses Dokument von der Webseite aus erreichbar ist (oder ist hierfür einfach die List-Eigenschaft dieses Webverzeichnises freigeschaltet?)

                  Comment


                  • #10
                    HY,

                    (oder ist hierfür einfach die List-Eigenschaft dieses Webverzeichnises freigeschaltet?)
                    nein, Gott bewahre...

                    Comment

                    Working...
                    X