Announcement

**Hagen Reddmann** · 02.01.2002, 15:58

@Andreas, d.h. konkret, da� falls ich diesen Index-Dienst installiert habe wird ein Such Index �ber ALLE Dateien erstellt der jeden beliebigen Text, sei es ASCII, WideChars oder beliebige Bytesequenzen ALLER Dateien enth�lt. Ich halte dies f�r unm�glich, da ja dann der Index bzw. die Index-Dateien kombinatorisch gesehen viel viel gr��er als alle Dateien zusammen sein m�sste.
Angenommen ich suche viele verschiedene Bytesequenzen in allen Dateien, dann m�sste ja der Such-Index alle Dateien Byteweise zerpfl�cken und zu jeder Bytesequenz einen Index-Eintrag besitzen.
Eine 10 Bytes gro�e Datei h�tte dann mindestens 9 Index-Eintr�ge f�r jede der 10 Bytes als Sequenz betrachtet. 

Es stellt sich mir nun die Frage wie dieser Indexdienst genau funktioniert und ob er tats�chlich jede beliebige Bytesequenz findet ??

Angenommen dieser Indexdienst beschr�nkt sich auf lesbare Texte, dann stellt sich sofort die Frage was als lesbarer Text interpretiert bzw. gefiltert wird, und somit die Frage nach der Suche "hat mein Index tats�chlich ALLE findbaren Patterns aus ALLEN Dateien gefunden ??".

Auf Grund der Datenmenge glaube ich nicht das der Indexdienst tats�chlich einen Index �ber alle Dateien und deren kompletten Inhalt erzeugt, sondern eher nur �ber ausgew�hlte Dateien. In diesem Falle w�re eine schnelle Textsuche, wie oben gezeigt, sehr wohl von Interesse und wahrscheinlich um L�ngen schneller und speichereffizienter als die Erzeugung und Verwaltung eines Indexes.

Gru� Hage

**Andreas Kosch** · 03.01.2002, 08:36

Hallo Hagen,

der Index-Dienst greift auf spezielle Filter-DLLs (die intern COM-Objekte f�r das Interface IFilter sind) zur�ck. Jeder Software-Hersteller, der eine eigene Dateiendung im Betriebssystem registriert, kann ebenfalls eine eigene Filter-DLL bereitstellen und registrieren. Die Firma Adobe macht das zum Beispiel f�r ihre PDF-Dateien. Wenn der Index-Dienst seinen Volltextkatalog f�r einzelne W�rter zusammen mit der Position in der Datei aufbaut, "fragt" er die zust�ndige Filter-DLL nach den zu indizierenden W�rtern ab. Im Fall eine TXT-Datei werden nur einzelne W�rter indiziert, wobei die sogenannten noise Words (W�rter, die in fast jeder Datei vorkommen wie zum Beispiel der,die,das,und,oder...) ignoriert werden. Je nach Filter-DLL darf der Anwender die Liste der Noise-Words erweitern. Beim Microsoft SQL Server 2000 steht zum Beispiel f�r jede Sprache (Deutsch, Englisch, Franz�sisch etc.) eine eigene Konfigurationsdatei zur Verf�gung, in der man eigene Noise-Words eintragen kann. Im Fall einer PAS-Datei sollte die Filter-DLL (falls Borland jemals eine zur Verf�gung stellt) zum Beispiel die Zeichenfolgen "begin", "end", "function", "uses" usw. als Noise-Words betrachten, den eine Suche nach dieser Zeichenkette w�rde eine fast 100 prozentige Trefferquote ergeben, so dass der Volltextkatalog aufgebl�ht wird, ohne einen wirklichen Vorteil zu haben.

Der Vorteil der Filter-DLLs liegt darin, dass auch W�rter gefunden werden, die in der Datei durch ein Trennzeichen unterbrochen werden (Beispiel: Zeilenumbruch oder Trennstrich) oder bei denen die Schreibweise unterschiedlich ist (Beispiel: ss oder �). W�hrend eine byteweise Suche in diesen F�llen keinen Treffer finden kann, teilt eine spezifische Filter-DLL das eigene Dateiformat viel effektiver auf.

Der durchschnittliche Anwender ("Lieschen M�ller") wird fast ausschliesslich nur innerhalb von Dateien suchen, die �ber ein Anwendungsprogramm (Textverarbeitung etc.) angelegt werden. Hier spielt der Index-Dienst seine Vorteile vollst�ndig aus, zumal in diesen Dokumenten �ber den Eigenschaftsdialog auch eigenst�ndige Attribute zugewiesen werden k�nnen, um den Inhalt der Datei n�her zu beschreiben. Die Filter-DLL wertet auch diese Dateieigenschaften mit aus. Die Sonderf�lle (tats�chlicher Bytevergleich) kommen dort eher selten vor.

Bei der heute �blichen Rechenleistung kann der Indexdienst im Hintergrund die Suche �ber den Volltextkatalog extrem beschleunigen. W�hrend die klassische Suche �ber den Bytevergleich erst dann startet, wenn der Anwender die Suchfunktion startet, arbeitet der Index-Dienst st�ndig im Hintergrund. Wenn der Anwender die Suche �ber den Index-Dienst startet, ist diese zu diesem Zeitpunkt ja l�ngst fertig, so dass in Bruchteilen einer Sekunde nur das Ergebnis (Abfrage des Volltextkatalogs) angezeigt werden muss.

Man kann den Index-Dienst auch daf�r nutzen, um die tats�chlich byteweise zu durchsuchenden Dateien vorzusortieren, wenn in der Datei eine "suchf�hige" Zeichenkette vorkommt. Wie bei einer Datenbank wird hier der Index-Dienst verwendet, um die Ergebnismenge der Abfrage �ber einen "Index" so einzuschr�nken, dass die langsame Suche �ber den Bytevergleich nicht mehr alle Dateien durchsuchen muss.

F�r uns als Entwickler ist der Index-Dienst ein Schlaraffenland. Mit minimalem Aufwand ist der Zugriff aus dem eigenen Programm heraus m�glich. Wenn notwendig, k�nnen wir auch eigene Filter-DLLs schreiben/registrieren, um das Verhalten des Index-Dienstes an unsere Sonderf�lle anzupassen.
&#10

**Gesine Kuhlmann** · 03.01.2002, 13:08

Hi,

Na die Diskussion hatten wir doch schon ;-)

1)
Der Indexdienst f�hrt zu nichts anderem als einer unscharfen Suche. Wird irgendetwas nicht gefunden, dann kann man als BS-Hersteller zwar wunderbar sagen: 'Da hat wohl ein anderer Hersteller gepennt...', hilft den Nutzern aber nicht f�r f�nf Pfennig.

2)
Gerade der durchschnittliche Nutzer wird sich in Zukunft also noch mehr wundern warum manche Suchausdr�cke gefunden werden und andere nicht.

3)
MS versucht mit Hilfe des Indexdienstes die Scharte zuzukleistern, die seit �onen aus der mangelhaften Dateityp-Unterscheidung resultiert. Vorallem ist es auch mit ( oder gerade mit ) Indexdienst ein sch�ner Spa�, wenn sich mehrer Filter-DLL's f�r die gleiche Dateiendung verantwortlich f�hlen. Der Aufsatz auf diese prinzipbedingte Schw�che des Dateisystems f�hrt also zwangsl�ufig zu einem noch gr��eren Kuddelmuddel.

4)
Sch�nes Schlaraffenland, in dem dann noch nicht mal mehr gezielt Dateien gefunden werden k�nnen, da man ja nie weiss welche Filter im Hintergrund f�r welche Dateien zust�ndig sind und den Suchausdruck vielleicht als 'Noise' betrachten.

5)
Der Indexdienst ist ausserdem heute schon daf�r verantwortlich, dass Rechner zeitweilig nicht mehr ansprechbar sind, da sie gerade damit besch�ftigt sind, den 'unsichtbaren' Indexdienst zu bearbeiten. Das merken auch die durchschnittlichsten Benutzer und sind �ber diese Ph�nomen nicht gerade begeistert.

6)
Der Indexdienst ist Murks.

Gru�
Gesine

P.S.:
Dabei ist die L�sung doch so einfach. Siehe Macintos

**Hagen Reddmann** · 03.01.2002, 14:27

Nungut, ich kann Andreas und auch Gesines Meinung verstehen. Es h�ngt halt vom Anwender ab. Ich pers�nlich betrachte mich als Power-User, d.h. nicht das ich viel mit meinem Rechner mache sondern eher das ich 4-5 Anwendungen gleichzeitig schnell bediene und exakte Resultate w�nsche. Daher ist bei mir nichts vom Indexdienst �briggeblieben, er raubt mir unn�tige Rechnenpower und gibt mir eben keine exakten Resultate zur�ck. 

Wenn diese IFilter ben�tigt werden, und diese erst in XP so richtig unterst�tzt werden, dann heist das doch auch das diese Suchfunktionen erst im XP zu gebrauchen sind ??

Gru� Hage

**Andreas Kosch** · 03.01.2002, 14:38

Hallo Hagen,

>dann heist das doch auch das diese Suchfunktionen erst im XP zu gebrauchen sind ??

nein - diese Option steht seit Windows NT 4 zur Verf�gung. Die Neuerung von Windows XP besteht nur darin, aus der "K�r" eine "Pflicht" zu machen. In meinen Anwendungen habe ich das auch unter Windows 2000 ausgenutzt.

Zum Einwand von Gesine:

>Der Indexdienst ist ausserdem heute schon daf�r verantwortlich, dass Rechner zeitweilig nicht mehr ansprechbar sind

Ab einem Pentium III mit 500 MHz l�uft die CPU im Leerlauf (d.h. die durchschnittliche Last liegt unter 50%). Der Index-Dienst h�rt bei einer Benutzeraktion sofort auf und beginnt seine Arbeit erst dann wieder, wenn der Benutzer ca. 60 Sekunden nichts macht. �ber die Computerverwaltung | Indexdienst kann man dies jederzeit mitverfolgen, der Indexdienst zeigt dort seinen Status an.

Vielleicht �berzeugt ein Beispiel aus der Praxis: Ein Messlabor bekommt die VDE-Normen in Form von PDF-Dateien, wobei regelm�ssige �nderungen vorkommen. Wenn ein Auftrag hereinkommt, sind 7890 PDF-Dateien mit insg. 1200 MByte Dateigr�sse zu durchsuchen, um alle die Normen zu ermitteln, die f�r die zu messende Ger�tekategorie relevant sind. Alle Dateien liegen auf einem zentralen Server. Es liegt auf der Hand, dass die 1,2 GByte PDF-Datei �ber das Netzwerk nicht in einer vertretbaren Zeitspanne auf klassischem Weg durchsucht werden k�nnen. Den Aufwand der st�ndigen Pflege einer eigenen Datenbank mit der Aufnahme aller m�glichen Suchbegriffe will das Messlabor auch nicht gehen. Mit dem Indexdienst ist das Ergebnis in weniger als 1 Sekunde da (der Volltextkatalog f�r die W�rter aus den PDF-Dateien ist 30 MByte gro�), wobei eine zusammengesetzte Suche nach mehreren Begriffen m�glich ist. Ich glaube nicht, das das beste Tool auf einer LINUX-/Macintosh-Kiste diese Zeit toppen kann, zumal ich nur eine einzige SELECT-Abfrage f�r meine Suche �ber den Indexdienst schreiben musste :-)
&#10

**Robert Marquardt** · 03.01.2002, 14:48

Herr Kosch, 
Sie argumentieren das es fuer den speziellen Fall geht (PDF) waehrend der allgemeine Fall prinzipbedingt (!) nicht zuverlaessig funktionieren kann

**Hagen Reddmann** · 03.01.2002, 15:01

Angenommen, ALLE Hersteller w�rden f�r ALLE m�glichen Dateiformate einen IFilter registrieren, der nat�rlich KEINERLEI Suchmusterunterdr�ckungen vornimmt. Dann w�ren wir bei dem Punkt das wirklich alle Pattern gefunden werden k�nnen, also so wie der obige Suchalgo. Aber ich kann jetzt schon voraussagen das dann der Indexdienst in die Kniee gehen mu�. D.h. so wie der Indexdienst jetzt funktioniert kann er garnicht ALLE Informationen/Dateitypen ber�cksichtigen. Das ist nat�rlich auch ein vorteilhaftes Argument, da KEIN Mensch wirklich alle Dateiformate ben�tigt. In meinem Falle sind es meistens nur Quelltext Dateien wie *.PAS, *.H, *.C??
Die Nutzung eines Indexdienstes verbietet ja eben nicht auch noch GREP oder andere direkte Such-Tools nutzen zu k�nnen. 

Somit w�ren wir wieder am Anfang, und wissen nun das es einfach mal interessant ist eine Boyer-Moore PASCAL Implementierung zu sehen die schneller als System.Pos() einen Suchstring zu finden vermag. 
Es w�re f�r mich also trotzdem noch interessant zu wissen wie man diesen Boyer-Moore so umfrickelt das er multiple Suchmuster in einem Rutsch ausf�hrt !?? Anregungen, Links oder Infos ??

Hage

**Gesine Kuhlmann** · 03.01.2002, 15:40

Hi,

1)
Wir haben nicht nur einen Nutzer, der sich mit der Fehlermeldung 'Der Computer ruckelt' ( W2k ) bei uns beschwert. Bisher konnten wir diesen 'Ruckel'-Effekt immer zuverl�ssig abstellen, wenn der Indexdienst abgestellt wurde.

2)
Das Beispiel mit einem zentralen Server, der von kompetenter Hand administriert wird und einen Indexdienst bedient, ist durchaus eine praktikable L�sung. Allein auf Client-Systemen hat ein Indexdienst nichts zu suchen. Zumindestens solange, wie noch nicht einmal die Grundvoraussetzungen erf�llt sind ( siehe 4 ).

3)
Mac habe ich in diesem Zusammenhang angef�hrt, da dort schon das Filesystem daf�r sorgt, dass wichtige Informationen automatisch mit abgelegt werden ( Resource-Fork ). Deshalb funktioniert in dieser Umgebung auch dokumentenzentriertes Arbeiten. So kann z.B. sogar die richtige Programmversion zu einem Dokument automatisch gestartet werden.

4)
Bei MS �ndert ein Nutzer die Dateiendung und Word versucht tapfer eine TIF-Datei zu �ffnen ( Mal ganz davon abgesehen, das es unter MS-Systemen an �bermut grenzt ein und das gleiche Programm in unterschiedlichen Versionen zu installieren ). Der mangelhaften Basisarchitektur dann noch die Krone aufzusetzen und Indizes darauf zu bilden, zeugt von m�chtig viel Ignoranz.

5)
W�rde MS endlich mal seine Hausaufgaben machen und nicht mit immer neuem, �berfl�ssigem und gr��tenteils kontraproduktivem Firlefanz auf die Marketingtrommel ( und damit auch Nutzer ) hauen, dann w�ren die Systeme sicherlich auch eines Tages mal guten Gewissens einsetzbar.

Gru�
Gesin

**Max Reinhardt** · 04.01.2002, 21:00

<pre>
Hallo,

welcher Sadist n�tigt eine MS-Hasserin (Gesine K.) eigentlich
in Delphi (ist nun mal eine Win-Dev-Umgebung) zu programmieren?
Muss ein Sadist sein...

Ich w�rde mir bzgl. Dev-Umgebung eine saubere Trennung w�nschen:

- MS �bernimmt Delphi und macht daraus eine (Pascal-Dev-)Umgebung
die genauso leistungsf�hig ist wie die anderen neuen DotNet-
Sprachen (Delphi w�re bei Anders Hejlsberg ohnehin in besseren H�nden).

- Borland bleibt mit Kylix bei Linux (ohne Kompromisse wie sowieso
witzlose und illusion�re "Plattformunabh�ngigkeit") und versucht
die CLI-verliebten Linux-Coder mal endlich an Grafik-GUI-
Entwicklung zu gew�hnen (dann ist die vermeintliche Stabilit�t von Linux allerdings evtl. auch hin..).

Ein f�r-Delphi-langsam-die-Felle-wegschwimmend-sehender
MR

</pre&gt

**Hagen Reddmann** · 05.01.2002, 03:31

Naja, ich sehe die Sache so: Dauernd werden wir Programmer vom Chef gezwungen schnell was hinzupfuschen, 3 Monate sp�ter maulen dann die Kunden, in der zwischenzeit hat ein MS-Ars... das komlette API ge�ndert und ein Werbemensch hat neue Strategien wie wir zu coden haben entwickelt. All diesen Frust darf der Coder NICHT und NIEMALS zu Hause rauslassen, die Zeit reicht aber nicht f�r weitere Hobbys wie Rugby, M�lltonnen eintreten usw. da ist doch solch ein Forum genau richtig Hier wird man noch verstanden was viel wichtiger ist als immer der gleichen Meinung zu sein

Gru� Hagen

PS: im �brigen ich genie�e Gesines Beitr�ge seh

**Gesine Kuhlmann** · 06.01.2002, 14:37

Hi,

1)
Das einzige was ich hasse sind unverschlossene Zahnpastatuben.

2)
Wenn man sich nicht nur um eine BS-Umgebung k�mmern muss, dann fallen die Vorteile und Nachteile einzelner BS deutlich auf. Das es bei objektiver Betrachtung �ber MS leider viel zu viel zu meckern gibt, ist nunmal nicht meine Schuld. Das es in anderen Umgebungen auch zu meckern gibt ist klar. Da wir uns hier aber in einem Delphi-Forum befinden, interressieren Meckereien dar�ber in diesem Forum wohl nur die wenigsten.

3)
Nat�rlich kann man auch seine Augen verschliessen und getreu dem Motto "Die Partei hat immer recht..." Missst�nde einfach ignorieren bzw. sich dar�ber freuen, dass beim Kopieren kleine Bl�ttchen von links nach rechts fliegen, es aber bis heute nicht m�glich ist, bei einem Fehler w�hrend des Kopierens ( z.B. der Dateiname ist zu lang oder ung�ltig.... ) diese zu sammeln und in einer Liste auszugeben um diese nach Abschluss dann gesondert zu behandeln. N�, man st��t bei Datei 53.498 auf einen Fehler und weiss noch nichtmal was kopiert wurde, sondern f�ngt wieder von vorn an. Na daf�r ist XP aber sch�n bunt.

4)
Danke Hagen ;-)

Gru�
Gesin

**Hagen Reddmann** · 06.01.2002, 16:55

@Gesine, "Die Partei hat immer recht..." stammst Du aus der "rechten" H�lte Deutschlands ?

Hage

**Gesine Kuhlmann** · 06.01.2002, 17:12

Hi Hagen,

Nein, aus Hamburg.

Gru�
Gesin

**Robert Marquardt** · 06.01.2002, 19:42

Zahnpasta? Was ist Zahnpasta

**Gesine Kuhlmann** · 07.01.2002, 12:14

Hi,

Na das weisse Zeug ( manchmal mit bunten Streifen ), das man auf kleine B�rstchen auftr�gt um sich anschliessend damit im Mund rumzur�hren ;-)

Gru�
Gesin

Announcement

*.txt Datei Durchsuchen !?!

Comment

Comment

Comment

Comment

Comment

Comment

Comment

Comment

Comment

Comment

Comment

Comment

Comment

Comment

Comment