Announcement

**Christian Marquardt** · 21.12.2016, 20:43

Wie kommst du auf die Idee, dass eine *.pdf mit einer *.docx Datei in irgendeiner Form identisch sein k�nnte?

Warum sollte man Bin�rdateien mit ASCII vergleichen?

Die Dateien k�nnten kodiert sein, verschl�sselt sein, oder die Bytes liegen in einem Codeschema vor (bsp. UTF-8,16 o.a.).
Die unterschiedlichen Anwendungen, werden auch die Daten in unterschiedlichen Formaten speichern.
Wenn bsp. zu jedem geschriebenen Buchstaben/Buchstabenblock vorab die Formatdaten liegen, wirst du keinen Text erkennen k�nnen.

Diese Art des Vorgehens w�rde ich �berdenken.

**Ralph Erdt (2)** · 22.12.2016, 09:03

Wie mein Vorredner andeutete:
.TXT liegen "plain" - also Kalrtext - auf der Platte.

Bei anderen Dateiarten ist der Inhalt in irgendeiner Form codiert. Es liegt ja nicht nur der Text vor, sondern auch Formatierungsinformationen, Seiteninformationen, Meta Daten (Autor, ..) etc. Als Beispiel einfach mal eine .docx nehmen und zu "zip" umbennen und dann mal reinsehen. Hier sieht man sehr sch�n, was alles abgespeichert wird. ACHTUNG! Der "Trick" geht nur bei bestimmten Dateien! Andere Formate werden anders abgespeichert - je nachdem, was sich der Hersteller gedacht hat. Anderer Tip: �ffne mal ein PDF in Notepad. Da sieht man teilweise Anweisungen. Noch ein Tip: �ffne mal verschiedene Dateien in Notepad (oder besser: In einem Hex-Editor) uns sieh dir die ersten paar Zeichen an (und dann google mal nach "Magic Numbers"). Vergleich spa�eshalber mal die ersten beiden Zeichen von .EXE und .DLL -> ja, das sind die gleichen Dateitypen!

Zum Thema: Da - von TXT Dateien abgesehen - die Dateien nicht als Klartext abliegen, sondern in irgendeiner Form codiert sind, kann man nicht so naiv die Texte laden. Es kann durchaus sein, dass zwei verschiedene Speicherungen hintereinander eine (bin�r) komplett andere Datei ergeben! Wenn du also ein Textvergleich machen willst, musst Du vorher die Datei entsprechend dem Format laden und den Text extrahieren. Entweder findest du Bibliotheken die das k�nnen (wie schon bei dem einen Link), oder du implementierst das selber. Letzeres ist harte Kost (zumal die Dokumentation zu .docx Dateien wohl einige Tausend Seiten umfasst und nicht vollst�ndig gekl�rt ist. Und dass es eine Dokumentation gibt liegt daran, dass MS das Dateiformat Standardisieren will / wollte (wie ist da eigentlich der Stand?) um den OpenDocument Format (.od?) Konkurrenz zu machen. Es gibt f�r viele Formate schlicht keine Dokumentation).

Viel Erfolg bei dem Vorhaben! Auch ich arbeite z.Zt. an einem Projekt, bei dem andere Leute mir den Scheibenwischer zeigen... :-)

**defo** · 22.12.2016, 12:38

Originally posted by Ralph Erdt (2) View Post

Wie mein Vorredner andeutete:
.TXT liegen "plain" - also Kalrtext - auf der Platte.

Auch "Klartext" ist codiert. Wobei der Unterschied mit blo�em Auge tw. kaum zu erkennen ist, aber verschieden codierte Dateien (also bin�r unterschiedlich) zum gleichen Anzeigetext f�hren k�nnen.

Man ist (hier in D) wahrscheinlich daran gew�hnt, ASCII oder eine 8 Bit Erweiterung davon als "Urzustand" eines Textes wahrzunehmen. In Amerika reicht etwas weniger eben der 7er Code und die Chinesen k�nnen das kaum gebrauchen.

**Ralph Erdt (2)** · 23.12.2016, 11:18

Originally posted by defo View Post

Auch "Klartext" ist codiert. Wobei der Unterschied mit blo�em Auge tw. kaum zu erkennen ist, aber verschieden codierte Dateien (also bin�r unterschiedlich) zum gleichen Anzeigetext f�hren k�nnen.

ASCII, ANSI, CP437, CP850, CP1252, CP1000, ISO-8859-1, ISO-8859-15, UTF16, UTF32, UTF8, ...
Nur um die wichtigsten zu nennen, mit denen ich mich schon aktiv rumschlagen musste. Da ich anhand der Frage annehme, dass der OP noch am Anfang seiner Informatik-Karriere steht, habe ich mal den Teil �bersprungen und etwas "Grundlagen" erl�utert.

@OP: Was wir gerade diskutieren:
Eine Computer kennt nur Zahlen. Text im dem Sinne kennt ein Computer nicht! Aber um von Zahlen zu Text zu kommen (ganz platt ausgedr�ckt) gibt es Listen, welche Zahl welches Bild (!!) erzeugen soll. Ein Computer geht also nur hin und setzt dann entsprechende Bilder auf dem Monitor. Und es gibt zig unterschiedliche Listen (siehe meine kleine Aufz�hlung oben).
Zum besseren Verst�ndnis eine kurze Historie (@Geeks: Wenn ich Fehler mache, bitte korrigieren!):
Historisch hat sich irgendwann rausgebildet, dass ein Byte 8 Bit sind (urspr�ngliche Fernschreiber (18xx) haben noch mit 6 Bit gearbeitet!). Anfang hatte man aber ein Bit als Sicherheit definiert (Parity Bit), so dass man 7 Bit = 128 Zahlen (0-127) hatte. Somit konnte man 128 Zeichen definieren. Anfang hatte jede Firma seine eigenen Zeichen definiert. Dann wurde der ASCII Code definiert. 0-31 waren Steuerzeichen (z.B. 'neue Zeile' (line feed), 'Wagenr�cklauf' (carrige return)). Dar�ber kamen die Zahlen, Buchstaben, Satzzeichen und einige graphische Elemente.
Sp�ter war der Speicher so gut, dass man kein Sicherheitsbit mehr brauchte. Dadurch hatte man doppelt so viel Zahlen / Zeichen zur Verf�gung: 2^8 = 256 Zahlen / Zeichen. Im ANSI Code wurden der obere (neue) Bereich haupts�chlich mit graphischen Schnick/Schnack gef�llt.

Aber es hatten schon lange die L�nder mit Sprachen, die zwar vom Lateinischen kommen aber erweitert wurden Probleme mit ASCII/ANSI. Deren 'Sonderzeichen' kamen in dem Code nicht vor. Z.B. im deutschen die Umlaute (��) (Das 'Esszet' (�) wurde mit dem griechischen Beta Zeichen umgesetzt). Daher haben die Informatiker in diesen L�ndern einfach einige Zeichen im oberen Bereich umdefiniert. Also neues Bild f�r die Zahl.

VGA Karten, die damals aktuell waren, haben es erlaubt, dass man die Bilder dynamisch �ndern konnte (hatte ich damals f�r ein Spiel genutzt!). MS-DOS konnte daher unterschiedliche "Codepages" f�r die unterschiedlichen L�nder laden. (CP437, CP850 f�r Deutschland - unterschied war IMHO das '�'. Wie genau, wei� ich jetzt nicht mehr). Windows (3.x) hatte dann die CP1252 verwendet.

Irgendwann wurden dann verschiedene Codepages ISO standardisiert (8859). Diese wurden dann im dem aufkommenden Internet verwendet, indem man am Anfang der Web Seite geschrieben hat, in welcher Codepage die Seite ist, so dass der Browser die verschiedenen "Bilder" nutzen konnte. Wichtigste (f�r uns): -1 f�r Latin1 (Westeuropa) und sp�ter -15 (Latein 1 mit Euro-Symbol).

Da es aber krampfig ist, f�r jede Webseite einen anderen Bilderset zu haben, hat sich ein Gremium/Konsortium gebildet, welches ALLE Zeichen auf der Welt in einem Zeichensatz vereinigen wollte (Englisch, Europ�ische Zusatzzeichen, kyrillisch, griechisch, chinesisch, etc.): Unicode. Daf�r hat man dann gesagt, wir nehmen 2 Byte (16 Bit) pro Zeichen und hat munter definiert (UTF-16). Leider hat das nicht ausgereicht, so dass man a) UTF-32 (4 Byte pro Zeichen) definiert hat und b) UTF-16 umdefiniert hat, so dass es nun variable L�nge hat und so auch alle Zeichen speichern kann. Und bei dem Schwachsinn (pers�nliche Meinung) den die da aktuell noch hinzuf�gen, wird das auch nicht reichen.

Problem f�r uns Europ�er: 4 (2) Byte f�r Text, wo 99,9..% des Textes nur Ein Byte braucht und der Rest der Byte Null ist: Platzverschwendung hoch vier. Daher hatte man UTF-8 definiert, bei dem die Anzahl der Zeichen dynamisch ist. Aber DAS zu erkl�ren f�hrt hier und jetzt zu weit.

State of the Art ist bei Windows UTF-16 (Wide Character). Moderne FS in Linux etc. nutzen UTF-8.

Dies ist nur eine sehr kurze und stark unvollst�ndige �bersicht. Unicode f�r sich ist weitere "�bersichten" wert..

Was bleibt f�r Dich (den OP) zu beachten: Erstmal nichts. Mach einfach weiter wie gehabt. Wenn du sp�ter Probleme mit Umlauten bekommst (die werden falsch dargestellt), dann lohnt sich da weiterdenken.

Edit:
* "Parity Bit" eingef�gt - ist mir jetzt eingefallen
* Codepagenummern nach Hinweisen von Wernfried korrigiert. Danke. "Dies ist nur eine sehr kurze und stark unvollst�ndige �bersicht. Unicode f�r sich ist weitere "�bersichten" wert.." eingebaut
* UTF-16 l�ngenvariabel eingebaut.

**Christian Marquardt** · 23.12.2016, 12:21

Was bleibt f�r Dich (den OP) zu beachten: Erstmal nichts.Mach einfach weiter wie gehabt.

??
Das sicherlich nicht. Das Vorgehen Inhalte von Bin�rformaten per ASCII vergleichen zu wollen ist.....wenig sinnvoll. Zumal zu der Zeichsatzproblematik die Problematik des Formates kommt.

Des Weiteren w�re es interessant zu wissen, warum nun ein *.doc mit einem *.pdf verglichen werden muss. Warum hat da offenbar jemand (oder mehrere?) einmal ein Worddokument und ein identisches PDF-Dokument zu Fu� erzeugt ohne eines von andern erzeugen zu lassen (PDF-Druck).

**Ralph Erdt (2)** · 23.12.2016, 13:58

Originally posted by Christian Marquardt View Post

??
Das sicherlich nicht. Das Vorgehen Inhalte von Bin�rformaten per ASCII vergleichen zu wollen ist.....wenig sinnvoll. Zumal zu der Zeichsatzproblematik die Problematik des Formates kommt.

Wegen Bin�rformat hatte ich ja vorher was geschrieben. Und selbst wenn es unterschiedliche Codierungen sind (was mit guten Libs eigentlich einstellbar ist) - so ist das IMHO erstmal ein untergeordnetes Problem. Erstmal muss man an den Plain-Text kommen. Wenn das geschafft ist, dann sollte man schon was machen k�nnen (zumal er ja nur einen Fuzzy Vergleich machen will, bei dem die Sonderzeichen nur wenige Prozent ausmachen sollten).

Originally posted by Christian Marquardt View Post

Des Weiteren w�re es interessant zu wissen, warum nun ein *.doc mit einem *.pdf verglichen werden muss. Warum hat da offenbar jemand (oder mehrere?) einmal ein Worddokument und ein identisches PDF-Dokument zu Fu� erzeugt ohne eines von andern erzeugen zu lassen (PDF-Druck).

Sorry, aber ich HASSE Motivationsfragen! Sicherlich kann man �ber andere Wege diskutieren wenn man die Motivation w�sste, aber er hat sich sicherlich �berlegt, warum er es so machen will - auch wenn die Antwort nur "lernen" hei�t. Er hat mit seiner Frage IMHO Verst�ndnisprobleme in der konkreten technischen Umsetzung (wie andere das machen) gezeigt, und daher kann man meines Erachtens ruhig mal etwas den Erkl�rb�r machen (ich hoffe, ich habe das brauchbar gemacht?). In meinen Anfangszeiten hatte ich auch h�ufig so hilfreiche Antworten wie "Wieso willst Du das machen?" anstatt "Das geht so nicht, versuch mal den Weg X.". Die Diskussionen waren unsinnig und nur bremsend. Aus diesem Grund handel ich so.

**Christian Marquardt** · 23.12.2016, 16:49

Originally posted by Ralph Erdt (2) View Post

Wegen Bin�rformat hatte ich ja vorher was geschrieben. Und selbst wenn es unterschiedliche Codierungen sind (was mit guten Libs eigentlich einstellbar ist) - so ist das IMHO erstmal ein untergeordnetes Problem. Erstmal muss man an den Plain-Text kommen. Wenn das geschafft ist, dann sollte man schon was machen k�nnen (zumal er ja nur einen Fuzzy Vergleich machen will, bei dem die Sonderzeichen nur wenige Prozent ausmachen sollten).

Sorry, aber ich HASSE Motivationsfragen! Sicherlich kann man �ber andere Wege diskutieren wenn man die Motivation w�sste, aber er hat sich sicherlich �berlegt, warum er es so machen will - auch wenn die Antwort nur "lernen" hei�t. Er hat mit seiner Frage IMHO Verst�ndnisprobleme in der konkreten technischen Umsetzung (wie andere das machen) gezeigt, und daher kann man meines Erachtens ruhig mal etwas den Erkl�rb�r machen (ich hoffe, ich habe das brauchbar gemacht?). In meinen Anfangszeiten hatte ich auch h�ufig so hilfreiche Antworten wie "Wieso willst Du das machen?" anstatt "Das geht so nicht, versuch mal den Weg X.". Die Diskussionen waren unsinnig und nur bremsend. Aus diesem Grund handel ich so.

Nein, das ist kein untergeordnetes Problem. Im Gegenteil es kommt noch vor dem Codierungsproblem. Was n�tzt mir das ev. gel�ste Codierungsroblem, wenn ich den Aufbau der Bin�rdatei nicht verstehe.

Tja, wenn man nat�rlich nicht diskutieren will, ob es nicht bessere oder einfachere Werkzeuge oder Frameworks gibt...dann mal los. Da geht es nach dem Motto "Warum einfach, wenn es auch kompliziert geht"

Hmm, warum gibt es wohl entsprechende Objekte unter MS um auf Word Excel usw. zugreifen zu k�nnen?

Warum gibt es Libs. die einem aus einem PDF-Dokumenet den reinen Text liefern?

Was k�nnte man dann vergleichen?

Es gibt sinnvolle Vorgehenweisen und auch weniger sinnvolle Vorgehensweisen. Und bei letzterem d�rfte doch wohl die Frage erlaubt sein, warum so vorgegangen wird.

**kogen** · 25.12.2016, 22:44

Hallo Leute,

vielen Dank f�r eure vielen tollen Anregungen! Es tut mir auch leid, dass es hier nun zu Missverst�ndnissen kam!

Ich muss Christian Marquardt an dieser Stelle leider Recht geben. Mein Ziel ist es prim�r nicht gewesen, unterschiedliche Codierungen miteinander zu vergleichen. Das war wohl ein bl�der Ausrutscher von mir, das h�tte ich wissen m�ssen.. Trotzdem ist der Exkurs von Ralph Erdt sehr interessant gewesen. Spannend fande ich vor allem auch dass Windows die Dateien mit samt ihren Metadaten archiviert vorlegt. Aber das ist wohl nun auch ein anderes Thema..

Ich bin mittlerweile immer noch dabei Dateien (diesmal mit gleicher Codierung) miteinander zu vergleichen. Bei sehr kleinen Textdateien verl�uft alles reibungslos, aber sobald es an die 2000Bytes ran geht, tauchen schon die Probleme auf.

Mein erster Feldversuch war es, 10% der Datei als Byteblock zu nehmen und diesen byteweise �ber eine zweite Datei zu schieben. Sollte keine Gleichheit vorhanden sein, so wird der Byteblock aus Datei 1 ein Byte weiter gesetzt und wieder �ber Datei 2 geschoben:

http://fs5.directupload.net/images/161225/keruq7vj.png

Im worst case bei einer 2000Byte-Datei (und Bytebl�cken von 25%) dauert das �ber 2 Minuten.. Klar, es wird ja auch �ber zwei Millionen mal verglichen:
(Dateigr��e – Byteblockgr��e * Dateigr��e – Byteblockgr��e) = (2000 – 500) * (2000 - 500) = ~2,3 Mio.

F�r nur 1,95KB k�nnt ihr euch mein Entsetzen sicher vorstellen. Darum habe ich mir eine andere Strategie ausgedacht: ich zerst�ckel die erste Datei wieder byteweise in Bytebl�cke, packe diese nun aber verschl�sselt in eine MD5-Liste. Jetzt durchlaufe ich die zweite Datei byteweise und schaue, ob der Byteblock der zweiten Datei in MD5-verschl�sselter Form in der MD5-Liste der ersten Datei liegt. Bei 2000Bytes geht das nun innerhalb einer halben Sekunde. Juhu! Habe ich mich gefreut! Doch wenn ich nun statt der zuvorrigen 1,95KB-Datei die Gr��e erh�he auf 600KB, dann dauert allein das Einlesen und Verschl�sseln der Datei �ber 2 Minuten:

[highlight=c#]
FileInfo currentFile = new FileInfo(@"C:/test.txt");
int positionCurrentFile = 0;
int byteStep = (int)((currentFile.Length * 25) / 100); //25% der aktuellen Dateil�nge
MD5 md5 = new MD5CryptoServiceProvider();
List<byte[]> md5s = new List<byte[]>();

//So lange Byte in aktueller Datei vorhanden
while (((positionCurrentFile + byteStep) < currentFile.Length))
{
byte[] pufferCurrentFile = new byte[byteStep];

//Byteblock aus aktueller Datei in byteArray "pufferCurrentFile" zwischenspeichern
using (BinaryReader breaderCurrentFile = new BinaryReader(new FileStream(currentFile.FullName, FileMode.Open)))
{
breaderCurrentFile.BaseStream.Seek(positionCurrent File, SeekOrigin.Begin);
breaderCurrentFile.Read(pufferCurrentFile, 0, pufferCurrentFile.Length);
}

//Bytearray als md5 in Liste speichern
md5s.Add(md5.ComputeHash(pufferCurrentFile));
positionCurrentFile++;
}
[/highlight]

Einerseits verst�ndlich. Ich f�hre f�r 600KB wieder 614.400 Operationen(Bytepositionierung, Zwischenspeichern, Verschl�sseln) durch... Mein Ansatz w�re nun, die Bytebl�cke nicht byteweise zu verschieben, sondern die Schrittweise auf Basis der Dateigr��e anzupassen. Das hei�t, ich springe nicht 1 Byte weiter und erzeuge den Block, sondern vielleicht jeweils immer 10KB in der 600KB-Datei. Dann h�tte ich mit 60 Operationen zwar eine imens k�rzere Rechenzeit, w�rde das Ergebnis jedoch verf�lschen, da mit hoher Wahrscheinlichkeit keine Gleichheit heraus k�me.

Ein anderer Ansatz w�re vielleicht das Multithreading. Ich k�nnte die Bytebl�cke ja vielleicht von vorne wie von hinten abspeichern, und sobald sich die beiden Threads kreuzen, beende ich das Verfahren. Wobei ich dies an der Stelle f�r etwas zu "doll" geeignet finde. Ich bin mit dem Thema noch nicht so vertraut und bef�rchte ein schwereres Handling von Deadlocks. Bei zwei Threads statt einem w�re die Rechenzeit dann auch "nur" doppelt so schnell und wieder problematisch bei gr��eren Dateien.

Nun gut... Ich hoffe, das war nicht zu viel f�r euch.

Habt ihr einen Rat wie ich die Analyse beschleunigen k�nnte? Gibt es noch einen besseren Schritt Richtung MD5's? Oder muss ich Multithreading einsetzen? Geht es sonst vielleicht noch irgendwo anders lang?

F�r Hinweise w�re ich echt dankbar..

MfG

**Ralf Jansen** · 25.12.2016, 23:41

Ohne dein Verfahren genau analysiert zu haben kannst du vermutlich nur durch passende Wahl der Blockbl�cke alles als �hnlich oder nicht �hnlich definieren das sieht doch mehr nach Voodoo aus als nach einem brauchbaren Verfahren um �hnlichkeit festzustellen.

Auch wenn hier schon jemand seinen Unmut �ber Motivationsfragen ge�u�ert hat stelle ich so'ne Frage trotzdem, ohne konkreter Zieldefinition sehe ich keine vern�nftige Hilfem�glichkeit. Was ist das Ziel dieses Verfahren? Wie definierst du �hnlich. In welchem Kontext soll diese Art der �hnlichkeit helfen?

**kogen** · 26.12.2016, 01:11

Danke f�r deine R�ckmeldung, Ralf Jansen.

Ziel soll es letztendlich sein, dass die Software dem Mitarbeiter "inhalts�hnliche" Dokumente anzeigt. Die Dokumente m�ssen hierbei nicht zu 100% �bereinstimmen. Wenn der Mitarbeiter also sieht, dass von der "gleichen" Excel-Arbeitsmappe (oder einem .docx, oder einem .txt, ....-Dokument) drei verschiedene Versionen vorliegen, so kann er diese bis auf die aktuellste Version entfernen. Das soll vorbeugen, dass die Mitarbeiter in verschiedene Versionen schreiben und man den �berblick verliert. Die Organisation des Arbeitsumfeldes soll also verbessert werden, um so am letzten Ende auch Kosten zu sparen. Welcher Bereich als �hnlich einzustufen ist, habe ich noch nicht direkt festgelegt: ob nun 15% oder 75% Gleichheit eine �hnlichkeit ausmachen - das m�sste ich halt erst nach dem Testen bestimmen (oder weiterhin variabel halten). Zu mal hier ja auch das Problem besteht, dass Dateiinhalte selbst mit Trennung �hnlich sein k�nnen: bspws. ist "Hallo Welt" auch inhalts�hnlich mit "Hallo sch�ne Welt". Das Problem w�rden meine bisherigen Algorithmen noch nicht l�sen. Aber bis dahin komme ich ja auch noch gar nicht, wenn 600KB �ber zwei Minuten zum Einlesen ben�tigen..

MfG

**Ralf Jansen** · 26.12.2016, 02:17

Klingt eher danach das man eine sauber Dokumenten- und/oder Versions-Verwaltung br�uchte. Das w�re aber gleich ein ganz anderes Thema und hilft bei den Fehlern der Vergangenheit nicht.

Wenn du auch Dokumenttyp �bergreifend oder auch nur andere Formate als Plaintext vergleichen willst willst wird dich ein Vergleich auf Byte Ebene nicht weiterbringen. Die meisten Formate k�nnen sich bei einer auch nur minimalen �nderungen auf bin�r komplett anders darstellen. Kleine �nderungen in der Datei korrelieren oft genug nur wenig mit kleinen �nderungen im Speicherformat der Datei. Wenn du insbesondere textuelle Formate vergleichen willst, also keine Medienformate oder sowas, dann w�rde ich empfehlen die Dateien vorzubearbeiten und in ein vergleichbares Format zu bringen. Zum Beispiel den Weg den die klassischen Volltextindexierer nehmen bieten sich hier an. Weg w�re also den Plaintext zu extrahieren so das man ein simpel vergleichbares irgendwas bekommt. Beim extrahieren hilft zum Beispiel die IFilter Schnittstelle in Windows. F�r die �blichen verd�chtigen Dateitypen im Businessbereich sollte man immer einen passenden IFilter finden, also ein Ding das den Plaintext aus der Datei extrahiert, und diesen sollte man einigerma�en dann untereinander vergleichen k�nnen.

**Christian Marquardt** · 26.12.2016, 07:36

Wozu die Byteschieberei?
F�r Textdateien ist es sinnvoller die Stringverarbeitung zu nutzen.
Du wirst nicht darum herum kommen je Dateityp eine eigene Vergleichsklasse anzuwenden.

Insofern ist ein erster Schritt bei Textdateien diese bis zu einer Gr��e in einen String einzulesen, diesen von unerw�nschten Zeichen zu befreien (Whitespaces, Zeilenumbr�che, Zeichensetzung).
Den so erhaltenen Text (bsp. "HalloWeltdadraussen") kann man dann vergleichen. Ab einer Gr��e kann man Blockweise arbeiten.
Damit findet man allerdings dann nur Texte, die identisch sind, aber unterschiedlich formatiert.

Weitere M�glichkeit ist, alle Worte in eine HashMap zu lesen und diese dabei zu z�hlen. Hat man nun in beiden Texten ungef�hr die gleichen Worte in der ungef�hr gleichen Anzahl k�nnte ein hoher Grad der �bereinstimmung erreicht sein.

Das sind nur Methoden f�r Textdateien; f�r Bin�rdateien ist das unbrauchbar.

Und wie Ralf schon sagte: Warum keine Versionsverwaltung?

**Wernfried** · 29.12.2016, 18:36

Ein paar kleine Korrekturen, da du so h�flich darum gebeten hast:

Die Amerikanische Codepage f�r OEM (das "DOS" Fenster) ist CP437, nicht CP470. CP850 f�r West-Europa stimmt hingegen.

Die Windows Codepage f�r West-Europ�sche Sprachen ist CP1252. CP1250 wird f�r Ost-Europ�ische Sprachen verwendet.

Unicode hatte am Anfang (bis Version 2.0) tats�chlich nur 65.536 Zeichen vorgesehen, heute sind es theoretisch 1.114.112 Zeichen, genauer gesagt Codepunkte.
UTF-8, UTF-16 und UTF-32 ist nur die Methode wie man diese Codepunkte codiert. Jeder dieser Methoden (UTF-8, UTF-16 und UTF-32) kann alle Unicode Codepunkte codieren, bzw. darstellen.

Gruss

**Ralph Erdt (2)** · 10.01.2017, 17:25

Danke f�r die Korrekturen, stimmt.

Aber das mit dem Unicode muss ich nochmal nachlesen.. (z.B. UTF-16 -> 2^16 = 65K Unterschiedliche Zeichen)

Announcement

Dateien inhaltlich vergleichen

Dateien inhaltlich vergleichen

Comment

Comment

Comment

Comment

Comment

Comment

Comment

Comment

Comment

Comment

Comment

Comment

Comment

Comment