Announcement

**Christian Marquardt** · 11.07.2013, 06:23

Es d�rfte sich doch um einmaliges Problem handeln, so dass du die Liste einliest, der Anwender erg�nzte diese (Methode "add") und du schreibst sie weg. Sie kommt also erstmalig wohl mit Duplikaten an. Also w�re es sinnvoll die Liste vor der Verarbeitung mit deinem Programm zu bereinigen. Alternativ ist halt nicht die Serialisierung zu nutzen, sondern eben die Daten einfach lesen, der Liste hinzuf�gen und dabei nur die aufzunehmen, wo keine Duplikate vorliegen http://msdn.microsoft.com/de-de/libr.../s2tte0y1.aspx

**altralaser** · 11.07.2013, 21:58

Hallo Christian,
ich hab deinen Rat befolgt und mir nochmal ein paar andere Konzepte angeschaut. Ich habe mich jetzt f�r den XmlSerializer entschieden. Interessanterweise ruft der bei der Deserialisierung die Add-Methode auf, wenn der Typ einer Objekteigenschaft eine Collection ist. Damit musste ich nur noch eine Art Wrapper um meine StringList bauen (f�r das XML-Root-Element) und jetzt funktioniert das absolut einwandfrei.
Viele Gr��e

**fanderlf** · 12.07.2013, 07:13

Ich w�rde vermutlich das Lesen der Daten und das Entfernen von Duplikaten in zwei logisch getrennte Einheiten packen (separation of concerns). Baue erstmal eine M�glichkeit um Sachen aus der Datei zu lesen, die Eintr�ge k�nnen in dem eingelesenen Objekt auch �fters vorkommen. Danach packst Du die Objekte einfach und packst sie in eine HashSet<String>. String implementiert sowieso wunderbar GetHashcode(), danach ist jeder String nur noch einmal im HashSet vorhanden.
Gef�hlt macht man meistens etwas falsch wenn man von Collections oder Listen ableitet. Das ist jetzt allerdings Code Design und letzten Endes auch eine Geschmacksfrage.

**altralaser** · 14.07.2013, 13:07

Hallo fanderlf,

prinzipiell gebe ich dir vollkommen recht, an das HashSet hatte ich auch schon gedacht. Allerdings kann es sein, dass ich in Zukunft die Filterung nicht nur nach Duplikaten vornehmen m�chte, sondern auch allle Zeichenketten ignorieren will, die beispielsweise mit einem bestimmten regul�ren Ausdruck matchen und da w�re ein HashSet etwas haarig. Deshalb hatte ich mich f�r die Collection entschieden. Die Implementierung ist auch gar nicht so schwer, man muss ja einfch nur vererben und anschlie�end die Methoden �berschreiben/ersetzen, die vom Standardverhalten abweichen. Funktioniert sehr gut.
Bei der Trennung von Verantwortlichkeiten hast du ebenfalls recht. In diesem Fall hie�e das aber, zwei getrennte Schritte zu programmieren, was wie bereits erw�hnt, die Laufzeit erh�ht. Aus diesem Grund wollte ich gern die Duplikate gleich beim Einlesen entfernen, um die Liste nicht zweimal verarbeiten zu m�ssen.

Viele Gr��e

**fanderlf** · 15.07.2013, 08:55

Also f�r mich klingt das trotzdem danach dass das nichts in der Liste verloren hat. Was spricht gegen eine kleine Klasse Die Deine Daten einfach so filtert wie Du sie brauchst und dann ein IEnumerable<string> zur�ck gibt.

Etwa so:

[highlight=c#]
public class InputFilter
{
public IEnumerable<string> Reduce(IEnumerable<string> input)
{
return input.Distinct().Where(x => x.StartsWith("[START]");
}
}
[/highlight]

Das w�re eine Beispielimplementierung die Du sogar sehr leicht testen kannst.

Dieses Vorgehen w�rde ich auf jeden Fall empfehlen. Meines Erachtens hat eine Liste die Aufgabe eine Liste zu sein, sprich am Ende soll sie sich darum k�mmern, dass Eintr�ge hinzugef�gt und weggenommen werden k�nnen. Das HashSet erachte ich tats�chlich als einen plausiblen Spezialfall weil es f�r Performanz optimiert ist. Dazu kommt jetzt noch wieviele Eintr�ge sich sp�ter in der Liste befinden werden, sprich ob Performanz an dieser Stelle �berhaupt wichtig ist. Wirst Du in Zukunft sehr viele Eintr�ge haben w�rde ich dringend zur Verwendung eines HashSets raten, weil die Eintr�ge in einem HashSet wesentlich schneller gefunden als in einer Liste. Bedenke dass jedesmal wenn Du ein neues Item hinzuf�gen willst die komplette Liste durchgegangen werden muss um zu sehen ob sich dieses Item schon in der Liste befindet.

**Christian Marquardt** · 15.07.2013, 09:03

Warum nicht eine Klasse von der gew�nschten Liste ableiten und Methoden �berschreiben / hinzuf�gen. Das w�rde der OOP entsprechen

**fanderlf** · 15.07.2013, 11:38

In meiner Implementierung bin ich von einem ganz ganz schmalen Interface abh�ngig (IEnumerable<string>). Weniger spezifisch geht schon fast nicht mehr. Bei Vererbung �ber eine Liste bin ich an die komplette Implementierung Liste gekoppelt. Lehrt man ausserdem nicht �berall "Composition over Inheritance"?

Dass ich Vererbung an sich nicht mag ist rein pers�nlicher Geschmack. Die Diskussion dazu hatten wir schon mal und geh�rt nicht hier hin

**Ralf Jansen** · 15.07.2013, 12:42

Wieso k�nnen da �berhaupt Duplikate drin sein? W�re es nicht am sinnvollsten beim erzeugen des bin�r Formats nur sinnvolles reinzuschreiben und nicht nachher unsinniges auszusortieren?
Wenn du das Problem hast das sich der Inhalt auch �ber den Array Indexer �ndert und nicht nur �ber die Add Methode dann �berschreibe halt den Indexer auch und pr�fe dort auf Duplikate.

Lehrt man ausserdem nicht �berall "Composition over Inheritance"?

Leider Nein. Schreib noch ein this an den Parameter dann kann man sich aussuchen wie man das aufrufen will.

**fanderlf** · 15.07.2013, 13:15

Originally posted by Ralf Jansen View Post

Wieso k�nnen da �berhaupt Duplikate drin sein? W�re es nicht am sinnvollsten beim erzeugen des bin�r Formats nur sinnvolles reinzuschreiben und nicht nachher unsinniges auszusortieren?
Wenn du das Problem hast das sich der Inhalt auch �ber den Array Indexer �ndert und nicht nur �ber die Add Methode dann �berschreibe halt den Indexer auch und pr�fe dort auf Duplikate.

Leider Nein. Schreib noch ein this an den Parameter dann kann man sich aussuchen wie man das aufrufen will.

Zu ersterem: Es kommt halt drauf an ob er die Quelle der Datei unter Kontrolle hat oder nicht. Wenn die aus einem externen System kommt kann er nix gegen Duplikate machen. Wenn er selber serialisiert w�rde ich auch doppelte gar nicht erst reinschreiben.

Zu zweiterem: Ich weiss nicht ob ich so etwas als Extension Methode haben m�chte. Im Prinzip st�nde das dann auf alle globalen IEnumerable<string> zur Verf�gung. Je nach Anwendungsfall halte ich das aber f�r Namespace Verschmutzung. Wenn man es oft braucht spricht nat�rlich nichts dagegen. Die Frage ist ob man �berhaupt eine separate Methode braucht wenn man aktuell sowieso nur .Distinct() aufruft

**Ralf Jansen** · 15.07.2013, 13:30

Zu ersterem: Es kommt halt drauf an ob er die Quelle der Datei unter Kontrolle hat oder nicht. Wenn die aus einem externen System kommt kann er nix gegen Duplikate machen.

Wie sollte er beim BinaryFormatter die Quelle nicht im Griff haben? Es kann jemand anderes die gleiche Klasse nicht anders implementieren. Das w�rde sofort knallen.

**Christian Marquardt** · 15.07.2013, 13:47

Habe das auch so aufgefasst, dass er die Daten - zumidnestens erstmalig - von extern bekommt. Sonst w�re die Frage hier v�llig sinnlos. -> doppelte reinschreiben

**altralaser** · 16.07.2013, 08:14

Also w�hrend mein Programm ausgef�hrt wird, kann ich nat�rlich s�mtliche neue Elemente vor der Einf�gung pr�fen, um somit Duplikate gleich auszuschlie�en. Das hei�t, bei der Serialisierung ist meine Liste "sauber".
Das Problem entsteht lediglich beim Programmstart, wenn die Datei zum ersten Mal eingelesen wird. Wie von fanderlf und Christian korrekt angemerkt, ist die Nutzung der Quelle problematisch, da die Datei in meinem Anwendungsfall auch von einem anderen Programm verarbeitet werden kann und die beiden Programme sich funktional unterscheiden. Aus diesem Grund k�nnen durchaus Duplikate auftreten und diese m�ssen gefiltert werden.

Originally posted by Ralf Jansen View Post

Wie sollte er beim BinaryFormatter die Quelle nicht im Griff haben? Es kann jemand anderes die gleiche Klasse nicht anders implementieren. Das w�rde sofort knallen.

Das ist ja so leider nicht ganz korrekt, denn man kann einmal eine Klasse zur Serialisierung markieren und diese dann in mehreren (verschiedenen) Programmen wiederverwenden. Nimm mal an, du definierst einen Namespace MyData.IO und legst dort die Klassen zur (De)Serialisierung ab. Anschlie�end bindest du den Namespace in deine Programme ein. Der BinaryFormatter w�rde keine Exception ausl�sen, da sich die Klasse selbst (und damit der strukturelle Aufbau der Datei) ja nie unterscheidet.

**fanderlf** · 16.07.2013, 08:30

Ich w�rde Dir dringendst davon abraten in mehreren Programmen denselben Binary Formatter zu verwenden. Sollte sich das Format �ndern musst Du in einem Zug alle solchen Files und Programme die sich noch im Umlauf befinden gleichzeitig updaten, sonst kannst Du die alten Dateien nie wieder aufmachen oder hast nur noch Datenm�ll. In diesem Szenario w�rde ich dann entweder auf XML oder etwas Platzsparender JSON setzen. Wenn Dir die Dateien dann noch zu gro� sind kannst Du sie noch komprimieren (zip, rar o.�.).

**altralaser** · 16.07.2013, 09:03

Jepp, bin ja schon auf den XmlSerializer umgestiegen (siehe vorheriges Posting). Ich wollte nur nochmal auf die Frage zur Entstehung der Duplikate antworten.

Announcement

Serialisierungsproblem in C#

Serialisierungsproblem in C#

Comment

Comment

Comment

Comment

Comment

Comment

Comment

Comment

Comment

Comment

Comment

Comment

Comment

Comment