Announcement

**Christian Marquardt** · 23.12.2012, 22:18

Denke, dass deine Ausdr�cke zu pr�fen w�ren:

Am Anfang ein Zeichen [A-Za-z_0-9!#\$%&\'\*\+\/=\?_-] aus dieser Gruppe und das mindestens einmal, aber h�chsten 40-Mal und das das Ende der Zeichenkette. Das ist so gew�nscht?

Vielleicht beschreibst du, was der Ausdruck bewirken soll bzw. was

unerw�nschte Stringketten (die Keine "W�rter" darstellen)

das heissen soll. ggf. hilft

http://www.regexplanet.com/advanced/java/index.html

**mts20** · 24.12.2012, 12:44

Hallo Christian,

danke f�r deine Antwort.

Nein das mit dem {1,40} ist nicht unbedingt eine Vorraussetzung (anders funktioniert der Regex-Code aber nicht?). Ich muss gestehen, dass ich mich mit Regularexpressions nicht sonderlich gut auskenne.

Hier mal ein Beispielarray:

Array
(
[&] => 14
[more] => 12
[f�r] => 8
[winter] => 8
[�sterreich] => 6
[urlaub] => 6
[wellness] => 5
[schladming] => 5
[hotel] => 4
[republika] => 4
[2013] => 4
[kunst] => 4
[karte] => 4
[sommer] => 4
[alpine] => 4
[2012] => 4
[designhotels] => 4
[kultur] => 3
[f�r] => 3
[besten] => 3
[countries] => 3
[festspiele] => 3
[�sterreichs] => 3
[sch�nsten] => 3
[h�tte] => 3
[gustav] => 3
[design] => 3
[infos] => 3
[weihnachtsm�rkte] => 3
[ferienhaus] => 3
[baden] => 3
[golf] => 3
[�berspringen] => 3
[architektur] => 3
[kinder] => 3
[werbung] => 2
[winterurlaub] => 2
[wintertyp] => 2
[tirol] => 2
[jahr] => 2
[entspannt] => 2
[bilder] => 2
[kulturveranstaltungen] => 2
[bregenzer] => 2
[k�rnten] => 2
[vorarlberg] => 2
[facts�] => 2
[donau] => 2
[bundesl�nder] => 2
[nieder�sterreich] => 2
[bookbasic] => 2
[discoverplansearch] => 2
[angebote] => 2
[skigebieten] => 2
[aktuelle] => 2
[entdeckenplanensuchen] => 2
[buchenwissenswertes�] => 2
[tirols] => 2
[spezialit�ten] => 2
[nachhaltigkeit] => 2
[musik] => 2
[tradition] => 2
[natur] => 2
[radfahren] => 2
[wiener] => 2
[langlaufen] => 2
[mountainbiken] => 2
[ausflugsziele] => 2
[handwerk] => 2
[individuell] => 2
[kulinarik] => 2
[klimt] => 2
[museum] => 2
[salzburger] => 2
[�ber] => 2
)

Dabei w�rde ich die gr�n markierten gerne ausfiltern, die orangen gerne ausfiltern (jedoch sind hier umlaute falsch dargestellt, wie bringe ich die hier auf eine saubere Form, bei einigen gr�n-markierten funktioniert die Codierung ja auch richtig?). Die roten sollen ausgefiltert werden (Sonderzeichen enthalten, oder nur numerisch).

Eventuell hat jemand ja eine Idee.

Viele Gr��e und sch�ne Weihnachten!

**Christian Marquardt** · 24.12.2012, 13:01

Also ich kann das kaum erkennen und verstanden habe ich das auch nicht

die gr�n markierten gerne ausfiltern

Ok, alle gr�nen sollen raus

die orangen gerne ausfiltern

Ok, die orangen sollen auch raus, haben aber "kaputte" Umlaute

Die roten sollen ausgefiltert werden (Sonderzeichen enthalten, oder nur numerisch).

Ok, von den roten sollen nur die �brig bleiben, die Buchstaben enthalten. Die roten sind offenbar Texte mit Sonderzeichen oder nur Ziffern?

Na deinem Beispiel bleibt von der obigen Liste keiner bestehen:

Alle gr�nen und orangen sind raus, alle roten sind raus, weil sie Sonderzeichen oder Ziffern enthalten

Nein das mit dem {1,40} ist nicht unbedingt eine Vorraussetzung (anders funktioniert der Regex-Code aber nicht?)

Das sollte so nicht sein

Wenn einige Text korrekte Umlaut enthalten nd andere nicht -> kommen die aus der gleichen Quelle?

**mts20** · 24.12.2012, 13:14

Ich lasse dieses Array durch eine Schleife laufen und m�chte gr�n + orange (mit korrekten umlauten) in ein neues array (ges�ubert) schreiben. Nur rot soll gar nicht �bernommen werden. Hier habe ich mich wohl falsch ausgedr�ckt.
Die einzelnen Terme kommen alle aus der selben Textquelle.

**Christian Marquardt** · 24.12.2012, 13:28

Das Problem ist doch in zwei Schritte zu zerlegen:
Einmal die Kl�rung, warum dort falsch codierte Zeichen drin sind und
das aussortieren der nicht gewollten Strings

Du kannst entweder feststellen, ob bestimmte Zeichen enthalten sind und dann den String �bernehmen oder verwerfen. Dazu ist entweder die Gruppe der gew�nschten Zeichen festzulegen oder die Gruppe der unwerw�nschten Zeichen. Je nachdem, was k�rzer ist. Ich habe noch nicht so richtig erkennen k�nnen, welche Zeichen nun erw�nscht sind oder nicht. Im Beitrag #1 waren ja durchaus auch Zahlen und Sonderzeichen im Ausdruck, als auch Buchtstaben.

Wenn du die Ursache f�r die unterschiedliche Zeichenkodierung nicht finden kannst, bleibt immer noch der "harte" Weg in einem Zwischenschritt die String durchzugehen und bsp. alle � mit einem � zu erstzen usw.

**mts20** · 24.12.2012, 13:40

Danke f�r die Hilfe! Werde dann im ersten Schritt erstmal das Array s�ubern und daf�r sorgen, dass dort korrekte Umlaute angezeigt werden.
Wie w�rdest du an die Filterung herangehen, so dass nur W�rter (+ W�rter mit Umlauten) aufgegriffen werden?

**Christian Marquardt** · 24.12.2012, 13:50

Mit der Zeichenklasse \w -> nur Buchstaben

**Bernhard Geyer** · 24.12.2012, 14:32

Originally posted by Christian Marquardt View Post

Wenn du die Ursache f�r die unterschiedliche Zeichenkodierung nicht finden kannst, bleibt immer noch der "harte" Weg in einem Zwischenschritt die String durchzugehen und bsp. alle � mit einem � zu erstzen usw.

Ich w�rde sagen das Problem ist das er eine UTF8-Codierte Webseite bekommt und diese nicht richtige Decodiert um sie uncodiert zu bekommen.

**Christian Marquardt** · 24.12.2012, 14:44

Joo, das w�re es, aber warum sind dann einige richtig?

**Bernhard Geyer** · 24.12.2012, 16:15

Originally posted by Christian Marquardt View Post

Joo, das w�re es, aber warum sind dann einige richtig?

Stimmt. Es w�re gut zu wissen wie die Quelldatei wirklich aussieht. Manche Webseiten sind teilweis so fehlerhaft implementiert das evtl. die korrekten einfach nur fehlerhaft im HTML-Code vorliegen oder aus nachgeladenen anders Codierten Dateien kommen.

**Christian Marquardt** · 24.12.2012, 16:17

Ja, das koennte es sein...

Announcement

Problem mit preg_match und Umlauten

Problem mit preg_match und Umlauten

Comment

Comment

Comment

Comment

Comment

Comment

Comment

Comment

Comment

Comment

Comment