Announcement

**Christian Marquardt** · 11.05.2019, 09:32

Vermutlich wird das Leerzeichen mitgenommen. Gruppieren ~\b\(w+)\b~u

**pega** · 11.05.2019, 10:18

wenn ich die Umlaute ersetze (siehe unterer Block) stimmt alles:

**Christian Marquardt** · 11.05.2019, 10:43

Interessant
Mal das w mit [0-9a-zA-ZÜÄÖüäöß]
ersetzen

**pega** · 11.05.2019, 11:42

alles schon probiert (auch \p{L}). Bei diesem Tool https://regex101.com/r/cfI3Ac/1 funktioniert es.

**Christian Marquardt** · 11.05.2019, 17:52

echo "Treffer; Start; Länge<br>";
$pattern = "~\b\w+\b~u";
$text = "Käthe würde gerne wählen.";
if (preg_match_all($pattern,utf8_encode($text), $matches, PREG_OFFSET_CAPTURE)) {
foreach ($matches[0] as $m) {
echo $m[0]."; ".$m[1]."; ".mb_strlen($m[0], "utf-8")."<br />";
}
}
äöü sind nicht UTF-8

UTF-8:
KÃ¤the wÃ¼rde gerne wÃ¤hlen

Announcement

Falscher Offset bei Wörtern mit Umlauten im Regex-Ergebnis

Falscher Offset bei Wörtern mit Umlauten im Regex-Ergebnis

Comment

Comment

Comment

Comment

Comment