Announcement

**Ralf Jansen** · 16.07.2014, 14:52

Im SQL Server

[HIGHLIGHT=SQL]select TOP 100 word
from keywords
group by word
order by count(*) [/HIGHLIGHT]

Edit : den desc im order by rausgeworfen du wolltest ja die seltensten Wörter

**Kukulcan** · 16.07.2014, 15:11

Danke, aber ich fürchte du hast meine Anforderung falsch verstanden.

Ich bekomme für eine bestimmte PDF z.B. die Wörter "der", "die", "das", "Auto", "Haus" und "Flux Kompensator" zurück (alle nur einmal).

In der gesamten Tabelle taucht aber 1811 mal "der", 1234 mal "die", 1178 mal "das", 497 mal "Auto", 25 mal "Haus" und 2 mal "Flux Kompensator" auf. Nach dieser Anzahl möchte ich das erste Ergebnis sortieren (nach der Theorie, dass "Flux Kompensator" ein wichtigeres Keyword für die Datei ist als "der").

**Christian Marquardt** · 16.07.2014, 16:08

Aus "deprecated" verschoben

**Ralf Jansen** · 16.07.2014, 16:28

Vielleicht hab ichs diesmal besser verstanden.

[HIGHLIGHT=SQL]
SELECT k1.word
FROM keywords k1
INNER JOIN (SELECT word, count(*) as Anz
FROM keywords
GROUP BY word) k2 on k1.word = k2.word
WHERE k1.pdf_id = <my_pdf_id>
ORDER BY k2.Anz[/HIGHLIGHT]

**Kukulcan** · 17.07.2014, 16:30

Danke schon mal, komme leider erst morgen dazu es zu testen

Originally posted by Ralf Jansen View Post

Vielleicht hab ichs diesmal besser verstanden.

[HIGHLIGHT=SQL]
SELECT k1.word
FROM keywords k1
INNER JOIN (SELECT word, count(*) as Anz
FROM keywords
GROUP BY word) k2 on k1.word = k2.word
WHERE k1.pdf_id = <my_pdf_id>
ORDER BY k2.Anz[/HIGHLIGHT]

**Kukulcan** · 18.07.2014, 16:07

Super, klappt technisch einwandfrei. Auch die Hoffnung, relevante Begriffe weit oben zu haben, wird ziemlich gut erfüllt. Leider finden sich weit oben auch alle Rechtschreibfehler

**Ralf Jansen** · 18.07.2014, 16:47

Nach zweiter Überlegung.
Währen diejenigen Wörter nicht gute Schlüsselworte die im Dokument häufig sind im Gesamtwortschatz aber nicht anstatt einfach seltene Wörter?

[Highlight=SQL]
SELECT DISTINCT k1.word, LokalAnz / GlobalAnz as Quality
FROM keywords k1
INNER JOIN (SELECT word, cast(COUNT(*) as float) AS GlobalAnz
FROM keywords
GROUP BY word) k2 ON k1.word = k2.word
INNER JOIN (SELECT word, cast(COUNT(*) as float) AS LokalAnz
FROM keywords
WHERE pdf_id = 1
GROUP BY word) k3 ON k1.word = k3.word
WHERE k1.pdf_id = 1
ORDER BY 2 desc[/Highlight]

**Kukulcan** · 22.07.2014, 13:01

Originally posted by Ralf Jansen View Post

Nach zweiter Überlegung.
Währen diejenigen Wörter nicht gute Schlüsselworte die im Dokument häufig sind im Gesamtwortschatz aber nicht anstatt einfach seltene Wörter?

Super Einsatz, vielen Dank. Allerdings liegen die Daten schon so vor, dass jedes Wort nur einmal vorhanden ist. Und ich möchte die PDFs nicht bei jedem Zugriff neu parsen.

Announcement

Sortieren von Schlüsselwörtern nach deren Häufigkeit

Sortieren von Schlüsselwörtern nach deren Häufigkeit

Comment

Comment

Comment

Comment

Comment

Comment

Comment

Comment