Effizientes Dokumentenclustering durch niederfrequente Terme

Quasthoff, Uwe und Wolff, Christian (1998) Effizientes Dokumentenclustering durch niederfrequente Terme. Datenbank Rundbrief (hier: Proc. GI-Workshop „Softwareagenten, Datenbanken und IR“ (VDI-98) TU Chemnitz.) 21, S. 74-77.

Veröffentlichungsdatum dieses Volltextes: 17 Sep 2009 09:50
Artikel
DOI zum Zitieren dieses Dokuments: 10.5283/epub.6847

Vorschau

Download ( PDF | 92kB)

Zusammenfassung

In diesem Papier wird ein statistisches IR-Verfahren vorgestellt, mit dem sich ähnliche Dokumente in umfangreichen Kollektionen effektiv ermitteln lassen. Das Verfahren erwendet als Deskriptoren ausschließlich niederfrequente Terme. Die zur Dokumentbeschreibung benutzten Dokumentvektoren sind schwach besetzt (sparse vectors) und erlauben effiziente Berechnungsverfahren. Die Ermittlung geeigneter ...

Alternative Links zum Volltext

Verlagexterner Link, öffnet neues Fenster

Beteiligte Einrichtungen

Sprach- und Literatur- und Kulturwissenschaften > Institut für Information und Medien, Sprache und Kultur (I:IMSK) > Lehrstuhl für Medieninformatik (Prof. Dr. Christian Wolff) Informatik und Data Science > Fachbereich Menschzentrierte Informatik > Lehrstuhl für Medieninformatik (Prof. Dr. Christian Wolff)
Browse Publikationen

Details

Dokumentenart

Artikel

Titel eines Journals oder einer Zeitschrift

Datenbank Rundbrief (hier: Proc. GI-Workshop „Softwareagenten, Datenbanken und IR“ (VDI-98) TU Chemnitz.)

Verlag:

GI-Fachgruppe 2.5.1 Datenbanksysteme

Band:

Seitenbereich:

S. 74-77

Datum

Mai 1998

Institutionen

Sprach- und Literatur- und Kulturwissenschaften > Institut für Information und Medien, Sprache und Kultur (I:IMSK) > Lehrstuhl für Medieninformatik (Prof. Dr. Christian Wolff)
Informatik und Data Science > Fachbereich Menschzentrierte Informatik > Lehrstuhl für Medieninformatik (Prof. Dr. Christian Wolff)

Klassifikation

Notation	Art
H.3.1	CCS
H.3.3	CCS

Stichwörter / Keywords

Clustering; Dokumentvektoren; sparse vectors; niederfrequente Terme

Dewey-Dezimal-Klassifikation

400 Sprache > 400 Sprachwissenschaft, Linguistik
000 Informatik, Informationswissenschaft, allgemeine Werke > 004 Informatik

Status

Veröffentlicht

Begutachtet

Ja, diese Version wurde begutachtet

An der Universität Regensburg entstanden

Nein

URN der UB Regensburg

urn:nbn:de:bvb:355-epub-68472

Dokumenten-ID

6847

Bibliographische Daten exportieren

Nur für Besitzer und Autoren: Kontrollseite des Eintrags

Downloadstatistik

Weitere Literatur (mittels CORE)

nach oben