Direkt zum Inhalt

Quasthoff, Uwe ; Wolff, Christian

Effizientes Dokumentenclustering durch niederfrequente Terme

Quasthoff, Uwe and Wolff, Christian (1998) Effizientes Dokumentenclustering durch niederfrequente Terme. Datenbank Rundbrief (hier: Proc. GI-Workshop „Softwareagenten, Datenbanken und IR“ (VDI-98) TU Chemnitz.) 21, pp. 74-77.

Date of publication of this fulltext: 17 Sep 2009 09:50
Article
DOI to cite this document: 10.5283/epub.6847


Abstract

In diesem Papier wird ein statistisches IR-Verfahren vorgestellt, mit dem sich ähnliche Dokumente in umfangreichen Kollektionen effektiv ermitteln lassen. Das Verfahren erwendet als Deskriptoren ausschließlich niederfrequente Terme. Die zur Dokumentbeschreibung benutzten Dokumentvektoren sind schwach besetzt (sparse vectors) und erlauben effiziente Berechnungsverfahren. Die Ermittlung geeigneter ...

In diesem Papier wird ein statistisches IR-Verfahren vorgestellt, mit dem sich ähnliche Dokumente in umfangreichen Kollektionen effektiv ermitteln lassen. Das Verfahren erwendet als Deskriptoren ausschließlich niederfrequente Terme. Die zur Dokumentbeschreibung benutzten Dokumentvektoren sind schwach besetzt (sparse vectors) und erlauben effiziente Berechnungsverfahren.

Die Ermittlung geeigneter Deskriptoren zieht als zusätzliche Informationsquelle eine umfangreiche Datenbank mit Frequenzinformation heran.



Involved Institutions


Details

Item typeArticle
Journal or Publication TitleDatenbank Rundbrief (hier: Proc. GI-Workshop „Softwareagenten, Datenbanken und IR“ (VDI-98) TU Chemnitz.)
Publisher:GI-Fachgruppe 2.5.1 Datenbanksysteme
Volume:21
Page Range:pp. 74-77
DateMay 1998
InstitutionsLanguages and Literatures > Institut für Information und Medien, Sprache und Kultur (I:IMSK) > Lehrstuhl für Medieninformatik (Prof. Dr. Christian Wolff)
Informatics and Data Science > Department Human-Centered Computing > Lehrstuhl für Medieninformatik (Prof. Dr. Christian Wolff)
Classification
NotationType
H.3.1CCS
H.3.3CCS
KeywordsClustering; Dokumentvektoren; sparse vectors; niederfrequente Terme
Dewey Decimal Classification400 Language > 400 Language, Linguistics
000 Computer science, information & general works > 004 Computer science
StatusPublished
RefereedYes, this version has been refereed
Created at the University of RegensburgNo
URN of the UB Regensburgurn:nbn:de:bvb:355-epub-68472
Item ID6847

Export bibliographical data

Owner only: item control page

nach oben