| Download ( PDF | 92kB) |
Effizientes Dokumentenclustering durch niederfrequente Terme
Quasthoff, Uwe and Wolff, Christian (1998) Effizientes Dokumentenclustering durch niederfrequente Terme. Datenbank Rundbrief (hier: Proc. GI-Workshop „Softwareagenten, Datenbanken und IR“ (VDI-98) TU Chemnitz.) 21, pp. 74-77.Date of publication of this fulltext: 17 Sep 2009 09:50
Article
DOI to cite this document: 10.5283/epub.6847
Abstract
In diesem Papier wird ein statistisches IR-Verfahren vorgestellt, mit dem sich ähnliche Dokumente in umfangreichen Kollektionen effektiv ermitteln lassen. Das Verfahren erwendet als Deskriptoren ausschließlich niederfrequente Terme. Die zur Dokumentbeschreibung benutzten Dokumentvektoren sind schwach besetzt (sparse vectors) und erlauben effiziente Berechnungsverfahren. Die Ermittlung geeigneter ...
In diesem Papier wird ein statistisches IR-Verfahren vorgestellt, mit dem sich ähnliche Dokumente in umfangreichen Kollektionen effektiv ermitteln lassen. Das Verfahren erwendet als Deskriptoren ausschließlich niederfrequente Terme. Die zur Dokumentbeschreibung benutzten Dokumentvektoren sind schwach besetzt (sparse vectors) und erlauben effiziente Berechnungsverfahren.
Die Ermittlung geeigneter Deskriptoren zieht als zusätzliche Informationsquelle eine umfangreiche Datenbank mit Frequenzinformation heran.
Alternative links to fulltext
Involved Institutions
Details
| Item type | Article | ||||||
| Journal or Publication Title | Datenbank Rundbrief (hier: Proc. GI-Workshop „Softwareagenten, Datenbanken und IR“ (VDI-98) TU Chemnitz.) | ||||||
| Publisher: | GI-Fachgruppe 2.5.1 Datenbanksysteme | ||||||
|---|---|---|---|---|---|---|---|
| Volume: | 21 | ||||||
| Page Range: | pp. 74-77 | ||||||
| Date | May 1998 | ||||||
| Institutions | Languages and Literatures > Institut für Information und Medien, Sprache und Kultur (I:IMSK) > Lehrstuhl für Medieninformatik (Prof. Dr. Christian Wolff) Informatics and Data Science > Department Human-Centered Computing > Lehrstuhl für Medieninformatik (Prof. Dr. Christian Wolff) | ||||||
| Classification |
| ||||||
| Keywords | Clustering; Dokumentvektoren; sparse vectors; niederfrequente Terme | ||||||
| Dewey Decimal Classification | 400 Language > 400 Language, Linguistics 000 Computer science, information & general works > 004 Computer science | ||||||
| Status | Published | ||||||
| Refereed | Yes, this version has been refereed | ||||||
| Created at the University of Regensburg | No | ||||||
| URN of the UB Regensburg | urn:nbn:de:bvb:355-epub-68472 | ||||||
| Item ID | 6847 |
Download Statistics
Download Statistics