| Download ( PDF | 399kB) |
Concept Extractor – Ein flexibler und domänenspezifischer Web Service zur Beschlagwortung von Texten
Faulstich, Lukas C., Quasthoff, Uwe, Schmidt, Fabian und Wolff, Christian (2002) Concept Extractor – Ein flexibler und domänenspezifischer Web Service zur Beschlagwortung von Texten. In: Hammwöhner, Rainer und Wolff, Christian und Womser-Hacker, Christa, (eds.) Information und Mobilität. Proc. 8. Internationales Symposium für Informationswissenschaft. Schriften zur Informationswissenschaft, 40. UVK, Konstanz, S. 165-180. ISBN 978-3896697592.Veröffentlichungsdatum dieses Volltextes: 19 Okt 2009 12:26
Buchkapitel
Zusammenfassung
We describe a flexible and modular system for keyword extraction and attribution which operates on top of a text mining engine. Texts are analysed in comparison with a large reference corpus and key words are determined using a frequency based method for determining relative term significance. Additionally, selected terms may be expanded using large knowledge bases on inflected forms, ...
We describe a flexible and modular system for keyword extraction and attribution which operates on top of a text mining engine. Texts are analysed in comparison with a large reference corpus and key words are determined using a frequency based method for determining relative term significance. Additionally, selected terms may be expanded using large knowledge bases on inflected forms, orthographic variants, synonyms and multi word terms. This solution is realised as a web-based service which can easily be integrated into existing content management systems.
Der Beitrag beschreibt ein flexibles und modulares System zur automatischen Beschlagwortung von Texten, das auf einer Text Mining-Engine aufbaut. Dabei liegt eine Methode der differentiellen Corpusanalyse zugrunde: Der zu verarbeitende Text wird im Vergleich mit einem unfangreichen Referenzcorpus analysiert und Unterschiede in relativen Häufigkeitsklassen dienen der Auswahl geeigneter Schlagworte. Zusätzlich kommen Datenbanken zum Einsatz, die eine Expansion von Termen hinsichtlich Grundform, Schreibvarianten, Synonymen und Mehrwortbegriffen erlauben. Das System ist als web service realisiert und lässt sich problemlos in Content Management-Systeme integrieren.
Alternative Links zum Volltext
Beteiligte Einrichtungen
Details
| Dokumentenart | Buchkapitel | ||||||||||
| ISBN | 978-3896697592 | ||||||||||
| Buchtitel: | Information und Mobilität. Proc. 8. Internationales Symposium für Informationswissenschaft | ||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|
| Verlag: | UVK | ||||||||||
| Ort der Veröffentlichung: | Konstanz | ||||||||||
| Sonstige Reihe: | Schriften zur Informationswissenschaft | ||||||||||
| Band: | 40 | ||||||||||
| Seitenbereich: | S. 165-180 | ||||||||||
| Datum | 2002 | ||||||||||
| Institutionen | Sprach- und Literatur- und Kulturwissenschaften > Institut für Information und Medien, Sprache und Kultur (I:IMSK) > Lehrstuhl für Medieninformatik (Prof. Dr. Christian Wolff) Informatik und Data Science > Fachbereich Menschzentrierte Informatik > Lehrstuhl für Medieninformatik (Prof. Dr. Christian Wolff) | ||||||||||
| Identifikationsnummer |
| ||||||||||
| Klassifikation |
| ||||||||||
| Stichwörter / Keywords | Corpus Linguistics Indexing terminology Management term extraction Information Retrieval Web Services Service oriented computing | ||||||||||
| Dewey-Dezimal-Klassifikation | 000 Informatik, Informationswissenschaft, allgemeine Werke > 020 Bibliotheks- und Informationswissenschaft 400 Sprache > 400 Sprachwissenschaft, Linguistik 000 Informatik, Informationswissenschaft, allgemeine Werke > 004 Informatik | ||||||||||
| Status | Veröffentlicht | ||||||||||
| Begutachtet | Ja, diese Version wurde begutachtet | ||||||||||
| An der Universität Regensburg entstanden | Ja | ||||||||||
| URN der UB Regensburg | urn:nbn:de:bvb:355-epub-67572 | ||||||||||
| Dokumenten-ID | 6757 |
Downloadstatistik
Downloadstatistik