Direkt zum Inhalt

Faulstich, Lukas C. ; Quasthoff, Uwe ; Schmidt, Fabian ; Wolff, Christian

Concept Extractor – Ein flexibler und domänenspezifischer Web Service zur Beschlagwortung von Texten

Faulstich, Lukas C., Quasthoff, Uwe, Schmidt, Fabian und Wolff, Christian (2002) Concept Extractor – Ein flexibler und domänenspezifischer Web Service zur Beschlagwortung von Texten. In: Hammwöhner, Rainer und Wolff, Christian und Womser-Hacker, Christa, (eds.) Information und Mobilität. Proc. 8. Internationales Symposium für Informationswissenschaft. Schriften zur Informationswissenschaft, 40. UVK, Konstanz, S. 165-180. ISBN 978-3896697592.

Veröffentlichungsdatum dieses Volltextes: 19 Okt 2009 12:26
Buchkapitel


Zusammenfassung

We describe a flexible and modular system for keyword extraction and attribution which operates on top of a text mining engine. Texts are analysed in comparison with a large reference corpus and key words are determined using a frequency based method for determining relative term significance. Additionally, selected terms may be expanded using large knowledge bases on inflected forms, ...

We describe a flexible and modular system for keyword extraction and attribution which operates on top of a text mining engine. Texts are analysed in comparison with a large reference corpus and key words are determined using a frequency based method for determining relative term significance. Additionally, selected terms may be expanded using large knowledge bases on inflected forms, orthographic variants, synonyms and multi word terms. This solution is realised as a web-based service which can easily be integrated into existing content management systems.
Der Beitrag beschreibt ein flexibles und modulares System zur automatischen Beschlagwortung von Texten, das auf einer Text Mining-Engine aufbaut. Dabei liegt eine Methode der differentiellen Corpusanalyse zugrunde: Der zu verarbeitende Text wird im Vergleich mit einem unfangreichen Referenzcorpus analysiert und Unterschiede in relativen Häufigkeitsklassen dienen der Auswahl geeigneter Schlagworte. Zusätzlich kommen Datenbanken zum Einsatz, die eine Expansion von Termen hinsichtlich Grundform, Schreibvarianten, Synonymen und Mehrwortbegriffen erlauben. Das System ist als web service realisiert und lässt sich problemlos in Content Management-Systeme integrieren.



Beteiligte Einrichtungen


Details

DokumentenartBuchkapitel
ISBN978-3896697592
Buchtitel:Information und Mobilität. Proc. 8. Internationales Symposium für Informationswissenschaft
Verlag:UVK
Ort der Veröffentlichung:Konstanz
Sonstige Reihe:Schriften zur Informationswissenschaft
Band:40
Seitenbereich:S. 165-180
Datum2002
InstitutionenSprach- und Literatur- und Kulturwissenschaften > Institut für Information und Medien, Sprache und Kultur (I:IMSK) > Lehrstuhl für Medieninformatik (Prof. Dr. Christian Wolff)
Informatik und Data Science > Fachbereich Menschzentrierte Informatik > Lehrstuhl für Medieninformatik (Prof. Dr. Christian Wolff)
Identifikationsnummer
WertTyp
http://d-nb.info/965048225Andere
Klassifikation
NotationArt
H.3.1CCS
H.3.3CCS
I.2.7CCS
H.3.5Nicht ausgewählt
Stichwörter / KeywordsCorpus Linguistics Indexing terminology Management term extraction Information Retrieval Web Services Service oriented computing
Dewey-Dezimal-Klassifikation000 Informatik, Informationswissenschaft, allgemeine Werke > 020 Bibliotheks- und Informationswissenschaft
400 Sprache > 400 Sprachwissenschaft, Linguistik
000 Informatik, Informationswissenschaft, allgemeine Werke > 004 Informatik
StatusVeröffentlicht
BegutachtetJa, diese Version wurde begutachtet
An der Universität Regensburg entstandenJa
URN der UB Regensburgurn:nbn:de:bvb:355-epub-67572
Dokumenten-ID6757

Bibliographische Daten exportieren

Nur für Besitzer und Autoren: Kontrollseite des Eintrags

nach oben