Projekt

IDX

Textindexierung mit IDX

  • Laufzeit:

IDX ist ein professionelles Textindexierungssystem mit hochwertigen linguistischen Ressourcen. Es erreicht eine herausragende Qualität bei der Indexierung sehr großer Volumen an deutschen und englischen Texten. IDX ist in der Lage, die Grundformen von Wörtern, Derivationen und Komposita zu bestimmen, so dass jede Instanz eines Suchterms systematisch gefunden wird. Daher bietet IDX, zusammen mit anderen Werkzeugen, eine ideale Grundlage für hochperformantes Information retrieval.

IDX bietet die folgenden Funktionalitäten an:

  • Volltextsuche
  • Eigennamenerkennung
  • Schnittstellen zu Information-Retrieval-Systemen

Volltextsuche mit IDX

Wortformen werden auf ihre Grundformen zurückgeführt, um eine effektive Freitextsuche zu gewährleisten. Beispiele: Bundeskanzlers → Bundeskanzler; Indizes/Indices → Index; schlugst → schlagen; gedopt → dopen

Auf Wunsch werdenb Stoppwörter ("der", "und") mithilfe einer Stoppwortliste forn der Indexierung ausgenommen. Solche Wörter sind gewöhnlich unerwünscht im Index.

Komposita und Derivationen erhalten zusätzlich zur Grundformanalyse die (bedeutungstragenden) Bestandteile zugewiesen. Beispiele: Softwarefirma → Software, Firma; dopen → Doping. So kann nach Komponenten der Komposita gesucht werden.

Abkürzungen, Akronyme und ihre Expansionen werden demselben Indexeintrag zugeordnet, z.B. BDI → Bundesverband der Deutschen Industrie; BdI → Bundesministerium des Innern; Frankr.→ Frankreich.

Zwischen Wörtern gleicher Schreibweise kann eine wortklassenorientierte Auswahl getroffen werden Im Fall von "Rasen" kann beispielsweise die verbale Lesart ("Rasen verboten!") blockiert werden, womit lediglich die nominale Variante indexiert wird ("Rasen mähen!").

Mehrwortausdrücke, soweit sie lexikalisch gefunden werden, sind ebenfalls der Grundformbestimmung unterworfen, z.B. legal actions → legal action.

Synonyme or Hypernyme können auf Wunsch jeweils demselben Indexeintrag zugeordnet werden, z.B. Computer → Rechner; Tür → Gebäude. Weitere assoziative beziehungen sind frei definierbar..

Ein wortorientiertes Übersetzungslexikon gestattet die Erkennung fremdsprachlicher Ausdrückeaufgrund von englisch oder deutschen Suchtermen. Beispiele: Secretary of State → Außenminister (USA); Chancellor of the Exchequer → Finanzminister (GB); goal → Ziel; goal → Tor.

Eigennamenerkennung mit IDX

Eine weitere Komponente von IDX erlaubt die Erkennung von Eigennamen für deutsch und englisch. Sie benutzt semantische Information, die im Umgebingstext von Namensausdrücken vorkommen muss. Die Umgebung wird mit einer Menge vorgegebener Muster abgeglichen. Beispiele: "Prof. Dr. Rudolf Spur", "DFKI GmbH".

Schnittstellen von IDX zu Information-Retrieval-Systemen

Eine XML-basierte Schnittstelle steht zur problemlosen Integration der Ergebnisse in ein geeignetes Volltext-Retrieval-System zur Verfügung. Weiter gehende Adaptionen zum Retrieval formatierter Daten können einfach und schnell auf Bedarf realisiert werden.

IDX kann für den kommerziellen Einsatz lizenziert werden. Bitte kontaktieren Sie uns, um Einzelheiten zu erfahren.

Projekt teilen auf:

Ansprechpartner

Deutsches Forschungszentrum für Künstliche Intelligenz
German Research Center for Artificial Intelligence