Volltextsuche

Sofern Sie ein Programmsystem erstellen, in welchem Sie eine Volltextsuche benötigen, wird Ihnen die Komponente entgegenkommen, durch welche Sie Wörter unabhängig davon finden können, in welcher Form sie im Text auftauchen. Sofern Sie Aktienkurse suchen, werden Sie sicher froh sein, wenn das Programm auch den Artikel findet, welcher im Begriff die Entwicklung der Aktienkurse oder nur die Aktie enthalten ist. Eben zu diesen Zwecken ist die Komponente bestimmt, durch welche zwei nützliche Dinge zur Verfügung gestellt werden:

Die Grundform des Worts (das Lemma) ist meistens der 1. Fall Singular, also z. B. die Aktie.  Bei Verben versteht man unter Grundform den Infinitiv, z. B. suchen. In einigen Sprachen gibt es jedoch Ausnahmen. Zum Beispiel im Bulgarischen, wo es überhaupt keinen Infinitiv gibt, gilt als Grundform die 1. Person Singular. Im Ungarischen gibt es zwar einen Infinitiv, aber als Lemma wird hier die 3. Person Singular verwendet.

Sprachteil

Bei der Basis für die gesamte Lösung handelt es sich ebenso wie beim Tippfehler-Korrektor um die formale Morphologie-Beschreibung, sie wird aber im Vergleich mit dieser noch mit weiteren Informationen versorgt. Hierbei handelt es vor allem um die grammatischen Kategorien:

Es ist aber nicht so einfach, die Grundform des Worts zu finden, wie sich das auf den ersten Blick vielleicht darstellt. Neben den regelmäßigen Wortformen sind auch die vielfältigen Stammalternationen zu berücksichtigen, welche bei vielen tschechischen Wörtern auftauchen.  Wir meinen die Typenpaare mráz-mrazu (Frost)stůl-stolu (Tisch)Bůh-Bohu (Gott)brontosaurus-brontosauři (Brontosaurier)pelyněk-pelyňku (Wermut)péct-peče (sorgen)stonat-stůně (krank sein) oder sogar Fälle wie hnát-ženu (eilen)Zeus-Diačest-cti (Ehre), u. Ä., wo gleich der erste Buchstabe von der Änderung betroffen ist. Analoge Fälle gibt es in allen Sprachen.  Auch in der relativ einfachen englischen Sprache findet man Typenfälle  come-camebreak-broken oder sogar go-went.

Das zweite Problem ist die Homonymie. Bei einer ganzen Reihe von Wörtern ist es nämlich nicht eindeutig, von welchem Stamm sie abgeleitet wurden. Z. B. ženu (die Frau) kann entweder vom Wort žena (die Frau) (4. Fall Singular) abgeleitet worden sein oder vom Wort hnát (eilen) (1. Person Singular), beim eigentlichen Wort hnát (eilen) kann es sich um ein Wort handeln, durch welches eine Bewegung gekennzeichnet wird oder um ein Substantiv, durch welches eine Gliedmaße bezeichnet wird. Analoge Fälle gibt es wirklich viele, sodass man sich nicht wundern braucht, wenn Ihnen das Programm mehrmals auch mehrere Ergebnisse aufzeigt. Seien Sie jedoch versichert, dass alle korrekt sind.

Programmlösung

Die Programmlösung ist sehr sparsam. Wissen Sie, wie viele unterschiedliche Wortformen es im Tschechischen gibt?  Mehr als 6,7 Millionen. Und diese Menge versteht sich aller morphologischen Informationen, welche in einer Datei mit einer Größe von 1 MB untergebracht wurden. Mit etwas Übertreibung können wir sagen, dass uns 1 Byte für drei tschechische Wörter reicht.

Verfügbare Funktionen

Zum gegenwärtigen Zeitpunkt bieten wir die Unterstützung der Volltextsuche für viele Sprachen (siehe Tabelle) sowie Plattformen (siehe Übersicht) an.  Sofern Sie die Suche noch benutzerfreundlicher gestalten möchten, empfehlen wir Ihnen eine weitere Komponente von uns - das Synonym-Wörterbuch. Für die multilinguale Suche kann es des Weiteren mit unseren Übersetzungstechnologien kombiniert werden, für die Suche in den Audio- und Videoverzeichnissen dann mit den Stimmtechnologien.

Referenzen

Die Möglichkeit der morphologischen Suche für die verschiedenen Sprachen probieren Sie am Besten in den Lingea Lexicon-Anwendungen aus. Diese kommen jedoch hauptsächlich in den Suchsystemen der verschiedenen Produkte oder in den Firmensystemen zum Einsatz.