Desambiguator - Automatische Worttrennung

Die historisch älteste, in Bezug auf die Größe kleinste, aber ansonsten trotzdem nützliche Funktion. So ließe sich das Modul für die automatische Worttrennung am Ende der Zeile charakterisieren.  Einfach unerlässlich ist sie in den DTP-Systemen bei Spaltensätzen, einen neuen Anwendungsbereich hat sie auch in den weiter entwickelten E-Bücher-Lesegeräten gefunden.

Sprachteil

Das Modul für die Worttrennung arbeitet nicht mit dem umfangreichen Wörterbuch, sondern mit einer sorgfältig ausgewählten Mustermenge für die Worttrennung. Aus diesem Grund ist der Datenteil sehr kompakt, z. B. belegen die kompletten Musterdateien für die Trennung von tschechischen Wörtern allein 30 KB auf dem Speicher, wobei die Erfolgsquote 99,92 % beträgt.   Neben dem ursprünglichen tschechischen Wortschatz betrifft dies auch eine Reihe von Termini oder Fremdwörtern (cy-to-pla-s-ma,spek-t-ro-skopkon-to-ko-rentsoft-wareplay-boyBre-tagne) oder nicht eindeutige tschechische Wörter (pod-ro-bit im Sinn von podmanit (erobern), aber po-dro-bit im Sinn von drobit (zerkrümeln)). Es werden aber auch solche typografischen Grundsätze beachtet, wie zum Beispiel das Verbot zur Trennung des Wortes knihovna (Bibliothek), dessen zweiter Teil am Beginn einer Zeile (oder am Seitenende) eine unpassende Assoziation auslösen könnte (hovno = vulgärer Ausdruck für Kot).

Programmlösung

Das Programm für die Worttrennung wurde auf so eine Art und Weise konzipiert, dass im höchstmöglichen Maß alle Möglichkeiten zur Trennung des betreffenden Wortes inbegriffen sind.  Im Unterschied zu den einfachen Trennungsalgorithmen beschränkt es sich somit nicht nur auf die sichere Bestimmung von einigen Trennungsmöglichkeiten. Zur Programmlösung gehört auch ein sehr effektiver Algorithmus zur Suche von Mustern und Informationen zum Trennen. Die Suchgeschwindigkeit von allen Mustern für das betreffende Wort ist nur von der Länge dieses Wortes abhängig, nicht jedoch von der Anzahl der Muster. Gleichzeitig ist dieser Algorithmus aufgrund der Wortmusterstruktur einfach genug und somit in einem beliebigen Produkt einfach zu verwenden.

Verfügbare Funktionen

Zum gegenwärtigen Zeitpunkt bieten wir das Worttrennungsmodul für eine breite Sprachpalette (siehe Tabelle) sowie Plattformen (siehe Übersicht) an.

Referenzen

Die Worttrennung von der Firma Lingea ist im Adobe InDesign - dem meist verwendeten System für Buchsätze und weitere Veröffentlichungen - integriert sowie auch in allen Microsoft Office-Programmen (Word, PowerPoint und andere). Die Qualität von unserem Trennungsalgorithmus für Tschechisch ist auch in der Tagespresse nachzuvollziehen, da zum Beispiel von den Tageszeitungen MF Dnes und Lidové noviny ein Redaktionssystem verwendet wird, in welchem unser Modul integriert ist.