Auch das System darf sich nicht ablenken lassen

Der Einsatz IT-gestützter Spracherkennung und -ausgabe kann die Datenerfassung in Lagerbereichen erheblich vereinfachen. Bild: Vocollect

Daneben wird die Qualität der Spracherkennung auch von der Fähigkeit einer Lösung beeinflusst, nur relevante Informationen zu verarbeiten. Ausgereifte Systeme arbeiten dafür mit zwei Mechanismen: Damit sich Mitarbeiter problemlos untereinander austauschen können, lässt sich der tragbare Rechner via Sprachbefehl in den Stand-by-Modus versetzen und mit einem Schlüsselwort wieder einschalten. Außerdem filtern die Geräte Nebengeräusche und irrelevante Äußerungen anderer Personen zuverlässig heraus.

Ein bewährtes Verfahren zum Herausfiltern solcher externer Tonquellen ist die Verwendung von Doppelmikrofonen am Headset: Während eines zum Sprecher hin gewandt ist, ist das andere nach außen gerichtet. Die Signale von dem innenliegenden Mikrofon können so von den von außen kommenden Geräuschen und Stimmen unterschieden werden.

Strategien für die Sprachwiedergabe

Der zweite zentrale Bestandteil einer Sprachtechnologielösung ist die Umwandlung elektronischer Textdaten in gesprochene Informationen. Dabei erfolgt die Wiedergabe entweder über eine natürliche oder über eine synthetische Stimme. Die natürliche Wiedergabe setzt voraus, dass vorab alle Begriffe von einem Sprecher eingesprochen und als Aufnahme hinterlegt werden. Dieses ‚Record-and-Playback‘-Verfahren ist jedoch vergleichsweise unflexibel: Ändern sich Produktnamen oder Ortsbezeichnungen, müssen der Einheitlichkeit wegen alle Begriffe neu aufgenommen oder der ursprüngliche Sprecher erneut engagiert werden. Zudem lässt sich die Ansagegeschwindigkeit nicht variieren, was eine limitierende Wirkung auf die Arbeitsgeschwindigkeit haben kann. Die Wiedergabe per synthetischer Stimme ist hingegen merklich flexibler. Grundsätzlich werden auch unbekannte Textdaten verbal wiedergegeben. Ausgereifte Systeme sind zudem in mehreren Sprachen erhältlich und bieten verschiedene männliche und weibliche Stimmen in verschiedenen Ansagegeschwindigkeiten an. So kann jeder Nutzer die Einstellung bestimmen, die er am besten versteht und die seinem Arbeitstempo entspricht – ein Punkt, der gerade für leistungsabhängig entlohnte Mitarbeiter wichtig ist.

Anwender und Computer im Dialog

Zu den Kernelementen der Sprachtechnologie zählt schließlich noch die Dialoggestaltung. Generell gilt, dass die Effizienz mit der Zahl der verwendeten Begriffe sinkt. Gleichzeitig ist es vielen Unternehmen wichtig, dass die Richtigkeit der Auftragserfüllung in Echtzeit kontrolliert wird. Dazu müssen entsprechende Kontrollfunktionen in den Sprachdialog eingebaut werden. Wie dies funktionieren kann, lässt sich am Beispiel der Kommissionierung und des Auffüllens demonstrieren. In beiden Fällen werden die Mitarbeiter zunächst durch die Nennung einer Regal- und Fächernummer an ihren Einsatzort geführt. Dort angekommen, lesen sie Prüfziffern ab, die sich am Fach befinden. Zur Sicherheit ist zudem die Angabe der letzten Ziffern des Artikelcodes möglich. Stimmen die Ziffern, nennt das System die Zahl der Artikel, die entnommen werden sollen, oder es fragt, wieviele Einheiten in das Fach gelegt wurden. Ist der Headsetträger fertig, bestätigt er dies beispielsweise mit einem kurzen „OK“ oder durch Beantwortung der Frage nach der nachgefüllten Zahl. Anschließend wird er zum nächsten Einsatzort geleitet. In die Dialoggestaltung können bei Bedarf weitere Funktionen eingebaut werden, darunter Rechenfunktionen für das Zusammenrechnen von Gewichten oder Dialoge zur Erfassung von Restbeständen. Dadurch kann eine Inventur quasi ‚im Vorbeigehen‘ erfolgen, sodass sich Fehlentwicklungen frühzeitiger erkennen und unterbinden lassen. Ähnlich schlanke Dialoge lassen sich auch für andere lagertypischen Anwendungen realisieren. Grundsätzlich können dabei alle Arten von lager- und lieferrelevanten Daten berücksichtigt werden, auch Angaben wie Verpackungsgröße oder Mindesthaltbarkeit.