IBM
ViaVoice Pro Release 8 - Eine Prophezeiung erfüllt sich Arthur C. Clarke und Stanley Kubrick hatten ihn in ihrem 1968 erschienenen Roman/Film "2001 - A Space Odyssey (dt. 2001: Odyssee im Weltraum)"; D.F. Jones hatte ihn 1966 in seinem Roman "Colossus", der 1969 als "Colossus - The Forbin Project" als Film auftauchte, ich habe ihn 2001 auf meinem Tisch mit IBM ViaVoice Pro Release 8: Einen Computer, der sprechen und hören kann!
Offensichtlich ist die Idee schon ganz schön alt (und es gibt sicherlich noch ältere Quellen). Bezeichnend ist aber bei "2001: Odyssee im Weltraum", dass der hörende und sprechende Computer vom Typ HAL 9000 ist, was eine bewusst gewählte Anspielung auf IBM ist (die Buchstaben sind im Alphabet um eins nach vorn geschoben). Damals konnte man sich nur schwer vorstellen, dass eine andere Firma als IBM einen solchen Rechner entwickeln könnte - immerhin hatte IBM 1962 ein erstes Sprachausgabegerät vorgestellt.
Wie wir aus dem Film erfahren können, wurde HAL 9000 angeblich am 12. Januar 1992 in Betrieb genommen. Über 30 Jahre nach dem Film hat sich die Sprachtechnologie auf Computern ganz ähnlich entwickelt. Um 1992 kamen die ersten Spracherkennungssysteme für Desktop-PCs, die eine Erkennung von kontinuierlich gesprochener Sprache unterstützten. Deren Wortschatz und Erkennungsgenauigkeit war jedoch noch recht beschränkt.
Heute, im Filmjahr 2001, stellt die Software ViaVoice Pro Release 8 von IBM (die übrigens schon im Jahr 2000 erschien) sicherlich mit das erreichbare Maximum dieser Technologie dar - zumindest für den normal sterblichen Endanwender.
Allerdings kann ein PC damit im Gegensatz zu HAL 9000 "nur" hören und sprechen. Doch wer die oben zitierten Filme kennt, der wird sicherlich froh sein, dass das selbsttätige Denken und Handeln unserer heutigen Rechner sich noch auf gelegentliche, unmotivierte Abstürze beschränkt (Was wollen sie uns wohl damit sagen?).
Die ebenfalls fehlende Fähigkeit des Lippenlesens böte sicherlich einige interessante Möglichkeiten die Erkennungsgenauigkeit in lauter Umgebung zu verbessern - hat aber, wie HAL 9000 im Film überdeutlich klarmacht, auch einige nicht unerhebliche Nachteile. Immerhin ist diese Fähigkeit dafür verantwortlich, dass HAL 9000 nacheinander fast die gesamte Besatzung des Raumschiffs umbringt und schließlich das letzte verbliebene Crewmitglied daran hindern will, nach einem Raumspaziergang zurück an Bord des Raumschiffes zu kommen.
Aus diesem Zusammenhang stammt auch das unter Science Fiction-Fans legendäre Zitat, das ich als Titel dieses Berichts gewählt habe. (Dave fordert HAL 9000 auf, die Schleuse zu öffnen. Doch HAL 9000 hat durch seine Lippenlese-Fähigkeit erfahren, dass die Mannschaft ihn für fehlerhaft hält und deswegen abschalten möchte, was wiederum seiner Geheimprogrammierung, das Missionsziel mit allen Mitteln zu erreichen, widerspricht. Deshalb antwortet er auf die Anweisung von Dave: "I'm sorry Dave, I'm afraid I can't do that." (Tut mir leid Dave, ich befürchte, dass ich das nicht tun kann.)
Wie auch immer: Mit IBM ViaVoice Pro Release 8 ist jedenfalls die Zeit der taubstummen Computer endgültig vorbei. Für einen Preis von weniger als DM 400 (siehe S. 21 "Die Features ") kann man auf heute gängigen PCs nach einem Anfangstraining mit hoher Erkennungsgenauigkeit seine Texte einfach, flüssig und ohne besondere Sprechweise diktieren.
Das eben erwähnte Anfangstraining klassifiziert ViaVoice als eine sprecherabhängige Spracherkennung. Das heißt, dass jeder Benutzer des Systems dem Programm erst vorgestellt werden muss, bevor er/sie es sinnvoll nutzen kann. Eine erschwingliche sprecherunabhängige Erkennung kontinuierlicher Sprache mit großem Wortschatz und hoher Erkennungsquote wird wohl noch ein paar Jahre dauern.
Während dieser Trainingsphase, in der man dem Rechner einen vorgegebenen Text vorliest, wird ein so genanntes Sprechmodell erzeugt, das speziell auf diesen einen Benutzer zugeschnitten ist. Dieses Training ist deshalb auch einer der Schlüsselpunkte bei der Benutzung des Programms. Mit dem Umfang des Trainings und der Sorgfalt, mit der es durchgeführt wird, steht und fällt die erzielte Erkennungsgenauigkeit (siehe Kasten Seite 20).
In meinen Tests habe ich festgestellt, dass ein vollständig durchgeführtes Training unter Beachtung der im Extra-Kasten erwähnten Randbedingungen zu einer unglaublich hohen Erkennungsrate schon beim ersten Testdiktat führte. Von den Wörtern, die ViaVoice bekannt waren, wurden fast hundert Prozent korrekt erkannt. Probleme gab es in erster Linie beim Räuspern oder anderen Störgeräuschen oder wenn ich vergessen hatte, das Mikrofon ein- beziehungsweise auszuschalten, mit Satzzeichen und den Befehlen zur Formatierung.
Die Sache mit den Störgeräuschen und dem Ein- und Ausschalten bekommt man aber recht bald in den Griff. Mehr Schwierigkeiten machten mir anfangs die Satzzeichen, da man sie gewohnheitsbedingt beim normalen Sprechen auslässt und sobald ich mich dazu zwang, alle Satzzeichen mitzusprechen, mein Redefluss ziemlich durcheinander kam.
Meine Freundin, die sich netterweise und absolut uneigennützig als weiteres Testopfer zur Verfügung stellte, hatte viel weniger Probleme mit den Satzzeichen, erreichte aber nach einem eher minimalen Sprachtraining auch bei weitem nicht meine Erkennungsrate. Als ich einige Sätze zur Demonstration mit meinem Sprechmodell diktierte und sie das fast fehlerfreie Ergebnis sah, wollte sie sofort einen neuen Versuch starten und führte diesmal das Training, das ihr erst sehr lästig erschien, mit einem solchen Enthusiasmus durch, dass sie mir schon bald vorführen konnte, dass sie jetzt mindestens die selbe Erkennungsgenauigkeit erreichte.
Ich denke, dass dieser Unterschied in der Erkennungsgenauigkeit letztlich darüber entscheiden kann, ob jemand das System als hilfreiches Werkzeug akzeptiert oder es entweder nur widerwillig oder eben überhaupt nicht mehr benutzt.
Die Sache mit den Befehlen zur Formatierung ist übrigens reine Lernsache. Man muss sich erst mal etwas einarbeiten und sich an die Kommandos gewöhnen, dann stellt es kaum mehr ein Problem dar.
Was meine Tests allerdings vorerst zu einem sehr abrupten Ende brachte, war eine heftige Erkältung, die mich über zwei Wochen fast komplett am Sprechen hinderte und über einige weitere Wochen meinen Hals dermaßen in Mitleidenschaft zog, dass einige Versuche schnell zu dem Ergebnis führten, dass ich so nur Frust und ein total zerstörtes Sprechmodell davontragen würde. Deshalb sind einige Teile dieses Berichtes auch leider nicht diktiert, was irgendwie paradox ist, aber sich einfach nicht anders realisieren ließ.
Ich bin allerdings guter Hoffnung, dass ich in Zukunft sehr viel öfter zum Headset greifen werde und meine Freundin damit sehr entlastet wird. (Wenn früher wichtige, inhaltlich komplizierte und/oder umfangreiche Texte in kurzer Zeit zu formulieren waren, hatte sie sich als Spracheingabe-Interface sehr bewährt, da in solchen Fällen die Konzentration schon vom Tippen - nein, ich kann kein 10-Fingersystem - soweit gestört wurde, dass die Gesamtzeit zur Erstellung des Textes enorm gelitten hat. Deshalb war ihre Unterstützung beim Testen nicht nur in Bezug auf ihr eigenes Diktieren nicht ganz uneigennützig.)
Jeder muss letztendlich selbst herausfinden, wie er am besten klar kommt. Ich habe mich beispielsweise dazu entschlossen, die Texte einfach so zu diktieren, ohne unbedingte Beachtung von Satzzeichen, wenn sie nicht - wie beim Punkt - fast von selbst kommen. Auch die meisten Formatierungen und Korrekturen führe ich erst am Ende durch. Dabei versuche ich allerdings, die unbekannten Wörter wirklich einzupflegen und Wörter, die mehrmals nicht sauber erkannt wurden, nachzutrainieren.
Das Programm ViaVoice unterstützt auf eine sehr effiziente Art und Weise den Korrekturprozess. Es speichert die zu den Wörtern gehörenden Sprachsegmente, sodass bei fehlerhaft erkannten Wörtern durch einfaches Markieren die zugehörige Spracheingabe noch einmal abgehört werden kann. Außerdem bietet ViaVoice über das Korrekturfenster nach einfachem Anklicken bzw. Markieren eine Auswahl von Korrekturvorschlägen an, die oftmals die gewünschte Fassung enthält, sodass diese nur noch ausgewählt werden muss.
Wenn es schnell gehen soll, wird bei mir allerdings für die Nacharbeiten noch auf Tastatur und Maus zurückgegriffen, zumal ich sowieso die Angewohnheit habe, einen Text erst mal in einer Rohfassung zu produzieren, die dann in mehreren Durchläufen überarbeitet wird. Und wenn ich beim Durchlesen mal wieder ein Wort austauschen muss, um eine unnötige Wiederholung zu vermeiden oder der Satz umgestellt werden muss, um überhaupt einen Sinn zu ergeben oder einige Kommata korrigiert werden müssen, damit auch andere eine Chance haben, meine Schachtelsätze zu entschlüsseln, dann bin ich mit dem gewohnten System aus Tastatur und Maus doch immer noch am liebsten unterwegs. Aber selbst beim nachträglichen Bearbeiten von vorhandenen Texten hat sich die zusätzliche Möglichkeit, an der durch Tastatur oder Maus vorgegebenen Position durch einfaches Aussprechen Wörter einfügen zu können, oder eine fehlerhafte Groß- bzw. Kleinschrift zu korrigieren, als sehr angenehm erwiesen.
Hier ist auch klar eine Parallele zu den Übersetzungsprogrammen zu erkennen, die wir ebenfalls in dieser troja getestet haben. Auch bei ihnen benutze ich die Automatik im Wesentlichen für eine Rohfassung und arbeite dann meine speziellen Feinheiten ein. In beiden Fällen ist mein - laut Aussage meiner Umgebung überdurchschnittlicher - aktiver Wortschatz und mein Hang zu Schachtelsätzen ein Problem. Doch genauso stellte sich hier wie da die Unterstützung durch die Software als echte Hilfe und ungemeine Zeitersparnis heraus.
Ob und wie intensiv man die Möglichkeit nutzt, den Desktop und andere Programme mittels ViaVoice zu steuern, muss ebenfalls eine individuelle Entscheidung bleiben. In erstaunlich vielen Fällen kann die Spracherkennung aber den Computerbenutzer in seiner alltäglichen Arbeit unterstützen.
Vielschreiber, die ihre Texte bis jetzt selbst getippt haben, ziehen natürlich den meisten Nutzen aus einer Spracherkennungssoftware. Sie müssen nur in der Anfangszeit besonders diszipliniert unbekannte Wörter einpflegen und problematische Wörter nachtrainieren. Aber auch, wer nicht ständig nur Texte diktiert, kann mit der Pro-Version und der darin enthaltenen Möglichkeit Windows-Programme zu steuern, viele Arbeitsabläufe vereinfachen.
Derjenige, der am Arbeitsplatz oder auf seinem Heim-PC im Wesentlichen eine wohl definierte Zahl von Anwendungen immer wieder im selben Kontext einsetzt, der wird sich sicher ganz begeistert weitgehend von den manuellen Eingabehilfen verabschieden. Mit besonderer Unterstützung kann man nämlich in den Microsoft-Programmen Word, Excel und Outlook diktieren, formatieren und steuern. Für diese Programme gibt es spezielle Befehlssätze für natürliche Sprechweise, das heißt, dass man mit normalen umgangssprachlichen Wörtern die Programme steuern, Texte formatieren und korrigieren kann. Auch das Surfen im Internet kann sprachgesteuert erfolgen. Über so genannte Navigiermakros können auch komplexere Ablaufsteuerungen komfortabel per Sprache ausgelöst werden.
Selbst ein Grafiker wird vielleicht über Sprachnavigation und -makros die wichtigsten Funktionen und Auswahlmöglichkeiten seiner Software per Sprache steuern und damit die Hände für das eigentliche Malen oder Zeichnen frei halten, wird aber sicher weiterhin auch Maus oder Grafiktablett verwenden.
Paradoxerweise gibt es allerdings auch einige Bereiche, für welche die Spracheingabe nur bedingt geeignet ist, obwohl sie dafür geradezu prädestiniert scheint.
Eine Sekretärin, die bisher ihre Diktate auf Mikrokassette bekam und von dort aus abtippte, wird eher weniger erfreut sein - zumindest, wenn der Chef nicht bereit ist, auf ein hochwertiges digitales Diktiergerät umzusteigen und sich ein eigenes Sprechmodell zu generieren. Denn sie muss dann vom analogen Diktiergerät die Sätze abhören, anschließend sauber aufsprechen und dann noch nachkorrigieren.
Ein gleichzeitiges Anhören und Sprechen dürfte nicht nur wegen der Probleme mit der Trennung von Abhörgerät (Kopfhörer, Ohrhörer, Lautsprecher) vom Mikrofon so manche Schreibkraft vor echte Probleme stellen. Wir haben jedenfalls unsere CeBIT-Berichte, die wir seit Jahren auf einem einfachen, handlichen Diktiergerät gleich nach dem jeweiligen Standbesuch noch in der Messehalle aufzeichnen, nach anfänglichen Versuchen wieder per Hand getippt.
Eine spezielle Möglichkeit, die wir in den letzten Jahren genutzt hatten, die Mikrokassetten erst über die Soundkarte zu digitalisieren und dann mit einem WAV-Player abzuhören, erwies sich leider als problematisch, da der gleichzeitige Betrieb von ViaVoice Pro und dem Playerprogramm nicht möglich war. Offensichtlich gab es ein Problem mit der gleichzeitigen Nutzung der Sound-Karte. Für eine direkte Erkennung war die Qualität sowieso viel zu schlecht und auch der Einsatz eines digitalen Diktiergerätes hätte in unserem Fall nicht sehr viel gebracht, da die Hintergrundgeräusche in den sehr lauten Messehallen und die ungünstigen Diktierverhältnisse während dem Laufen, eine Aufzeichnungsqualität ergibt, die schon dem geübten Menschen große Probleme macht, alles richtig zu verstehen.
Das Abhören vom Diktiergerät und anschließende Diktieren über ViaVoice ist in unserem Fall auch deshalb problematisch, weil diese Aufzeichnungen meist unvollständige Satzfragmente und in vielen Fällen neue Fachbegriffe, Kunstwörter oder Wortschöpfungen des Marketing beinhalten, die durch ihr seltenes Auftreten ein ständiges Neutrainieren nicht rechtfertigen.
Insgesamt kann man aber in Bezug auf die Einsatzgebiete festhalten, dass die meisten produktiven Aufgaben am Computer von der Spracherkennung ganz hervorragend unterstützt werden können. Dabei kann die Sprache in vielen Fällen auch gerade eine gute Ergänzung zu den bestehenden Eingabemöglichkeiten sein und damit neue effizientere Arbeitsweisen ermöglichen.
Nur eine allzu laute Hintergrundkulisse ist dem Vergnügen beim Diktieren abträglich. Gelegentliches Telefonklingeln stört dabei weniger, als wenn man beispielsweise ständig von Kollegen angesprochen wird. In diesen Fällen muss man das Mikrofon dann nämlich möglichst schnell abschalten, damit nicht zu viel ungewollter Müll den Weg auf den Bildschirm findet.
Beim Diktieren sollte man übrigens nicht unbedingt auf den Bildschirm schauen, da dies von den eigentlichen Gedanken, die man sich macht, um den Text zu formulieren, ablenkt. Insbesondere irritierte es sehr leicht, dass ViaVoice die gesprochenen Worte erst mit einer gewissen Verzögerung auf den Bildschirm schreibt. Wenn man jetzt versucht, seinen Text gleich zu kontrollieren, macht man zwangsweise Pausen an ungewöhnlichen Stellen, die man beim normalen Sprechen nicht machen würde.
Das Ungünstige daran ist, dass dadurch die Erkennungsleistung sinken kann. Der Hauptgrund für die Verzögerung der Anzeige des Textes gegenüber dem gesprochenen Wort liegt nämlich darin begründet, dass ViaVoice erst abwartet, welche Worte noch weiter diktiert werden, damit es seine Erkennungsleistung dadurch erhöhen kann, indem es den Kontext eines Wortes in seine Berechnung mit einbezieht.
Wenn man nun auf den Bildschirm schaut und dabei immer darauf wartet, dass der Text erscheint und dadurch unnatürliche Pausen macht, nimmt man ViaVoice einen Teil der Informationen, die zu seinen besonders guten Ergebnissen führen. Deshalb ist es sinnvoll, erst nach einem Absatz, den man am Stück diktiert hat, die Korrekturen vorzunehmen.
Ich habe eine ganze Zeit gebraucht, um mich daran zu gewöhnen. Es ist am Anfang schon etwas ungewohnt, sich einfach nur entspannt hinzusetzen, und den Computer nicht zu beachten. Gerade durch die Bedienung mit Tastatur und Maus ist man es sonst eher gewohnt, jede Eingabe sofort auf dem Bildschirm zu kontrollieren bzw. die Mausbewegungen erst durch die visuelle Kontrolle am Bildschirm überhaupt durchzuführen.
Nach einiger Zeit habe ich dann gemerkt, dass ich die besten Ergebnisse erziele, wenn ich in aller Ruhe aus dem Fenster schaue, mir meine Gedanken zu dem zu diktierenden Text mache, und ViaVoice ganz sich selbst überlasse. Dadurch, dass ich dann sehr viel flüssiger rede und auch die Erkennungsmöglichkeiten von ViaVoice besser genutzt werden können, habe ich am Ende eines Abschnittes auch weniger zu korrigieren.
Trotz der hohen Erkennungsleistung war ich jedoch skeptisch, ob ich auf Dauer mit dem Diktieren und Korrigieren per Sprache schneller bin, als wenn ich dies zumindest teilweise per Tastatur mache. In der Zwischenzeit muss sich sagen, dass ich ganz intuitiv immer mehr auf die Sprachbefehle zurückgreife und immer weniger Maus und Tastatur einsetze.
Die Gesamtzeit, die ich zur Erstellung eines Textes brauche, ist inzwischen auch deshalb gesunken, weil sich ViaVoice beim Schreiben nie vertippt. Entweder es erkennt ein Wort, oder es erkennt es nicht. Falsch schreiben tut es ganz bestimmt nicht. So entfällt beim Diktieren die Zeit, die man normalerweise alleine dafür aufwenden muss, um Buchstabenverdreher oder ähnliche Tippfehler zu beseitigen. Und je mehr Wörter Via Voice vom persönlichen Wortschatz bekannt sind, umso deutlicher wird der Vergleich zugunsten von ViaVoice ausgehen.
Summa summarum bleibt festzustellen, dass ich von der hohen Qualität des Produktes ViaVoice Pro Release 8.0 aufs Positivste überrascht wurde. Sowohl die Hardware, also das mitgelieferte, hochwertige, Geräusche unterdrückende Headset, als auch die Software (unter anderem die hohe Stabilität und Absturzfreiheit) haben mich voll überzeugt.
Besonders angenehm ist mir auch aufgefallen, dass trotz der gut strukturierten und oft intuitiven Bedienung, ein sehr hochwertiges, gedrucktes Handbuch und der oben erwähnte Video-Schnellkurs vorhanden sind. Letzterer erleichtert den Einstieg ungemein und ist deshalb besonders anwenderfreundlich, weil er direkt von CD gestartet werden kann und auf einem normal ausgestatteten System keine Installation benötigt bzw. keinen unnötigen Festplattenplatz belegt.
Zu den Hardware-Anforderungen sei noch bemerkt, dass ViaVoice zwar prinzipiell sehr genügsam ist (siehe Systemanforderungen am Ende des Textes), sich aber insbesondere über eine großzügigere Speicherausstattung freut. Auf unserem Testsystem, einem Celeron 500 mit 320 MB Speicher war und ist es auf jeden Fall eine Freude zu Diktieren. (128 Megabyte sind für ein besonders komfortables Arbeiten sicherlich ausreichend. Der extreme Speicherausbau unseres Systems hat verschiedene andere Gründe.)
Was wir uns als Erweiterung noch anschaffen werden, ist eine kleine Umschaltbox, die es auf besonders einfache Weise ermöglicht, zwischen den normalen Lautsprechern und dem Headset umzuschalten. (siehe Web-Adresse von AndreaElectronics)
Die im Extra-Kasten "Features von ViaVoice" (siehe S. 21) angegebenen Kosten sind für ein solches System ausgesprochen niedrig. Insbesondere die Update-Variante, die wie alle Versionen das selbe hochwertige Headset beinhaltet, ist interessant, da sie von fast jeder früheren Spracherkennung möglich ist, egal wer der Hersteller davon war. Da verschiedene ältere Varianten für sehr wenig Geld erhältlich sind oder früher beispielsweise Zeitschriften beilagen, lohnt es sich als Student, in seinen Beständen zu wühlen.
Wer im Profibereich seine Schreibarbeiten über aufgenommene Sprachdiktate außer Haus gibt, der sollte sich ernsthaft überlegen, ob er sich nicht viel Geld und Ärger sparen kann, wenn er sich mit ViaVoice anfreundet und seine Texte selbst erfasst. Der zeitliche Mehraufwand hält sich sicherlich in Grenzen und ein Kontrolllesen kann in beiden Fällen normalerweise nicht entfallen. Wenn man jetzt die Kostenersparnis für den Schreibdienst, den geringen Mehraufwand, die gewonnene Flexibilität bei Korrekturen oder größeren Änderungen, die höhere Sicherheit, da sensible Texte nicht außer Haus gehen, sowie die quasi sofortige Verfügbarkeit des Schriftstücks miteinander abwägt, muss man nur noch akzeptieren, dass ViaVoice nur ein Zehntel dessen kostet, was man eigentlich für eine solche Arbeitserleichterung und Geldersparnis erwarten würde.
In Anlehnung an den Ausspruch von HAL 9000, den ich in der Überschrift verwendete habe, möchte ich mich mit einer kleinen Variante davon verabschieden.
IBM ViaVoice Pro Release 8 calling: "I'm happy Dave, I'm sure I can do that." - Eine Prophezeiung erfüllt sich
Systemanforderungen:
Windows 95, 98, NT 4.0 (SP5): Pentium 300 MHz (256K L2 Cache) oder AMD-K6 (256K L2 Cache), 64 MB RAM
Windows Me: Pentium 600 MHz (256K L2 Cache) oder Athlon 600 MHz (256K L2), 64 MB RAM.
Windows 2000: Pentium 300 MHz (256K L2 Cache) oder AMD-K6 (256K L2 Cache), 96 MB RAM
Alle Versionen: 500 MB freier Festplattenspeicher, kompatible 16-bit-Soundkarte mit Mikrofoneingang, gute Aufnahmefähigkeit, Lautsprecherausgang, 4X CD-ROM-Laufwerk.
http://www.ibm.com/software/speech/de/
http://www.andreaelectronics.com/
Einige Detailinformationen wurden auf der Web-Seite http://www.viavoice.de von linguatec Sprachtechnologien in Auszügen von "Das grosse Spracherkennungsbuch" von Herrn Harry Ihm recherchiert.
Teil 2 des Artikels: "Training ist alles"
Teil 3 des Artikels: Die Features von ViaVoice 8.0