artikel

Welke voicetechniek heeft recht van spreken?

Warehousing

Voor voicepicking bestaan twee technologieën: spraakafhankelijk en -onafhankelijk. Deze laatste wordt populairder terwijl de andere zich al heeft bewezen, maar waar kies je voor? Voice-experts geven antwoord op vijf vragen.

Welke voicetechniek heeft recht van spreken?


Uit: Logistiek Magazine, november 2013

Voicepicking heeft de afgelopen jaar in met name de retail een flinke opgang gemaakt bij het verzamelen van orders. Dat is wel eens anders geweest. Toen deze orderpicktechnologie in de jaren negentig werd geïntroduceerd in magazijnen, kende ze een moeizame start. Gebruikers waren huiverig voor de invloed van verschillende accenten, gebrekkig Nederlands en storende achtergrondgeluiden op het resultaat. Bovendien bestond de vrees dat medewerkers door ‘voice’ zouden veranderen in van de buitenwereld afgesloten orderpickrobots. Verder kostte in die tijd het vastleggen van de stemkarakteristieken van de individuele gebruiker relatief veel tijd, omdat de systemen spraakafhankelijk waren. Inmiddels is deze techniek, dankzij inspanningen van voice-marktleider Vocollect, zover dat het stemprofiel van een gebruiker binnen twintig minuten kan worden vastgelegd. Inmiddels is de voicetechnologie volwassen en bestaat er naast de spraakafhankelijke techniek ook de mogelijkheid om te kiezen voor spraakonafhankelijke oplossingen.

Voice-experts Rogier Martens en Warner Veldhuis (respectievelijk functional & technology manager en general manager bij Audora, dat in 2011 een nieuw spraakonafhankelijk systeem in de markt zette) en Paul Lankhout (country manager van Zetes Nederland, dat behoort tot de Europese marktleiders op het gebied van voicesystemen) geven antwoord op vijf vragen over spraakgestuurd orderpicken.

1) Overtreft spraakonafhankelijke techniek de spraakafhankelijke?

Rogier Martens (Audora): “Het belangrijkste bij een voicepick-ingsysteem dat orderpickers continu stuurt, is dat de stem onder alle omstandigheden wordt herkend. De uitdaging voor zowel een spraakafhankelijk als een spraakonafhankelijk systeem is om dat waar te maken in continu wisselende omstandigheden.” Volgens Warner Veldhuis moet daarbij gedacht worden aan veranderingen in achtergrondgeluid, radio’s die aan staan, heftrucks die voorbij rijden en collega’s die vlakbij staan te praten. “Maar ook veranderingen in de stem van de gebruiker gedurende de dag spelen een rol. Wanneer iemand iets tilt en dan spreekt, doet hij dit anders dan wanneer hij volledig uitgerust is. Iemand die verkouden is, praat anders dan wanneer hij dat niet is. De manier waarop hetzelfde woord door een persoon wordt uitgesproken is elke keer anders”, aldus Warner.

Paul Lankhout (Zetes) stelt op zijn beurt dat het vooral ligt aan welke indicatoren je meet als het gaat om spraakafhankelijk of -onafhankelijk. “De ontwikkelingen in sprekersonafhankelijke systemen gaan sneller en we zien nu al dat bijvoorbeeld de antwoordtijd sneller is dan bij getrainde systemen. Maar er is meer. De snelheid en herkenbaarheid van onze spraakonafhankelijke MCL Voice oplossing behoren tot de hoogste in de markt. Bovendien zijn er geen beperkingen in de vocabulaire en kan je makkelijk en ‘on the fly’ dialogen veranderen en laten herkennen. De voordelen zijn: geen training voor users, volledige multimodale ondersteuning, volledige hardware onafhankelijkheid en stukken goedkoper. De TCO (Total Cost of Ownership) bij een sprekersonafhankelijke oplossing is gewoon heel aantrekkelijk.”

De spraakherkenning bij spraakonafhankelijke techniek is ten opzichte van spraakafhankelijk volgens Martens en Veldhuis gelijkwaardig, zo niet beter. “Naast de spraakherkenning zijn er meer voordelen aan de spraakonafhankelijke techniek: zo is deze gebaseerd op de spraak van een zeer groot aantal personen die het systeem ‘ingeleerd’ hebben. Dit zijn verschillende personen geweest, zowel mannen als vrouwen, met zeer verschillende stemkarakteristieken. Hierdoor is de tolerantie van het systeem vele malen hoger. De spraakafhankelijke technieken zijn afhankelijk van het moment van inspreken van het spraakprofiel. Spreekt de gebruiker op de werkvloer net iets anders, of verandert er iets in zijn of haar stem door bijvoorbeeld een verkoudheid, dan ontstaan er problemen”, aldus Martens.

Er hoeft daarnaast volgens Veldhuis geen tijd gespendeerd te worden aan het ‘trainen’ van een persoonsgebonden spraakprofiel, noch hoeven er later aanpassingen aan zo’n profiel gedaan te worden. “Bij spraakonafhankelijke technieken is het ‘one size fits all’. Een nieuwe gebruiker komt het magazijn binnen, zet een headset op en kan aan de slag.”

Elke gebruiker van spraakafhankelijke systemen moet het voicesysteem ‘leren’ zijn of haar stem te herkennen. Het kost twintig tot maximaal veertig minuten voordat een volledig stemprofiel is aangemaakt van de gebruiker. Martens: “Ook zal er vaak een tweede of derde training nodig zijn, omdat de stem tijdens een training anders is dan tijdens het werk. Bovendien verandert een stem van een persoon gedurende de dag en zal het profiel moeten worden aangepast. Voor het omgaan met externe geluiden, zoals achtergrondgeluiden, kan het ook nodig zijn het voiceprofiel aan te passen.”

2) Is de spraakafhankelijke techniek niet veel betrouwbaarder?

Paul Lankhout: “Wij hebben klanten die zowel gebruik maken van sprekersafhankelijke als van sprekersonafhankelijke oplossingen. Uit onze ervaringen bij klanten als AS Watson, FloraHolland en Kwantum blijkt dat het tevredenheidsniveau hoog is, terwijl er met verschillende voicetechnieken wordt gewerkt. De kennis en de ervaring van de system integrator die de oplossing implementeert, speelt in onze ogen ook een grote rol bij het succes van een spraakoplossing.”

Martens: “Onze ervaring bij klanten als DSV, Aldipress en Huuskes is dat we zelfs een betere herkenningsgraad halen als bij de spraakafhankelijke systemen die we in het verleden toepasten. Naast de spraakherkenning zijn er andere factoren die een voicesysteem betrouwbaar maken. Denk hierbij aan de opzet van de dialoog, de integratie met het WMS en ERP, de hardware en de kwaliteit van het (W)LAN netwerk. Uiteindelijk zijn deze factoren veel belangrijker voor de betrouwbaarheid van het totale systeem.”

Daarnaast realiseren volgens Veldhuis alle nieuwe spelers op de markt van voicesystemen zich dat er geen noodzaak is om zelf een engine te ontwikkelen. “De huidige voice engines op de markt zijn zo goed en worden zo snel doorontwikkeld dat deze nieuwe spelers zich liever richten op de wensen van de gebruiker en daar hun expertise in ontwikkelen. Deze nieuwe voice engines zijn allemaal gebaseerd op spraakonafhankelijke systemen.”

3) Wat zijn de grootste nadelen van spraakonafhankelijk?

Lankhout: “Eigenlijk zijn die er niet meer. Voorheen was de herkenning nog wel eens een issue maar de praktijk leert dat dit euvel alweer enige tijd en implementaties achter ons ligt.”

Martens: “Gebruikers die woorden inspreken met een zwaar dialect kunnen problemen ondervinden. Ik bedoel hierbij niet mensen met een accent, maar een dialect waarbij het woord significant anders uitgesproken wordt als het ABN. Overigens bestaan er binnen de spraakonafhankelijke techniek veel mogelijkheden om bepaalde klanken en uitspraken van woorden in een bepaalde regio aan het systeem toe te voegen.”

4) Zijn er al cloud oplossingen voor ‘voice’?

Lankhout: “Die mogelijkheden biedt Zetes bijvoorbeeld al via het MCL Mobility Platform waar je als gebruiker wereldwijd gebruik van kan kunt maken middels een voor een bedrijf gepersonaliseerde App store. Dit kan ook in een pay per period model worden aangeboden.”

Martens: Als we kijken naar integraties met WMS en ERP-systemen in de cloud, dan zijn deze er zeker. Uiteindelijk is een voiceoplossing een systeem dat op de werkvloer van het magazijn gebruikt wordt. Alle relevante informatie voor het proces moet toch via het WMS of ERP doorgestuurd worden, waarbij het zeker mogelijk is dat deze ‘in de cloud’ draaien. Ook zijn er testen gedaan om de spraakherkenning via onze Audora voiceservers in de cloud te laten verlopen. De techniek is er en functioneert, denk aan spraakherkenning op smartphones. Onze testen wijzen daarentegen uit dat de spraakherkenning op voiceterminals op dit moment sneller is dan het versturen van audiostreams naar een server in de cloud.”

5) Zijn voicetechnieken toepasbaar in Google Glass-oplossingen?

Lankhout: “Dat is nog een beetje voor de muziek uitlopen, maar wij steken heel veel geld in de R&D van onze voiceoplossingen. Daarbij wordt continu gekeken of nieuwe technologieën toepasbaar zijn in logistieke omgevingen. Het is evident dat Google Glass in potentie alles in zich heeft voor inzet in orderpickprocessen. Aan de andere kant is bijvoorbeeld de diepvriesomgeving traditioneel een omgeving waar voice heel goed tot zijn recht komt en ik verwacht niet dat een Google Glass erg succesvol zal zijn in een omgeving met een temperatuur van minus 30 graden Celsius.”

Martens: “Google Glass is een interessante ontwikkeling die wij op de voet volgen. Ik heb echter geen idee hoe open de software is en of er een ontwikkelplatform beschikbaar is voor het apparaat. Wel is een ‘bril-display’ die een interactie heeft met spraakherkenning van mogelijk toegevoegde waarde in de logistiek. Ook zou de ingebouwde camera ingezet kunnen worden om automatisch barcodes te lezen. Hoe dit zich verder zal ontwikkelen is nog even afwachten.”

Herkenningsgraad van 99,5 procent

Bij spraakonafhankelijke systemen is training niet nodig. Een combinatie van snellere processoren in de voiceterminal, toepassing van de speed engine Nuance (waar zowel Audora als MCL van Zetes gebruik van maken), betere microfoons met ruisonderdrukking en software (adaptive learning) zorgt ervoor dat spraakonafhankelijke systemen volgens Audora een herkenningsgraad van bijna 99,5 procent halen. Daarnaast wordt de spraakherkenning tijdens het werk ook nog eens verbeterd (adaptive learning) waar de gebruiker niet voor gestoord hoeft te worden. Bij een spraakonafhankelijk systeem is een profiel van de volledige taal vastgelegd (onafhankelijk van personen). Een dergelijk systeem kijkt of een ingesproken commando overeenkomt met dit algemene profiel, zonder rekening te houden met stemspecifieke kenmerken. Het maakt dus niet meer uit hoe of door wie iets uitgesproken wordt. De spraakonafhankelijke herkenning is ook een techniek van de toekomst. De algoritmes die achter de techniek zitten, zijn continu in ontwikkeling en zullen in de toekomst, zo verwachten voiceleverancier Zetes en Audora, verder verbeterd worden.

Voice kan ook in de cloud

WMS-, TMS- of ERP-systemen in de cloud zijn inmiddels geen onbekende fenomenen meer binnen de logistiek. Een cloud gehoste voicepickoplossing daarentegen zien we nog amper in de Nederlandse praktijk. In de Verenigde Staten, waar anders, levert Voxware sinds vorig jaar wel deze oplossing. Hollywood Feed, een keten van twintig winkels in vier staten, die op natuurlijke basis geproduceerde huisdiervoeding verkoopt, maakt sinds kort in zijn 4.000 vierkante meter grote magazijn in Memphis gebruik van cloud gebaseerde voicetechnologie van Voxware, de zogeheten ‘Cloud Voice Management Suite (VMS)’. Van deze suite kan op dit moment een gelimiteerd aantal van maximaal twintig orderpickers gebruik maken.
Het gebruik van deze cloud gebaseerde spraakherkenningstechnologie is simpel. Hollywood Feed betaalt per maand een vaste gebruikersfee, wat inhoudt: toegang tot de software en de huur van de voicepickhardware, dus terminals en headsets voor de orderpickers (vier in totaal). Aan de voorkant heeft Hollywood Feed onder andere moeten investeren in het uitbreiden van het draadloze netwerk om te kunnen anticiperen op het groeiende aantal orders, en in het trainen van het magazijnpersoneel.
Maar hoe werkt cloud in combinatie met voice? Hollywood Feed zendt ‘s nachts de orderregels naar het VMS, dat ze vervolgens converteert en in kant-en-klare werkpakketten voor de orderpickers terugstuurt. Voor de orderpickers is het dan ‘s ochtends alleen nog een kwestie van headsets opzetten, inloggen in het systeem en beginnen met orders verzamelen. Ook heeft het bedrijf op de dag de mogelijkheid om nieuwe orders in het VMS te schieten, die binnen een paar minuten weer retour komen voor verwerking. “Eerlijk gezegd is dit de simpelste technologie die ik ooit geïmplementeerd heb. Ik heb Windows implementaties meegemaakt die langer duurden”, zegt Shawn McGhee, directeur-eigenaar van Hollywood Feed, onlangs in Modern Materials Handling.

Reageer op dit artikel