Top 10 de los artículos

YouTube
Gmail
Goole
GayRomeo
Números chinos
Números romanos
Orkut
Costco
Sistema porta hepático
El mundo Factbook

News:

Reconocimiento de discurso

Reconocimiento de discurso (también conocido como reconocimiento de discurso automático o reconocimiento de discurso de la computadora) convierte palabras habladas a la entrada legible por la máquina (por ejemplo, a los keypresses, usando el código binario para una secuencia de carácter códigos). El término reconocimiento de voz puede también ser utilizado referir al reconocimiento de discurso, pero se refiere más exacto reconocimiento del altavoz, que procura identificar a la persona que habla, en comparación con cuál está siendo dicho.

Los usos del reconocimiento de discurso incluyen la voz que marca (e.g., “hogar de la llamada”), encaminamiento de la llamada (e.g., “quisiera hacer una llamada de recoger”), domotic control y búsqueda audio hablada contenido-basada (e.g., encuentre un podcast donde las palabras particulares fueron habladas), entrada de datos simple (e.g., incorporando un número de la tarjeta de crédito), preparación de los documentos estructurados (e.g., un informe de la radiología), proceso de la aplicación del discurso-a-texto (e.g., equipos de tratamiento de textos o email), y en el avión carlingas (llamado generalmente Entrada de voz directa).

Contenido

Historia

Uno de los dominios más notables para el uso comercial del reconocimiento de discurso en los Estados Unidos ha sido cuidado médico y particularmente el trabajo del transcriptionist médico (la TA)[la citación necesitó]. Según expertos de la industria, en su inicio, el reconocimiento de discurso (SR) fue vendido como una manera de eliminar totalmente la transcripción más bien que hace el proceso de la transcripción más eficiente, por lo tanto él no aceptado. Era también el caso que el SR en aquel momento era a menudo técnico deficiente. Además, ser utilizado con eficacia, requirió cambios a los médicos de las maneras trabajados y documentó el encuentro clínico, que muchos si no todos eran renuentes hacer. La limitación más grande al reconocimiento de discurso que automatiza la transcripción, sin embargo, se considera como el software. La naturaleza del dictado narrativo es altamente interpretativa y requiere a menudo el juicio que se puede proporcionar por un ser humano verdadero pero no todavía por un sistema automatizado. Otra limitación ha sido la cantidad de tiempo extensa requerida por el usuario y/o el abastecedor del sistema para entrenar al software.

Una distinción en ASR se hace a menudo entre proceso de lengua dominio-específica y el “natural” “de los sistemas artificiales del sintaxis” que sean generalmente que es generalmente específico a una lengua. Cada uno de estos tipos de uso presenta sus propias metas y desafíos particulares.

Usos

Cuidado médico

En cuidado médico el dominio, incluso como consecuencia de mejorar tecnologías del reconocimiento de discurso, los transcriptionists médicos (MTs) todavía no ha llegado a ser obsoleto. Muchos expertos en la materia anticipan eso con el uso creciente de la tecnología del reconocimiento de discurso, los servicios proporcionados pueden ser redistribuidos más bien que ser substituidos. El reconocimiento de discurso todavía no ha hecho las habilidades de MTs obsoletas.

El reconocimiento de discurso se puede poner en ejecución en anticipado o back-end del proceso médico de la documentación.

El SR anticipado es donde el abastecedor dicta en un motor del speech-recognition, las palabras reconocidas se exhibe a la derecha después de que se hablen, y el dictador es responsable de corregir y de la firmar apagado en el documento. Nunca pasa con un MT/editor.

El SR Back-End o el SR diferido es donde el abastecedor dicta en un sistema digital del dictado, y la voz se encamina a través de una máquina del speech-recognition y el documento de bosquejo reconocido se encamina junto con el archivo original de la voz al MT/editor, que corrige el bosquejo y concluye el informe. El SR diferido está siendo ampliamente utilizado en la industria actualmente.

Muchos Expedientes médicos electrónicos Los usos (EMR) pueden ser más eficaces y se pueden realizar más fácilmente cuando están desplegados conjuntamente con un motor del speech-recognition. Las búsquedas, las preguntas, y el relleno de la forma pueden todas ser más rápidos realizarse por voz que usando un teclado.

Militar

Avión de alto rendimiento del combatiente

Los esfuerzos substanciales se han dedicado en la década pasada a la prueba y a la evaluación del reconocimiento de discurso en el avión del combatiente. De nota particular están los E.E.U.U. programa en el reconocimiento de discurso para la integración avanzada de la tecnología del combatiente (de AFTI)/F-16 avión (F-16 VISTA), el programa en Francia en la instalación de sistemas del reconocimiento de discurso encendido Espejismo avión, y programas en el Reino Unido que se ocupa de una variedad de plataformas del avión. En estos programas, los reconocedores del discurso se han funcionado con éxito en el avión del combatiente con usos incluyendo: fijar radiofrecuencias, ordenando un sistema de piloto automático, fijando el dirigir-punto coordina y las armas lanzan parámetros, y exhibiciones del vuelo que controlan. Generalmente, los vocabularios solamente muy limitados, obligados se han utilizado con éxito, y un esfuerzo importante se ha dedicado a la integración del reconocedor del discurso con el sistema de la aeroelectrónica.

Algunas conclusiones importantes del trabajo eran como sigue:

  • 1. El reconocimiento de discurso tiene potencial definido para reducir la carga de trabajo experimental, pero este potencial no fue observado constantemente.
  • 2. El logro de la exactitud muy alta del reconocimiento (el 95% o más) era el factor más crítico para hacer el sistema del reconocimiento de discurso útil - con tarifas más bajas del reconocimiento, los pilotos no utilizarían el sistema.
  • 3. Un vocabulario y una gramática más natural, y tiempos de entrenamiento más cortos serían útiles, pero solamente si las tarifas muy altas del reconocimiento podrían ser mantenidas.

La investigación del laboratorio en el reconocimiento de discurso robusto para los ambientes militares ha producido los resultados prometedores que, si es extensible a la carlinga, deben mejorar la utilidad del reconocimiento de discurso en el avión de alto rendimiento.

Trabajo con los pilotos suecos que vuelan en JAS-39 La carlinga de Gripen, Englund (2004) encontró el reconocimiento deteriorado con el aumento de G-cargas. También fue concluido que la adaptación mejoró grandemente los resultados en todos los casos e introducir los modelos para respirar fue demostrada para mejorar cuentas del reconocimiento perceptiblemente. El contrario a qué pudo esperar, ningunos efectos del inglés quebrado de los altavoces fue encontrado. Era evidente que el discurso espontáneo causó los problemas para el reconocedor, como podía esperar. Un vocabulario restricto, y sobretodo, un sintaxis apropiado, se podía esperar así para mejorar exactitud del reconocimiento substancialmente.[1]

Tifón de Eurofighter actualmente en servicio con el Reino Unido Royal Air Force emplea un sistema altavoz-dependiente, es decir. requiere a cada piloto crear una plantilla. El sistema no se utiliza para ninguna seguridad crítica o las tareas críticas de la arma, tales como lanzamiento de la arma o bajar del tren de aterrizaje, sino se utiliza para una amplia gama de otra carlinga funciones. Los comandos de la voz son confirmados por la regeneración visual y/o aural. El sistema se considera como característica del diseño importante en la reducción del piloto carga de trabajo, e incluso permite que el piloto asigne blancos a se con dos comandos simples de la voz o a cualquiera el suyo wingmen con solamente cinco comandos.[2]

Helicópteros

Los problemas de alcanzar alta exactitud del reconocimiento bajo la tensión y ruido pertenecen fuertemente al ambiente del helicóptero así como al ambiente del combatiente. El problema acústico del ruido es realmente más severo en el ambiente del helicóptero, no sólo debido a los altos niveles de ruidos pero también porque el piloto del helicóptero no usa generalmente un facemask, que reduciría ruido acústico en el micrófono. Los programas substanciales de la prueba y de la evaluación han sido realizados en la década del poste en usos de los sistemas del reconocimiento de discurso en helicópteros, notablemente por los E.E.U.U. Actividad de investigación y del desarrollo de la aeroelectrónica del ejército (AVRADA) y por el establecimiento aeroespacial real (RAE) en el Reino Unido. El trabajo en Francia ha incluido el reconocimiento de discurso en el helicóptero del puma. También ha habido trabajo mucho útil en Canadá. Los resultados han estado animando, y los usos de la voz han incluido: control de las radios de la comunicación; ajuste de los sistemas de navegación; y control de un sistema automatizado de la entrega de la blanco.

Como en usos del combatiente, la edición de eliminación para la voz en helicópteros es el impacto en la eficacia experimental. Los resultados que animan se divulgan para las pruebas de AVRADA, aunque éstos representan solamente una demostración de la viabilidad en un ambiente de la prueba. Mucho permanece ser hecho en el reconocimiento de discurso y en tecnología total del reconocimiento de discurso, para alcanzar constantemente mejoras del funcionamiento en ajustes operacionales.

Gerencia de la batalla

Los centros del comando de la gerencia de la batalla requieren generalmente el acceso rápido a y el control de las bases de datos grandes, rápidamente que cambian de la información. Los comandantes y los operadores de sistema necesitan preguntar estas bases de datos tan convenientemente como sea posible, en un ambiente ojo-ocupado donde mucha de la información se presenta en un tamaño de representación. La interacción humana de la máquina por voz tiene el potencial de ser muy útil en estos ambientes. Se han emprendido un número de esfuerzos de interconectar los reconocedores disponibles en el comercio de la aislar-palabra en ambientes de la gerencia de la batalla. En un estudio de viabilidad, el equipo del reconocimiento de discurso fue probado conjuntamente con una exhibición integrada de la información para los usos navales de la gerencia de la batalla. Los usuarios eran muy optimistas sobre el potencial del sistema, aunque las capacidades eran limitadas.

Programas que entienden del discurso patrocinados por el Defense Advanced Research Projects Agency (DARPA) en los E.E.U.U. se ha centrado en este problema del interfaz de discurso natural. Los esfuerzos del reconocimiento de discurso se han centrado en una base de datos del reconocimiento de discurso continuo (CSR), el discurso del grande-vocabulario que se diseña para ser representante de la tarea naval de la gerencia de recurso. Los avances significativos en el estado plus ultra en el CSR se han alcanzado, y los esfuerzos actuales se centran en el reconocimiento de discurso que integra y el proceso de lengua natural de permitir la interacción hablada de la lengua con un sistema de gerencia naval de recurso.

Reguladores de tráfico aéreo del entrenamiento

El entrenamiento para (o civil) los reguladores de tráfico aéreo militares (ATC) representa un uso excelente para los sistemas del reconocimiento de discurso. Muchos sistemas del entrenamiento del ATC requieren actualmente a persona actuar como “pseudo-piloto”, enganchando a un diálogo de la voz con el regulador del aprendiz, que simula el diálogo que el regulador tendría que conducir con los pilotos en una situación verdadera del ATC. Las técnicas del reconocimiento y de la síntesis de discurso ofrecen el potencial de eliminar la necesidad de una persona de actuar como pseudo-piloto, así reduciendo a personal del entrenamiento y de la ayuda. Las tareas del regulador del aire también son caracterizadas por discurso altamente estructurado como la salida primaria del regulador, por lo tanto reduciendo la dificultad de la tarea del reconocimiento de discurso.

Los E.E.U.U. El centro de equipo naval de entrenamiento ha patrocinado un número de progresos de los amaestradores del ATC del prototipo que usaban el reconocimiento de discurso. Generalmente, la exactitud del reconocimiento falta el abastecimiento de la interacción agraciada entre el aprendiz y el sistema. Sin embargo, los sistemas del entrenamiento del prototipo han demostrado un potencial significativo para la interacción de la voz en estos sistemas, y en otros usos del entrenamiento. Los E.E.U.U. La marina de guerra ha patrocinado un esfuerzo en grande en los sistemas del entrenamiento del ATC, donde una unidad comercial del reconocimiento de discurso fue integrada con un sistema complejo del entrenamiento incluyendo exhibiciones y la creación del panorama. Aunque el reconocedor fue obligado en vocabulario, una de las metas de los programas de entrenamiento era enseñar a los reguladores a hablar en una lengua obligada, usando el vocabulario específico diseñado específicamente para la tarea del ATC. La investigación en Francia se ha centrado en el uso del reconocimiento de discurso en sistemas del entrenamiento del ATC, dirigido en las ediciones en el reconocimiento de discurso y en el uso de los apremios de la gramática del tarea-dominio.[3]

El ejército del USAF, de USMC, de los E.E.U.U., y FAA están utilizando actualmente los simuladores del ATC con el reconocimiento de discurso proporcionado por Adacel Systems inc. (ASI). El software de MaxSim de Adacel utiliza el reconocimiento de discurso y el discurso sintético para permitir al aprendiz controlar los vehículos del avión y de la tierra en la simulación sin la necesidad de pseudo pilotos. ATC de Adacel en provideds de un software de la caja un ambiente sintético del ATC para los simuladores de vuelo. El piloto “verdadero” habla con un regulador virtual que usa el reconocimiento de discurso y el regulador virtual responde con discurso sintético. Será un formato del uso

Telefonía y otros dominios

ASR en el campo de la telefonía ahora es trivialidad y en el campo del juego y de la simulación de la computadora está llegando a ser más extenso. A pesar de el de alto nivel de la integración con computar personal del procesamiento de textos en general, sin embargo, ASR en el campo de la producción del documento no ha visto los aumentos previstos funcionando.

Gente con inhabilidades

La gente con las inhabilidades es otra parte de la población que benefician de usar programas del reconocimiento de discurso. Es especialmente útil para la gente que tiene dificultad con o no puede utilizar sus manos, de lesiones repetidoras suaves de la tensión a las inhabilidades implicadas que requieren la entrada alternativa para la ayuda con tener acceso a la computadora. De hecho, gente que utilizó el teclado mucho y se convirtió RSI se convirtió un mercado temprano urgente para el reconocimiento de discurso.[4][5]


Otros usos

Funcionamiento de los sistemas del reconocimiento de discurso

El funcionamiento de los sistemas del reconocimiento de discurso se especifica generalmente en términos de exactitud y velocidad. La exactitud se puede medir en términos de exactitud del funcionamiento con la cual se clasifique generalmente tarifa de error de la palabra (WER), mientras que la velocidad se mide con factor en tiempo real. Otras medidas de exactitud incluyen la tarifa de error de la sola palabra (SWER) y ordenan la tarifa del éxito (CSR).

La mayoría de los usuarios del reconocimiento de discurso tenderían para convenir que las máquinas de dictado pueden alcanzar rendimiento muy alto en condiciones controladas. Hay una cierta confusión, sin embargo, sobre la capacidad de intercambio de los términos “reconocimiento de discurso” y “dictado”.

Los sistemas altavoz-dependientes disponibles en el comercio del dictado requieren solamente un período corto del entrenamiento (a veces también llamado “inscripción”) y pueden generalmente capturar con éxito discurso continuo con un vocabulario grande en el paso normal con una exactitud muy alta. La mayoría de las compañías comerciales demandan que el software del reconocimiento puede alcanzar entre la exactitud del 98% a del 99% si está funcionado bajo condiciones óptimas. Las “condiciones óptimas” asumen generalmente que los usuarios:

  • tenga características del discurso que emparejen los datos del entrenamiento,
  • puede alcanzar la adaptación apropiada del altavoz, y
  • trabajo en un ambiente de ruido limpio (e.g. espacio reservado de la oficina o del laboratorio).

Esto explica porqué algunos usuarios, especialmente los que discurso se acentúa pesadamente, pudieron alcanzar tarifas del reconocimiento mucho más bajo que esperado. El reconocimiento de discurso en vídeo se ha convertido en una tecnología popular de la búsqueda usada por varias compañías video de la búsqueda.

Los sistemas limitados del vocabulario, no requiriendo ningún entrenamiento, pueden reconocer una pequeña cantidad de palabras (por ejemplo, los diez dígitos) según lo hablado por la mayoría de los altavoces. Tales sistemas son populares para las llamadas telefónicas entrantes de la encaminamiento a sus destinaciones en organizaciones grandes.

Ambos el modelar acústico y el modelar de la lengua son las partes importantes de algoritmos basados en las estadísticas modernos del reconocimiento de discurso. Los modelos ocultados de Markov (HMMs) son ampliamente utilizados en muchos sistemas. El modelar de la lengua tiene muchos otros usos tales como teclado elegante y clasificación del documento.

Modelo ocultado de Markov (HMM) - reconocimiento de discurso basado

Los sistemas de uso general modernos del reconocimiento de discurso se basan generalmente encendido HMMs. Éstos son los modelos estadísticos que hacen salir una secuencia de símbolos o de cantidades. Una razón posible por la que HMMs se utiliza en el reconocimiento de discurso es que una señal de discurso se podría ver como una señal por trozos inmóvil o señal inmóvil a corto plazo. Es decir, uno podía asumir en un a corto plazo en el radio de acción de 10 milisegundos, discurso se podía aproximar como a proceso inmóvil. El discurso se podía pensar así en como a Modelo de Markov para muchos procesos estocásticos.

Otra razón por la que HMMs es popular es porque pueden ser entrenados automáticamente y es simple y factible utilizar de cómputo. En el reconocimiento de discurso, el modelo ocultado de Markov haría salir una secuencia de n- vectores real-valued dimensionales (con n siendo un número entero pequeño, tal como 10), haciendo salir uno de estos cada 10 milisegundos. Los vectores consistirían en cepstral coeficientes, que son obtenidos tomando a Fourier transforma de una ventana a corto plazo del discurso y de decorrelating el espectro usando a el coseno transforma, entonces tomando los primeros coeficientes (la mayoría del significativo). El modelo ocultado de Markov tenderá para tener en cada estado una distribución estadística que sea una mezcla de la covariación diagonal Gaussians que dará una probabilidad para cada vector observado. Cada palabra, o (para sistemas más generales del reconocimiento de discurso), cada uno fonema, tendrá una diversa distribución de salida; un modelo ocultado de Markov para una secuencia de palabras o de fonemas es hecho concatenando los modelos ocultados entrenados individuo de Markov para las palabras y los fonemas separados.

Se describen arriba los elementos de la base del acercamiento más común, HMM-basado al reconocimiento de discurso. Los sistemas modernos del reconocimiento de discurso utilizan varias combinaciones de un número de técnicas estándares para mejorar resultados sobre el acercamiento básico descrito arriba. Un sistema típico del grande-vocabulario necesitarían la dependencia del contexto para los fonemas (así que los fonemas con diverso contexto izquierdo y derecho tenga diversas realizaciones pues los estados de HMM); utilizaría la normalización cepstral para normalizar para diversas condiciones del altavoz y de la grabación; para la normalización adicional del altavoz puede ser que utilice la normalización de la longitud de la zona vocal (VTLN) para la normalización y la regresión linear de la toda probabilidad (MLLR) de la varón-hembra para una adaptación más general del altavoz. Las características tendrían delta supuesto y los coeficientes del delta-delta para capturar dinámica del discurso y además pudieron utilizar el análisis discriminante linear heteroscedastic (HLDA); o pudo saltar el delta y los coeficientes del delta-delta y utilizar empalmar y una proyección LDA-basada seguida quizás por análisis discriminante linear heteroscedastic o un global semitied la covariación transforman (también conocido como toda probabilidad linear transforme, o MLLT). Muchos sistemas utilizan las técnicas discriminatorias supuestas del entrenamiento que dispensan con un acercamiento puramente estadístico a la valoración del parámetro de HMM y en lugar de otro optimizan una cierta medida clasificación-relacionada de los datos del entrenamiento. Los ejemplos son máximos información mutua (MMI), error mínimo de la clasificación (MCE) y error mínimo del teléfono (MPE).

El descifrar del discurso (el término para qué sucede cuando el sistema se presenta con una nueva elocución y debe computar la oración más probable de la fuente) utilizaría probablemente Algoritmo de Viterbi encontrar la mejor trayectoria, y aquí allí es una opción entre dinámicamente crear un modelo ocultado combinación de Markov que incluya la información modelo acústica y de la lengua, o combinarlo estáticamente de antemano ( transductor finito del estado, o FST, acercamiento).

Tiempo dinámico que se comba (DTW) - reconocimiento de discurso basado

Artículo principal: Tiempo dinámico que se comba

El tiempo dinámico que se comba es un acercamiento que fue utilizado históricamente para el reconocimiento de discurso pero ahora ha sido desplazado en gran parte por el acercamiento HMM-basado más acertado. El tiempo dinámico que se comba es un algoritmo para la semejanza que mide entre dos secuencias que puedan variar a tiempo o velocidad. Por ejemplo, las semejanzas en patrones que caminan serían detectadas, aunque en un vídeo la persona caminaba lentamente y si en otro caminaban más rápidamente, o aún si allí era aceleraciones y decelerations durante el curso de una observación. DTW se ha aplicado al vídeo, al audio, y a los gráficos - de hecho, cualquier dato que se puedan dar vuelta en una representación linear se puede analizar con DTW.

Un uso bien conocido ha sido reconocimiento de discurso automático, hacer frente a diversas velocidades de discurso. Es generalmente un método que permite que una computadora encuentre un fósforo óptimo entre dos secuencias dadas (e.g. serie de tiempo) con ciertas restricciones, es decir. las secuencias “se comban” non-linearly para emparejarse. Este método de la alineación de la secuencia es de uso frecuente en el contexto de los modelos ocultados de Markov.

Información adicional

Las conferencias populares del reconocimiento de discurso llevadas a cabo cada año o dos incluyen ICASSP, Eurospeech/ICSLP (ahora nombrado Interspeech) y el IEEE ASRU. Conferencias en el campo de Proceso de lengua natural, por ejemplo el ACL, NAACL, EMNLP, y HLT, están comenzando a incluir los papeles en el proceso del discurso. Los diarios importantes incluyen IEEE Transacciones en el discurso y el proceso del audio (ahora nombrados IEEE Transacciones en audio, discurso y proceso de lengua), discurso y lengua de la computadora, y comunicación de discurso. Los libros tienen gusto de “fundamentales del reconocimiento de discurso” cerca Lorenzo Rabiner puede ser útil para adquirir conocimiento básico pero no puede ser completamente actualizado (1993). Otra buena fuente puede ser “métodos estadísticos para el reconocimiento de discurso” por Frederick Jelinek que sea un libro más actualizado (1998). Aún más actualizado es el “discurso de la computadora”, por Manfred R. Schroeder, segunda edición publicada en 2004. Una buena penetración en las técnicas usadas en los mejores sistemas modernos puede ser ganada prestando la atención a las evaluaciones patrocinadas gobierno tales como ésos organizados cerca DARPA (el proyecto reconocimiento-relacionado del discurso más grande en curso en fecha 2007 es el proyecto del VENDAVAL, que implica componentes del reconocimiento y de la traducción de discurso).

En términos de recursos libremente disponibles, HTK el libro (y la caja de herramientas de acompañamiento de HTK) es un lugar a comenzar a ambos aprenden sobre el reconocimiento de discurso y a la experimentación del comienzo. Otro tal recurso es Universidad Carnegie-Mellon Caja de herramientas de la ESFINGE. Las bibliotecas de AT&T Biblioteca del FSM, Biblioteca de GRM, y Biblioteca de DCD están también las bibliotecas generales del software para el reconocimiento de discurso del grande-vocabulario.

Una revisión útil del área de la robustez en ASR es proporcionada por Junqua y Haton (1995).

Vea también

Referencias

  1. ^ http://www.speech.kth.se/prod/publications/files/1664.pdf
  2. ^ Entrada de voz directa de Eurofighter
  3. ^ Oportunidades para el discurso avanzado que procesa en Systems* computarizado militar
  4. ^ Reconocimiento de discurso para la gente lisiada
  5. ^ Grupo de ayuda internacional de los amigos

Acoplamientos externos

The original article is from Wikipedia. To view the original article please click here.
Creative Commons Licence