Adaptaci N Al Locutor Para Un Sistema De Reconocimiento Autom Tico Del Habla Utilizando La T Cnica Consistency Modeling


Download Adaptaci N Al Locutor Para Un Sistema De Reconocimiento Autom Tico Del Habla Utilizando La T Cnica Consistency Modeling PDF/ePub or read online books in Mobi eBooks. Click Download or Read Online button to get Adaptaci N Al Locutor Para Un Sistema De Reconocimiento Autom Tico Del Habla Utilizando La T Cnica Consistency Modeling book now. This website allows unlimited access to, at the time of writing, more than 1.5 million titles, including hundreds of thousands of titles in various foreign languages.

Download

Fast Cross-session Speaker Diarization


Fast Cross-session Speaker Diarization

Author: Héctor Delgado Flores

language: en

Publisher:

Release Date: 2015


DOWNLOAD





Actualmente se crean, almacenan, editan y distribuyen grandes cantidades de contenidos audiovisuales, en parte debido a la capacidad de almacenamiento prácticamente ilimitada, al acceso a los medios necesarios por todo el mundo y en cualquier parte, y a la ubicua conectividad proporcionada por Internet. En este contexto, se requiere una gestión adecuada y sostenible que permita la búsqueda y recuperación de la información de interés. Es aquí donde las técnicas de procesamiento del habla juegan un papel crucial en el etiquetado y anotación automáticos de contenidos audiovisuales. La diarización de locutores es un proceso de apoyo clave para otros sistemas de procesamiento del habla, tales como el reconocimiento automático del habla y el reconocimiento automático de locutores, frecuentemente usados para la extracción automática de metadatos de documentos hablados. Entre las distintas colecciones de contenidos, puede haber locutores recurrentes que participen en diferentes sesiones dentro de una colección determinada (por ejemplo, en contenidos de televisión y radio). Dada la naturaleza local de la tecnología de diarización de locutores, un locutor recurrente arbitrario probablemente recibirá identificadores locales diferentes entre las distintas sesiones donde tal locutor participa. En esta situación tendría más sentido que los locutores recurrentes recibieran el mismo identificador abstracto, global para todas las sesiones. Esta tarea se conoce como diarización de locutores inter-sesión. La diarización de locutores actual ha conseguido muy buena precisión, pero normalmente al coste de largos tiempos de ejecución. Esta limitación podría no ser adecuada para aplicaciones de la vida real a gran escala, se hace aún más evidente el la tarea de diarización de locutores inter-sesión. En esta tesis, la aproximación a la diarización rápida de locutores basada en claves binarias se lleva a un siguiente nivel, con el objetivo de obtener rendimientos similares a los de los sistemas actuales punteros, mientras se preservan altas tasas de velocidad que permitan el tratamiento de grandes colecciones de audio en tiempos competitivos. Además, se propone un nuevo sistema de diarización de locutores inter-sesión basado en claves binarias que sigue los mismos principios previamente establecidos: precisión competitiva en tiempos de ejecución cortos. Como resultado de esta tesis, se propone un sistema mejorado de diarización que consigue una mejora relativa del 16% en rendimiento con respecto a un sistema base de claves binarias (15% DER frente a un 18.22% DER, siendo DER la tasa de error de diarización), siendo 7 veces más rápido (0.035xRT frente a 0.252xRT, siendo xRT el factor de tiempo real) y 28 veces más rápido que el tiempo real. En cuanto a la diarización inter-sesión, en esta tesis se propone un sistema binario cuya precisión es solo levemente inferior (3.5% DER absoluto) a la de su sistema homólogo para sesiones independientes, mientras que presenta factores de tiempo real alrededor de 0.036xRT. Además, la aproximación propuesta escala adecuadamente para tratar colecciones de audio de varios cientos de horas.

Adaptación al locutor en sistemas de reconocimiento automático del habla


Adaptación al locutor en sistemas de reconocimiento automático del habla

Author: Luis Buera Rodríguez

language: es

Publisher:

Release Date: 2002


DOWNLOAD