C&A-SBA logo

Volume 12 number 1

Pages: 64-70


Sílabas Como Unidades Fonéticas Para o Reconhecimento Automático de Voz Contínua em Português

Sidney Cerqueira Bispo dos Santos, Abraham Alcaim

    Dep Eng Elétrica - IME - DE/3
    Pça Gen Tibúrcio, 80 - Praia Vermelha
    22290 - 000 Rio de Janeiro - RJ
    Tel/Fax: (021) 546 7030
    E-mail: sidney@aquarius.ime.eb.br
    CETUC - PUC – Rio
    Rua Marquês de São Vicente, 225 – Gávea
    22453-900 Rio de Janeiro – RJ
    Tel (021) 529 92 54, 529 93 84
    E-mail: alcaim@cetuc.puc-rio.br
Resumo: 
Este artigo examina o papel das sílabas como unidades fonéticas (UF) em Sistemas de Reconhecimento de Voz Contínua (RVC) para o português. Essas unidades possuem um desempenho muito pobre em reconhecedores baseados em língua inglesa e uma possível razão para isso é que o inglês não possui uma divisão silábica trivial. O português, por outro lado, é uma língua silábica por natureza onde a sílaba é o núcleo com que se formam as palavras. Essas unidades se tornam atraentes pelo seu número reduzido quando comparado ao número necessário de trifones para a mesma tarefa, além do seu grau de consistência, quando comparadas aos fones independentes do contexto. Foram realizados dois testes. Os resultados obtidos, 98,81% no modo dependente do locutor e 95,01% no modo independente do locutor, permitem concluir que as sílabas são UFs bastante atraentes para utilização no RVC quando o número de modelos a serem treinados é pequeno. Entretanto, para dicionários grandes o número de modelos torna o treinamento inviável, quando então, outras unidades passam a ser mais atraentes. Com base nesses resultados e nos trabalhos de reconhecimento de voz para a língua inglesa, conclui-se que as sílabas possuem um desempenho melhor para o idioma português do que para o idioma inglês.
Palavras Chave: Reconhecimento de voz contínua; unidades fonéticas.
  
Abstract:  Syllables as phonetic units in Portuguese-based continuous speech recognition systems.
This paper examines the role of syllables as phonetic units (PU) in Portuguese-based continuous speech recognition (CSR) systems. These units have not shown promising results for the English language. This is probably due to the fact that English does not have a trivial syllabic splitting. However, in the Portuguese language these structures are simple and constitute the nucleus on which words are formed. They are attractive due to the extremely reduced number, as compared to triphones, and because of their consistency, as compared to context-independent units. The test results (98.81% in the speaker-dependent mode and 95.01% in the speaker-independent mode) allow us to conclude that syllables are attractive PUs for small-sized vocabularies CSR schemes. However, for large vocabularies the inventories may be excessively large and other units may be more appealing. Based on these results, we conclude that syllables offer a better performance for Portuguese than for the English language.
Keywords: Continuous speech recognition; phonetic units.

PDF copy (95 kbytes)

Back to Volume 12 index.


Click here to obtain
get acrobat reader

Last modifications:  
 by jro