Improvements in Speech Synthesis
暫譯: 語音合成的改進

Eric Keller, G. Gailly

  • 出版商: Wiley
  • 出版日期: 2001-11-28
  • 售價: $1,300
  • 貴賓價: 9.8$1,274
  • 語言: 英文
  • 頁數: 408
  • 裝訂: Hardcover
  • ISBN: 0471499854
  • ISBN-13: 9780471499855
  • 下單後立即進貨 (約5~7天)

買這商品的人也買了...

相關主題

商品描述

Naturalness in synthetic speech is one of the most intractable problems in information technology today. Although speech synthesis systems have improved considerably over the last 20 years, they rarely sound entirely like human speakers.

Why is this so, and what can be done about it? Prosodic processing must be rendered more varied and more appropriate to the speech situation

  • Timing, melodic control and the relationships between the various prosodic parameters need increased attention

  • Signal processing systems must be developed and perfected that are capable of generating more than just one voice from a database

  • A better understanding must be achieved of what distinguishes one voice from another, and of how speech styles differ between simply reading aloud numbers and sentences and their use in interactive speech

  • New evaluation methodologies should be developed to provide objective and subjective measurements of the intelligibility of the synthetic speech and the cognitive load imposed upon the listener by impoverished stimuli

  • Adequate text markup systems must be proposed and tested with multiple languages in real-world situations

  • Further research is required to integrate speech synthesis systems into larger natural-language processing systems
      Improvements in Speech Synthesis presents the latest research in the above areas. Contributors include speech synthesis specialists from 16 countries, with experience in the development of systems for 12 European languages. This volume emerges from a four-year European COST project focussed on "The Naturalness of Synthetic Speech", and will be a valuable text for everyone involved in speech synthesis.
    • Table of Contents

      List of Contributors.

      Preface.

      PART I: ISSUES IN SIGNAL GENERATION.

      Towards Greater Naturalness: Future Directions of Research in Speech Synthesis (Keller, E.).

      Towards More Versatile Signal Generation Systems (Bailly, G).

      A Parametric Harmonic + Noise Model (Bailly, G.).

      The COST 258 Signal Generation Test Array (Bailly, G.).

      Concatenative Text-to-Speech Synthesis Based on Sinusoidal Modelling (Banga, E.R. et al).

      Shape Invariant Pitch and Time-Scale Modification of Speech Based on a Harmonic Model (O'Brien, D. & Monaghan, A.).

      Concatenative Speech Synthesis Using SRELP (Rank, E.).

      PART II: ISSUES IN PROSODY.

      Prosody in Synthetic Speech: Problems, Solutions and Challenges (Monaghan, A.).

      State-of-the-Art Summary of European Synthetic Prosody R&D (Monaghan,A.).

      Modelling F0 Contour in Various Romance Languages: Implementation in Some TTS Systems (Martin, P.).

      Acoustic Characterisation of the Tonic Syllable in Portuguese (Teixeira, J.P. and Freitas, D.).

      Prosodic Parameter of Synthetic Czech: Developing Rules for Duration and Intensity (Dohalska, M. et al).

      MFGI, a Linguistically Motivated Quantitative Model of German Prosody (Mixdorff, H.).

      Improvements in Modelling the FO Contour for Different Types of Intonation Units in Slovene (Dobnikar, A.).

      Representing Speech Rhythm (Keller, B.Z. and Keller, E.).

      Phonetic and Timing Considerations in a Swiss High German TTS System (Siebenhaar, B. et al).

      Corpus-based Development of Prosodic Models Across Six Languages (Fackrell, J. et al).

      Vowel Reduction in German Read Speech (Widera, C.).

      PART III: ISSUES IN STYLES OF SPEECH.

      Variability and Speaking Styles in Speech Synthesis (Terken, J.).

      An Auditory Analysis of the Prosody of Fast and Slow Speech Styles in English, Dutch and German (Monaghan, A.).

      Automatic Prosody Modelling of Galician and its Application to Spanish (Gonzalo, E.L. et al).

      Reduction and Assimilatory Processes in Conversational French Speech: Implications for Speech Synthesis (Duez, D.).

      Acoustic Patterns of Emotions (Pollermann, B.Z. and Archinard, M).

      The Role of Pitch and Tempo in Spanish Emotional Speech: Towards Concatenative Synthesis (Montero, J.M. et al).

      Voice Quality and the Synthesis of Affect (Chasaide, A.N. and Gobl, C.).

      Prosodic Parameters of a 'Fun' Speaking Style(Gustafson, K. and House, D.).

      Dynamics of the Glottal Source Signal: Implications for Naturalness in Speech Synthesis (Gobl, C. and Chasaide, A.N.).

      A Nonlinear Rhythmic Components in Various Styles of Speech (Keller, B.Z. ad Keller, Ec.).

      PART IV: ISSUES IN SEGMENTATION AND MARK-UP.

      Issues in Segmentation and Mark-UP (Huckvale, M.).

      The Use and Potential of Extensible Mark-UP (XML) in Speech Generation (Huckvale, M.).

      Mark-Up for Speech Synthesis: A Review and Some Suggestions (Monaghan, A.).

      Automatic Analysis of Prosody for Multi-lingual Speech Corpora (Hirst,D.).

      Automatic Speech Segmentation Based on Alignment with a Text-to-Speech System (Horak, P.).

      Using the COST 249 Reference Speech Recogniser for Automatic Speech Segmentation (Warakagoda, N.D. and Natvig, J.E.).

      PART V: FUTURE CHALLENGES.

      Future Challenges (Keller, E.).

      Towards Naturalness, or the Challenge of Subjectivenss (Caerlen-Haumont, G.).

      Synthesis within Multi-Modal Systems (Breen,

      商品描述(中文翻譯)

      合成語音的自然性是當今資訊科技中最棘手的問題之一。儘管語音合成系統在過去20年中有了顯著的改進,但它們聽起來仍然很少完全像人類說話者。

      為什麼會這樣,該怎麼辦呢?
      - 音韻處理必須變得更加多樣化,並且更適合語音情境
      - 時間控制、旋律控制以及各種音韻參數之間的關係需要更多的關注
      - 必須開發和完善能夠從數據庫中生成不止一種聲音的信號處理系統
      - 必須更好地理解什麼區分一種聲音與另一種聲音,以及在簡單朗讀數字和句子與其在互動語音中的使用之間的語音風格差異
      - 應該開發新的評估方法,以提供合成語音的可理解性和由貧乏刺激對聽者施加的認知負荷的客觀和主觀測量
      - 必須提出和測試足夠的文本標記系統,並在現實情況下使用多種語言
      - 需要進一步研究將語音合成系統整合到更大的自然語言處理系統中

      《語音合成的改進》展示了上述領域的最新研究。貢獻者包括來自16個國家的語音合成專家,擁有為12種歐洲語言開發系統的經驗。本書源自一個為期四年的歐洲COST項目,專注於“合成語音的自然性”,將成為所有參與語音合成的人士的寶貴文本。

      **目錄**
      貢獻者名單。
      前言。
      第一部分:信號生成中的問題。
      朝向更自然的方向:語音合成研究的未來方向(Keller, E.)。
      朝向更通用的信號生成系統(Bailly, G)。
      參數化的和諧+噪聲模型(Bailly, G.)。
      COST 258信號生成測試陣列(Bailly, G.)。
      基於正弦波建模的連接式文本轉語音合成(Banga, E.R.等)。
      基於和諧模型的形狀不變音高和時間尺度修改(O'Brien, D. & Monaghan, A.)。
      使用SRELP的連接式語音合成(Rank, E.)。
      第二部分:音韻中的問題。
      合成語音中的音韻:問題、解決方案和挑戰(Monaghan, A.)。
      歐洲合成音韻研發的最新總結(Monaghan, A.)。
      在各種羅曼語言中建模F0輪廓:在某些TTS系統中的實施(Martin, P.)。
      葡萄牙語中重音音節的聲學特徵(Teixeira, J.P.和Freitas, D.)。
      合成捷克語的音韻參數:持續時間和強度的規則開發(Dohalska, M.等)。
      MFGI,一種語言學驅動的德語音韻定量模型(Mixdorff, H.)。
      對斯洛文尼亞語不同類型語調單元的FO輪廓建模的改進(Dobnikar, A.)。
      表達語音節奏(Keller, B.Z.和Keller, E.)。
      瑞士高德語TTS系統中的語音學和時間考量(Siebenhaar, B.等)。
      跨六種語言的基於語料庫的音韻模型開發(Fackrell, J.等)。
      德語朗讀中的元音減弱(Widera, C.)。
      第三部分:語音風格中的問題。
      語音合成中的變異性和說話風格(Terken, J.)。
      對英語、荷蘭語和德語快慢語音風格的音韻分析(Monaghan, A.)。
      加利西亞語的自動音韻建模及其在西班牙語中的應用(Gonzalo, E.L.等)。
      會話法語語音中的減少和同化過程:對語音合成的影響(Duez, D.)。
      情感的聲學模式(Pollermann, B.Z.和Archinard, M)。
      西班牙語情感語音中的音高和節奏的角色:朝向連接式合成(Montero, J.M.等)。
      聲音質量和情感的合成(Chasaide, A.N.和Gobl, C.)。
      “有趣”說話風格的音韻參數(Gustafson, K.和House, D.)。
      聲門源信號的動態:對語音合成自然性的影響(Gobl, C.和Chasaide, A.N.)。
      各種語音風格中的非線性節奏成分(Keller, B.Z.和Keller, Ec.)。
      第四部分:分段和標記中的問題。
      分段和標記中的問題(Huckvale, M.)。
      在語音生成中使用和潛在的可擴展標記(XML)(Huckvale, M.)。
      語音合成的標記:回顧和一些建議(Monaghan, A.)。
      多語言語音語料庫的自動音韻分析(Hirst, D.)。
      基於與文本轉語音系統對齊的自動語音分段(Horak, P.)。
      使用COST 249參考語音識別器進行自動語音分段(Warakagoda, N.D.和Natvig, J.E.)。
      第五部分:未來挑戰。
      未來挑戰(Keller, E.)。
      朝向自然性,或主觀性的挑戰(Caerlen-Haumont, G.)。
      在多模態系統中的合成(Breen,)。