维普资讯 http://www.cqvip.com
第22卷第4期 中文信息学报 JoURNAL oF CHINESE INFoRMATION PROCESSING VoI_22,NO.4 2008年7月 Ju1.,2008 文章编号:1003—0077(2008)04—0100—05 基于音素及其特征参数的维吾尔语音合成技术 姑丽加玛丽・麦麦提艾力,艾斯卡尔・艾木都拉 (大学信息科学与工程学院,乌鲁木齐830046) 摘 要:首先建立了由维吾尔语中的单音素、双音素所构成的小规模语音语料库,设计了相应的拼接单元挑选算 法,利用参数调整算法对拼接单元语音信号的时长、基频和短时能量等特征参数进行调整,并利用时域平滑算法对 拼接点处的语音参数进行调整,从而进一步提高了合成语音的自然度。用C Sharp编程语言实现了上述算法,试验 结果表明研究思路和技术方案的可行性。该系统具有语料库小,合成语音的可懂度和自然度较高等优势。 关键词:计算机应用;中文信息处理;语料库;参数调整;语音合成;时域平滑 中图分类号:TP391 文献标识码:A The Phoneme Feature Based Uyghur Speech Synthesis Gulijiamali Maimaitiaili,Aisikaer Aimudula (Information Science&Engineering College,Xinjiang University,Urumqi,Xinjiang 830046,China) Abstract:This system first establishes the small speech corpus including single phoneme and double phoneme seg— mented by recorded words from selected sentences in Uyghur language.Afterwards,it designs the unit selection al— gorithm and employs the parameter adj ustment algorithm tO adj ust parameters like length,pitch frequency and short —term energy in the speech signa1.Finally it applies the time domain smoothing algorithm in adj usting speech pa— rameters at the concatenated points SO as to enhance the naturalness of synthesized speech.The whole process is devel— oped by C#,and experimental results proves the feasibility of the proposed scheme and technology.The system has advantages of small speech corpus, relatively high understandabnity and naturalness for the synthesized speech. Key words:computer application;Chinese information processing corpus;parameter adjustment;speech synthesis; tjme domain smooth 然度的合成系统上,取得了很大的进展。波形拼接 1 引言 在语音合成方面,合成语音的清晰度目前已不 成问题,自然度是听众接受这项技术的主要障碍,因 合成方法的基本原理就是根据输入文本分析得到的 信息,从预先录制和标注好的语音库中挑选合适的 单元,进行少量的调整(也可以不进行调整),然后拼 接得到最终的合成语音,其中用来进行单元挑选的 此进一步提高合成效果的自然度是语音合成一个急 待解决的研究内容。由于在模型的精确度方面的原 因,以前的合成器都难以有效地合成高自然度的语 音,而基于原始语音库的波形拼接合成在实现高自 信息可以是前端分析得到的韵律文本,也可以是生 成的声学参数(比如基频、时长和谱参数),或者两者 兼有。由于最终合成语音中的单元都是直接从音库 中复制过来的,其最大的优势就是在于保持了原始 收稿日期:2007—08—15定稿日期:2008—01—28 基金项目:国家自然科学基金资助项目(60662002);国家863课题资助项目(AA2006010101) 作者简介:姑丽加玛丽・麦麦提艾力(1984一),女,硕士生,主要研究方向为维吾尔语音合成技术;艾斯卡尔・艾木都拉 (1972~),男,教授,博导,主要研究方向为多媒体信息处理。 维普资讯 http://www.cqvip.com 4期 姑丽加玛丽等:基于音素及其特征参数的维吾尔语音合成技术 101 发音人的音质。文献[1,2]研究了基于大语音语料 库的波形(最大的语音基元为句子,最小的语音基元 则为音节)拼接式语音合成技术。虽然,大语料库合 成系统的合成语音的音质和自然度都相当不错,尤 其针对一些特定领域的应用,但是它也存在一些内 在的缺陷和不足。由于语音库很大,使得语音库制 作的工作量非常大,而且周期也很长,合成系统的合 成语音比较单一。 程如F: 壅巫 一 区 亟巫—————————— =————————一 l语音语料库l甄 、——————————[ l厂 语音波形选掸 I /一 、——————————/ 广■ —————————= ———————一厂] j} 合成语音 为了在容量最小的语音语料库基础上,较高自 【时域平滑)’---—---・---------一[ l[亟 语音波形拼接 I[ ◆-] 黼… ¨ 然度地合成出所有维吾尔语文本,本系统采用了基 图1 系统框图 于音素基元的小样本波形拼接合成技术,并有效地 利用参数调整合成算法、时域平滑算法、波形单元挑 选算法,提高了合成语音的自然度。本文所研究的 2语音语料库的建立 基于音素波形拼接及特征参数调整的语音合成技术 成功填补了维吾尔语音合成技术领域的空白。 2.1单音素语音语料库 本系统首先从维吾尔语常用的单词和句子里面 维吾尔语语音的最小组成单位是音素,音素有 切割出来的单音素和双音素的语音来建立语音语料 元音和辅音两大类。在32个字母中有8个元音字 库。系统收到维吾尔语文本后,分析收到的文本并 母,24个辅音字母。单音素语音语料库是由32个 利用单元挑选算法把它分割成相应的音素序列,并 维吾尔字母所对应的音素声音组成的。我们首先研 从语音语料库中选取适当的语音数据,并对拼接单 究维吾尔语的特点,积累了维吾尔语常用的,用得最 元的语音信号的基频、时长等特征参数进行调整,生 频繁的特定单词,然后考虑音素的拼接问题,并反复 成包含与收到文本对应的语音数据声音文件,合成 测试合成出来的结果,取出了适当的维吾尔音素。 语音的同时利用时域平滑方法对拼接点的语音参数 同时检测并收集了每个音素在不同上下文环境下的 进行调整,输出自然连续的语声流。系统的总体流 特征参数。 表1 单音素语音语料库中的音素列表和拉丁字母表示 元音 a E i e 0 U o l b b P j q C h d J r 辅音 J 、;Z ‘-- s 乙 X奋 已G f K g k N I m ‘=j n A H 、鼻,w Y 2.2双音素语音语料库 示)和8个元音字母后面有24个辅音字母所对应的 音素组成的。按照组合方法统计出来的双音素有 由单音素语料库来合成语音时,因为元音和辅 384个(总数一N×M+M×N)。 音拼接的地方不顺,很容易加噪声,严重影响合成语 通过对大量的维吾尔语文本进行统计得出,按照 音的效果。通过实验结果,我们意识到应该考虑每 标准维吾尔语,现行的维吾尔语常用的“元音+辅音” 一个元音跟前后辅音的连接情况,所以我们建立了 和“辅音+元音”对应的双音素有363个。也就是,其 双音素语音语料库。双音素语音语料库是8个元 中的21个双音素是不常见的。比如元音“ ”前后有 音字母(用N表示)前面有24个辅音字母(用M表 24个辅音对应的双音素列表如表2所示。 维普资讯 http://www.cqvip.com
102 中文信息学报 表2元音“1J’’前后有辅音的双音素列表 元音“U” 在前 元音“ ” JU U L‘_ 之u 盘 I gU I_j U IIi L U 叶 ■U L ● AU 0U l、; lj ,Lj lJ I.i 乏u L§ . 在后 L p LS 表3维吾尔语中不常见的“元音+辅音”和“辅音+元音”的双音素列表 序号 双音素 序号 双音素 序号 双音素 序号 双音素 序号 双音素 序号 双音素 序号 双音素 1 4 、争 7 1O 13 Jj 鼻 16 19 2 oj 5 0、, 8 11 33 14 3 17 2O 3 1鼻 3 j 6 3j v^ 9 12 C、. I, 15 18 ^j 21 吾尔语语音的最小组成单位是音素,最小发声单元 3拼接单元的参数调整 是音节,一个音节是由元音和零至三个辅音构成的。 在现代维吾尔语中音节有6种常用组合结构。如果 在实际语流中,同一个音素单元在不同上下文 我们用字母“V”来代替元音字母,“C”字母来代替辅 环境下(比如前后音素类型,属性等)会产生不同的 音字母。那么音节形式是: 发音变体,因为每个音素所处语境和位置等不同, 表4维吾尔语中常用的音节格式 则它们的音高、音强和音长分布模式会发生不同程 V型音节 ,c CVC型音节 度的变化。如果收集各种语境下的音素来建立语料 VC型音节 u vcc型音节 IIIp' j 库并合成语音的话,语料库的容量会变得很大。而 我们的目的是在不把语料库的容量变大的条件下, cv型音节 J cVCC型音节 提高合成语音的自然度,所以我们选择利用参数调 整算法。首先我们积累了语料库中的每一个音素在 除了以上6种纯属维吾尔语标准音节格式以外 不同上下文环境中的基音频率、时长以及谱参数特 还有一些从其他语言中引进的音节格式。有以下 征参数,并利用STRAIGHT参数合成器。 5种: STRAIGHT(Speech Transformation and Representa— 表5其他语言中引进的音节格式 tion using Adaptive Interpolation of weiGHTed spec— CCV型音节 已 CVV型音节: l ・ trum)(Kawahara 1 9 9 7;Kawahara,Masuda-Katsuse et CCVC型音节 I CVVC型音节 u 国l a1.1999)是一种针对语音信号的高性能的分析合成 CCVCC型音节 算法,它通过对语音短时谱进行时频域的自适应内 插平滑来提取去除基频影响的语音信号精确的谱包 a)如果单词是一个音素组成的,比如A型音节 络,并能在恢复语音的过程中进行时长、基频以及谱 的单词“ ”,就从单音素语音语料库中取出对应的 参数的灵活调整。我们设计了相对调整算法,在频 语音数据。 谱到语音的合成过程中,参考收集的特征参数并对 b)如果单词是多个音素组成的,分成双音素序 拼接单元的语音信号的特征参数进行调整,尽量使 列,在双音素语音语料库中取出相应的语音数据。 拼接单元的参数保持一致,合成语音协调发音。 分解音素单元的时候,首先尽量分解较大的单元,然 后分解较小的单元。 4分析文本并单元挑选 c)如果双音素在语料库中不存在,判断这个双 音素肯定不是一个元音和一个辅音组成的。比如分 对输入的文本进行分解单元时,首先把输人的 解ABB型,BABB型,BBA型,BBAB型,BBABB 文本分解为单词,然后把每一个单词分成相应的音 型,BAA型和BAAB型音节的单词时,音节的前、 素单元序列。维吾尔语是一个复杂的声调系统,维 后、中都有两个辅音BB或两个元音AA组成的双 维普资讯 http://www.cqvip.com 4期 姑丽加玛丽等:基于音素及其特征参数的维吾尔语音合成技术 103 音素,所以语音语料库中找不到对应的语音数据,此 时把这些双音素又分解成单音素,分别从单音素语 音语料库中取出相应的语音数据。单元挑选算法流 程图如下所示: 图2单元挑选算法流程图 的单词“… 篓 "挑选算法.(Front)的分解方法如下所示:' 兰 、B BB. 搴节格式 图3 单词“ ’’的分音素形式 分解后的音素序列是:f,r,ro,on,n,t。 5合成部分的实现 合成部分的主要工作包括:分析文本,单元挑 选,语音波形选择,拼接单元参数调整,拼接点平滑, 生成声音文件等部分。具体实现步骤如下: (1)系统收到维吾尔语文本后,分析收到的文 本,并利用单元挑选算法把收到的文本分割成相应 的单音素和双音素序列。 (2)语音语料库中取出音素序列对应的拼接单 元后,首先对拼接单元进行参数调整,然后创建一个 新的声音文件,把调整后的语音数据按照收到的顺 序写到声音文件里面,产生一个与输入的文本对应 的、的声音文件。 (3)对拼接单元进行合成时,两个拼接单元连 接的地方,尤其是拼接点处有元音(因为元音和辅音 的音强差别比较大)的地方不一致,存在音高跳变的 现象,从而产生噪声。为解决这些问题,本系统设计 了相应的时域平滑算法,合成语音的同时,检测拼接 点两边的语音信号并自动检测出样本值相同的采样 点,去掉存在跳变的地方,从而减小噪声,尽量使拼 接点两边保持一致,进一步改善合成语音的音质。 进行平滑前和进行平滑后的拼接点的语音信号波形 如下: 图4平滑以前的拼接点波形 图5平滑以后的拼接点波形 后中间跳变的地方就消失了。~… 从上面的波形可以看出对语音信号进行平滑以一~ ,6 结语 作为少数民族语言信息处理的核心技术之 一,近年来维吾尔语语音合成技术取得了巨大的 进步。随着合成音质和自然度的逐步改善,用户 对合成系统提出了更多的需求,比如如何有效地 利用有限的、容量最小的语音语料库,并保持较高 的音质和自然度,这已经成为目前一个重要的研 究工作。为了使语料库的容量最小,本系统把音 素基元作为拼接单元,而且同时用了单音素和双 音素的多基元方法,根据维吾尔语的特点设计了 灵活的单元挑选算法。从系统的合成效果可以看 出,拼接单元越大,合成语音的自然度越高,但这 是以语料库的容量变大为代价。所以在不把语料 库的容量变大的条件下,有效地利用了参数合成 调整算法和时域平滑算法对拼接单元进行相应的 调整。本系统具有语料库容量小(容量不到1OM) 和较好地合成自然度等优势,所以它在嵌入式语 音合成上也有非常好的实用前景。 维普资讯 http://www.cqvip.com 104 中文信息学报 2008庄 译.语音合成[M].北京:机械工业出版社,2005. 参考文献: Eli麦麦提艾力・吐尔逊,吾守尔・斯拉术.维吾尔语拼接 式语音合成方法研究[J].电脑知识与技术,2006, 32:194. [6]吴义坚.基于隐马尔科夫模型的语音合成技术研究 [D].合肥:中国科学技术大学,2006. [7]R.H.Wang,Ma Zhongke,Li Wei,A Corpus—Based Chinese Speech Synthesis with Contextual—Dependent Unit Selection[-C]//Proc.of ICSLP.Beijing,2000, 391 394. E2]马欢,吾守尔・斯拉木.维吾尔语文语转换系统文本 分析模块初探[J].计算机工程,2006,32:16. [3]张雄伟,陈亮,杨吉武.现代语音处理技术及应用[M]. 北京:机械工业出版社,2003. [8]Thomas F.Quatieri(美).赵胜辉,刘家康,谢湘,等译. 离散时间语音信号处理[M].北京:电子工业出版 社,2004. [4]韩纪庆,张磊,郑铁然.语音信号处理[M].北京:清华 大学出版社,2004. [9]林邦杰.C#程序设计[M].北京:中国铁道出版 社,2005. Fs]Jan P.H.van Santen,Richard W.Sproat,Joseph P.O1一 ive,Julis Hirschberg(美).蔡莲红,杨鸿武,吴志勇,等 [1o]《电脑编程技巧与维护》杂志社.C#编程技巧[M].北 京:中国电力出版社,2005. 《中国科技术语》创刊十周年 2008年,《中国科技术语》杂志迎来十周岁生日。全国常委会副委员长、中国科学院院长、全国科技名词委主任路甬 祥院士于2008年4月11日为刊物题词“规范科技名词术语促进科技创新应用”。 《中国科技术语》杂志由全国科学技术名词审定委员会主办,该机构是经批准成立的代表国家进行审定和公布科 学技术名词的机构。自成立以来,已走过2O年的历程,审定公布了天文学、数学、物理学等73个学科共3O多万条名词,涵盖 基础科学、工程与技术科学、农业科学、医学、社会科学及交叉学科等各个领域,建立起了比较完整的科技名词体系。同时也 开展了海峡两岸科技名词对照统一工作,迄今已有2o多个学科开展对照统一工作,其中,航海、化工、通信、药学等9个学科已 对照完毕并已出版。 由商务印书馆出版的《中国科技术语》(双月刊),致力于促进汉语术语的规范和统~,推动我国术语学理论建设,是宣传 我国科学技术名词规范化工作和术语学学术研究进展的重要平台,主编路甬祥院士于2007年明确提出办刊要紧跟时代发展, 突出开放创新。 刊物编委会由一批热心支持并亲自参与科技名词审定工作的院十如师昌绪、沈国舫、陈运泰等和海内外知名学者组成。 《中国科技术语》在继承旧刊《科技术语研究》的基础上,在内容、形式等诸多方面实现了创新,迈出了“紧跟时代要求,突出开 放创新”的重要步伐。据中国科技论文与引文数据库研究报告,刊物影响因子由2006年的0.295上升到0.486,在自然科学 总论的期刊中,排名上升至第15位。 2008年4月29日,《中国科技术语》举办了创刊十周年活动。新闻出版总署、中国科学院、全军军事术语管理委员会、中 国期刊协会、中国辞书学会、中国编辑学会、中国语言学会有关部门领导同志,沈国舫院士、陈运泰院士、张焕乔院士、曹先擢 研究员,商务印书馆有关领导,以及同贺单位、作者、读者代表共7o余人应邀与会。