[Subject Prev][Subject Next][Thread Prev][Thread Next][Date Index][Thread Index]

[hts-users:02868] Re: [hts-users:02867] Re: Question about duration model structure



Dear Dr. Zen,
 
Thanks for your quick reply!
 
I'm trying to use different state number for voiced/unvoiced phonemes, the problem is there will be different stream numbers in the duration model (there is a same question in the ML archives http://hts.sp.nitech.ac.jp/hts-users/spool/2008/msg00250.html).
 
Is there any way to solve it without modifying the duration model structure?
 
Regards,
Zhu Fengyun


发件人: Heiga ZEN (Byung Ha CHUN)
发送时间: 2011-05-25 13:59:27
收件人: hts-users
抄送:
主题: [hts-users:02867] Re: Question about duration model structure
 
Hi,
ZhuFengyun wrote (2011/05/25 6:40):
> Dear HTS developers:
> As Dr. ZEN said in http://hts.sp.nitech.ac.jp/hts-users/spool/2007/msg00680.html
> <http://hts.sp.nitech.ac.jp/hts-users/spool/2007/msg00680.html>
> "In the previous versions we used a multi-variate Gaussian PDF to represent
> state duration PDFs.
> However, since version 2.0.1 we have changed it to multi-stream structure."
> I'm confused about why are you making the decision that using multi-stream
> structure instead of multi-variate Gaussian PDF?
> Can someone make a brief explanation about the advantages of using a
> multi-stream structure?
Because implementation of HSMM training and adaptation was easier.  With the 
multi-stream structure, existing functions (SOutP(), ApplyCompFXForm(), 
ApplyXForm(), etc.) could be reused to implement HSMM training & adaptation.
If we kept using the old multi-variate Gaussian PDF, I needed to implement 
various additional functions from the scratch for this functionality.  The gap 
between HTK and HTS might increase and maintenance of HTS might be harder.
Regards,
Heiga ZEN (Byung Ha CHUN)
======================================================================
NOTE: The information in this email and any attachments may be confidential
and/or legally privileged. This message may be read, copied and used only by
the intended recipient. If you are not the intended recipient, please
destroy this message, delete any copies held on your system and notify the
sender immediately.
Toshiba Research Europe Limited, registered in England and Wales (2519556).
Registered Office: 208 Cambridge Science Park, Milton Road, Cambridge
CB4 0GZ, England. Web: http://www.toshiba-europe.com/research/crl
======================================================================
______________________________________________________________________
This email has been scanned by the MessageLabs Email Security System.
For more information please visit http://www.messagelabs.com/email 
______________________________________________________________________

References
[hts-users:02866] Question about duration model structure, ZhuFengyun