即将飞往印度海得拉巴参加Interspeech2018会议,这个会议是语音语言方面的顶级会议。
这次提交的论文是基于单元挑选的语音合成,主要是通过Embedding(一个固定长向量)表示音素特征从而在路径搜索时可以给予代价函数更多的声学表示,并且改进连接代价有助于提升语音连续性,从而提升传统HMM方法的效果。可参见论文或海报
这个方法也被应用在今年的语音合成比赛Blizzard Challenge中,这个提升了系统的的合成表现力,不过造成了语音稳定性的轻微下降。相比较而言,提升占主要部分,可参见论文The USTC System for Blizzard Challenge 2018
2018年8月31日 周五
2018年9月1日 周六
广州->新德里
新德里机场很漂亮,很现代化,各种设施都是国际标准
飞机晚上是晚上八点多到的海得拉巴,飞机上的晚餐是传统的印度式餐,芹菜酱做的土豆泥,和合肥1912街区的塔吉餐厅类似,不过更辣一些,也不是国内的那种辣嘴的辣。还看到了双🌈,一个完整的圆形。
海得拉巴机场也不错,佛教文化在这盛行,机场里有关于佛,瑜伽的雕塑和艺术品。
不过在海得拉巴打的时直接坐在了副驾驶位,才发现这里是靠左行驶,原来是驾驶位尴尬。。。
住的四星级酒店离HICC会议地点很近,是85美元一天,住的和国内的快捷酒店类似。不过因为买水走出酒店才发现,比想象的印度还要差,由于大雨下的很急,水往往无法通过下水道排走,全部漫在地上。城市市镇建设非常糟糕,没有人行道和机车道的概念,污水横流,井水外喷,公交车没有门随意上人,估计印度人已经习以为常。
看来印度缺的不仅仅是啥《厕所英雄》,也缺下水道英雄。好在印度人比较乐观,也乐于助人,这是不是和信教分不开呢。卖完水就立刻回酒店了,睡觉~
2018年9月2日 周日
今天是Interspeech报道的第一天,上午就去领了会议册,论文集U盘,印度风格的包包,还有属于自己的代表牌等等(可以在Google Play上下载Interspeech2018 App,可以直接看论文)
中午在附近的mainland China吃中国菜,还蛮好吃不过风味还是和中国不完全一样,也不是印度风味,那可以说是混搭吧
下午去参观了葛康达古城遗迹。印度和中国的景点附件不一样,第一不是那种圈地收门票那种、景区外熙熙攘攘没有景点的感觉;第二门票价格不贵(相对于中国而不是印度本地人),300卢比大概30人民币;第三是景区不是分地区收费,而是整个景区就收300卢比,要是鸟巢嘛进去逛一圈一个钱,看天台又是一个钱。。。
景区内部本地人比较多,大部分是断壁残垣,以前是皇帝的寝宫,虽然只有500多年但是历经风吹雨打,已经成为不复当时的盛景。
但是在🇫🇷埃克斯住的也是500多年历史的房子,外表干净整洁,里面现代化设施俱全。印度🇮🇳还是发展中国家嘛
不过海得拉巴这里变天特别快,瞬间就能下起大雨,我没打伞只好躲在岩石下,特别简陋的”雨棚“呀。雨停了还是阴天就接着上山,路上还是挺泥泞的,鞋子上都是泥沙。不过上山之后风景独好,整个海得拉巴都能尽收眼底。
虽然淋了一身雨不过雨过天晴后衣服干的也快,阳光照在山下特别美丽。断壁残垣也很美。
2018年9月3日 周一
这是Interspeech2018正式开始的第一天,上午参加了开幕仪式,先介绍印度国家的地理状况,接着介绍主办城市海得拉巴,然后是今年会议的接收情况,比如论文接受率呀(今年是50%)、哪个领域投稿论文最多最少呀、每天提交的论文数量呀、每篇文章的修改次数的统计呀等等一些比较好玩的结果。接着是授予ISCA的奖项,一般是对某些领域有特别贡献的专家学者,以及某些领域的开拓者先驱们。所以上午就是感受会场氛围
吃完饭之后就是再去会场听口头报告,oral是语音识别方向的,并不是我研究的领域。不过有一篇文章是说用四元数(n = a + bI + cJ + dK)来代替神经网络参数,似乎还有不错的效果,有意思。之后看了海报是关于语音验证的攻击的,之前也不怎么了解,看了海报和交流之后感觉这个领域还是新兴领域,用的方法还不是那么复杂,也蛮有意思的。语音合成只有主观指标才是硬道理,但是识别和这个攻击验证都是可以用客观指标说话的那就改进网络模型获得更小的错误率呗,语音合成(单元挑选方式的)即使客观指标好主观也不一定听出差异。。。
晚上是印度文化汇演,地点就是在开幕式的Hall3。感觉音乐不如我在三傻大闹宝莱坞那段音乐悠扬婉转好听,不过有些音乐的节奏感还是很不错的。
晚上逛了下超市买到了我一直心心念念的印度神调料-芹菜酱(celery sauce)。但是刚开始自己找不到问了当地人(都挺热情)才发现自己找的不对,应该是mint sauce。看起来这就对了,下次可以用这个酱坑人,哈哈哈~
总共买了芹菜酱225卢布 + 养乐多红蓝两包装(每包5罐)70*2 == 365卢布。哦对了印度🍆也是奇葩还有这样的,就像小圆球一样。。。
2018年9月4日 周二
今天已经是出发的第五天了,上午去了会议中心一趟,听的是统计参数语音合成的口头报告。里面关于这个领域的最新成果可以阅读下。
中午一样在mainland China吃饭,之后去玩了Interspeech会标的所在地,加尔塔(300卢比)。
附近人太太多了,然后就是登塔。也是和欧洲很多教堂宫殿一样(比如巴黎香榭丽舍大街的凯旋门)是盘旋向上的,但是规模肯定是不如那个凯旋门大。塔顶可以俯瞰周围
然后去了Chowmahalla Palace这个宫殿(200卢比,特别值),和外面完全两个世界,人家是世外桃源这里是壁画秀月???,待续
2018年9月5日 周三
今天是我的poster时间,因此上午主要的事情就是看别人的海拔。
因为上午有一场是关于Voice Conversion and Speech Synthesis。其中Exemplar-based Speech Waveform Genaration和我做的单元挑选有关,还提供了Github地址,同时也是BC比赛CSTR的混合单元挑选系统。
顾宇师兄的多任务WaveNet和讯飞源哥的论文也在展示之列。谷歌也有一篇文章说的是TTS系统的一些实验。
下午是我讲poster的时候,围观很多人,感兴趣的也多。
晚上是“百度之夜”,请客在意大利餐厅吃饭,非常高级,看来花费了不少心思,据说和前一天的京东晚宴形成对比,那顿致辞冗长而且还是天天吃的印度餐,没有创意。
2018年9月6日 周四
早上去了河边的博物馆,外国人是500卢比,门口看见了一种花很是神奇,叶片竟然是红色的。
博物馆总体还是不错的,藏品丰富但是博物馆老旧。
晚上去了最大的购物中心,吃了肉卷还有肯德基。买了一个贾尔塔的木版画。
2018年9月7日 周五
花了一个上午半个下午参观宝莱坞。非常不错。
然后顺便去了一个印度人家,换了摩的还体验了新交通方式。
最后去了药店。
2018年9月8日 周六
今天上午去微软参加Blizzard Challenge比赛的Workshop
这次USTC系统是第一,然后我来介绍我们系统。可是我当时应该注意两点,也是以后需要注意的。
- 会议地点的空间很小,并不足以形成会场那种巨大的Hall,因此当时应该背下来ppt
- ppt不应该详细介绍以前的系统,应当以这次新的内容和demo为主
- Mac需要搭配一个HDMI转接线,我没带。以及如何投屏事先没有充分了解
造成了几个问题
- 无法点亮屏幕和音响。
- 不是站立不够正式