而信息团队那边,则是处长岑知夏直接向赵长天汇报。
目前,信息技术处是否划分为信息处和技术处两个独立的部门——
已经纳入了赵长天的考虑范围。
周海琼盯着屏幕上跳动的方言语音识别准确率数据——
成市话的识别准确率卡在了92%,离目标的98%还有不小的差距。
“问题出在哪?”周海琼的手指轻轻敲着桌面。
目光落在屏幕上的错误识别案例上——
“‘巴适’识别成‘巴士’,‘撇脱’识别成‘撇托’。
这些都是成市话里常用的词汇,怎么会识别错?”
老张揉了揉眼睛,调出方言样本库:“周总,主要是成都话的口音太杂了。
有城区的、有郊县的。
还有跟庆市话、乐山话融合的变体。
我们之前采集的样本主要是城区口音,郊县口音的样本太少。
导致识别准确率上不去。
比如‘耍’这个字,城区念‘shuǎ’,郊县有的念‘suǎ’。
系统没见过这种发音,就容易识别错。”
周海琼皱起眉,拿起桌上的成市话方言词典翻了几页——
“我们得扩大样本库。
不仅要采集城区口音,还要采集郊县的。
甚至跟其他方言融合的变体。
你统计一下,现在还缺哪些区域的样本。
我联系成市的分公司,让他们帮忙采集。”
老吴立刻打开excel表格——
“现在缺双流、郫都、龙泉三个区的郊县口音样本。
每个区域至少需要50个小时的语音样本。
涵盖不同年龄段、不同职业的人。
这样识别准确率才能覆盖大部分用户。”