专注AI|海泰方圆获CCL 2022汉语学习者文本纠错评测第四赛道第三名!
发布时间: 2022-11-09 18:16近日,第21届中国计算语言学大会(CCL 2022)在南昌顺利落幕,同期举办的汉语学习者文本纠错评测研讨会(CLTC)也圆满收官。海泰方圆参与了第四赛道多参考多来源汉语学习者文本纠错的评测,并取得第三名的好成绩。此荣誉的获得彰显了海泰方圆在AI研发上的技术实力。
据了解,本次评测共吸引了140多支队伍报名参赛,包括清华大学、北京大学、中国科学院等高校、科研院所和知名企业,各队伍同场竞技,展现了各界在汉语学习者文本纠错上的成果。本次评测共设置有五个赛道,覆盖拼写检查、语法纠错、质量评估三个任务。
针对赛道四,主办方提供了来自于三个不同文本源的中文学习者语法纠错评测数据,对每一个句子提供多个遵循流利提升的修改答案,海泰方圆基于专家经验、多语言模型、模型训练方法改进、PPL集成提供一套融合纠错系统方案。并对基于seq2seq串行多轮集成及并行集成等方法进行了研究分析,对后续的改进提出建议。
海泰方圆认为本次评测主要解决的问题是提升准确性和召回率,可以从数据处理、模型训练、领域经验、模型集成、性能优化等多方考虑。其中数据处理和模型训练研究相对较多,技术较为成熟;领域经验可以避免过纠或者误纠,在提升召回率的同时保持准确率;模型集成可以通过多模型智慧提升准确率;性能优化则有助于实际落地。
与此同时,海泰方圆从研究和实际验证的角度,对数据集、模型、模型集成、行业专业领域等多方面提出了自己的见解和改进意见。
近年来,学界关于汉语学习者文本纠错已展开多方面、多角度的研究,如拼写检查(Chinese Spelling Check, CSC)、语法纠错(Grammatical Error Correction, GEC)、语法错误检测(Grammatical Error Diagnosis, GED)等,也已发布有一些相关的评测任务。此次评测将语法纠错任务相关资源整合,构建并公开了首个[1]简体中文拼写检查数据集,首次[2]将质量评估纳入评测任务,为评测增加了专业性和复杂性。
海泰方圆人工智能团队聚焦AI研发,拥有丰富的AI行业落地经验,通过数据内容智能分析、数据治理、数据全生命周期安全管控等产品方案,为用户提供行业数据治理、AI模型训练、数据智能服务能力,实现业务数据化、数据资产化、资产服务化、服务智能化,助力政企客户数字化转型。
[1][2]来源于:
https://www.haitaichina.com/qyxw/1270.htm


