首页
搜索 搜索

精彩看点:700多亿字样本中出现不规范字词135.9万次 如何才能不再出错

快科技     2023-06-15 17:01:23


(相关资料图)

近日,由上海蜜度信息技术有限公司、澎湃新闻、上海人工智能研究院、上海市信息安全测评认证中心、上海新华传媒连锁有限公司、新浪微博6家机构共建的数字生态内容实验室通过人工智能、大数据等技术手段对4946.3万条、706.6亿字内容的样本进行全面梳理,整理出出错频率最高的“不规范字词TOP20”。


“不规范字词TOP20”(部分)

对错误类型进行统计,“常见错误”在不规范字词TOP20中占9项,是互联网上主要出现的不规范用字词形式。TOP20中,“常见错误”类型的帐(账)号等属于误用形近别字,其出现错误频次超过1万次。TOP20中,异形词、繁体字各有5项出现。其中,颤(战)栗、架式(势)等误用读音相近字的错误频次均超过千次。

TOP20中繁体字中岀(出)、沒(没)等与正确用字的字形非常相近,在快速输入或手机等小屏幕输入场景中易混淆;妳(你)、愛(爱)等被部分网友用于表达个性,因此出现频率较高。

X 关闭

Copyright ©  2015-2021 制药网版权所有  备案号:粤ICP备18025786号-52   联系邮箱: 954 29 18 82 @qq.com