研究文章
混合脚本识别使用自动款Hyperparameter优化
表1
英语语料库统计(Eng =,欣=印地语,Sar = Saraiki本=孟加拉语,和俄文=罗马乌尔都语)。
|
| 数据集 |
类型 |
源FB = Facebook W = Whatsapp T =推特 |
令牌数 |
总 |
句子 |
|
| Eng-Roman乌尔都语 |
面向空间 |
FB + T + W |
ENG(102311) +欣(97235) |
199546年 |
3558年 |
| Saraiki-Hindi |
草书 |
FB + T + W |
特别行政区(78412)+欣(87563) |
165975年 |
4256年 |
| Bengali-Hindi |
草书 |
FB + T + W |
本(85672)+欣(87563) |
173235年 |
3801年 |
| Eng-Bengali |
混合 |
FB + T + W |
ENG(102311) +本(85672) |
187983年 |
4065年 |
| Saraiki-English |
混合 |
FB + T + W |
特别行政区(78412)+ ENG (102311) |
180723年 |
3457年 |
| Saraiki-Roman乌尔都语 |
混合 |
FB + T + W |
特别行政区(78412)+俄文(97235) |
175647年 |
3962年 |
| Saraiki-Bengali |
草书 |
FB + T + W |
特别行政区(78412)+本(85672) |
164084年 |
2864年 |
| Eng-Bengali-Saraiki-Hindi-Roman乌尔都语 |
混合 |
FB + T + W |
ENG(102311) +本(85672)+ SAR(78412) +欣(87563)+俄文(97235) |
451193年 |
4539年 |
|
|