信息化背景下,部分嫌疑人经常在以微博为代表的网络社交平台伪装身份进行作案.为了应对此类新型涉网犯罪案件,更好地刻画嫌疑人身份,通过爬取特定微博用户的语料作为研究对象,详细研究了不同年龄群体的微博言语特点,并且结合统计学,分析了不同特征在各群体之中出现的概率,从而帮助办案人员完成对嫌疑人的年龄识别.模型建立方面,首先将年龄分为四个等级,通过观察样本中的言语特征并且结合言语特征的出现率来完成模型的搭建.模型预测方面,尝试在自动化判别上引入五种分类模型,其中多分类Logistic回归模型预测正确率最高,能够达到70%左右,在特征出现率较高的情况下,该模型可为办案人员在年龄的判断上进行辅助验证.
言语识别 微博言语 年龄 Logistic预测分析