1. 引言
短视频属于一种互联网内容传播方式。短视频账号信息内容的浅度安全等级识别是从账号信息安全的基础信息风险角度入手,对其账号的安全类型进行初步判断,考虑划分出不同类型。而短视频平台内有获得平台的官方级认证的账号和未获得平台的官方级认证的账号两种账号类型,其中获得平台官方级认证的账号相对风险较低,即安全性较高。而未获得平台的官方级认证的账号相对风险较高,但是未获得平台的官方级认证的账号风险也不完全一样,有的作为潜在的优质账号安全性相较于其他未认证账号安全性更高,通过这一方面的考虑入手,我们可以通过短视频潜在优质账号分类识别来完成短视频账号信息内容的浅度安全等级识别。基于此,在面向短视频潜在优质账号分类识别模型中,在模型分析为认证账号而未获得平台的官方级认证的账号里,将其认证为潜在优质账号。短视频账号信息内容浅度安全等级分类通过对短视频未认证账号预测该账号是否为潜在优质账号进行分类后,分为实际未认证且潜在分类为优质未认证账号,实际未认证且潜在分类为优质认证账号,实际已认证优质账号三类账号类型。
预测分类的算法有KNN算法、逻辑回归算法、随机森林算法、朴素贝叶斯算法、SVM算法、ELM算法等。张炎亮 [1] 等使用KNN算法将具有不同特征的产品推荐给相应的用户,从而完成个性化推荐。Guangxia Xu等 [2] 提出了一种面向混合属性的动态SOM模糊聚类算法(D-SOMFCM-OMA)用于移动用户分类。Ming Yan等 [3] 提出了一种基于移动用户分类的加权马尔可夫预测模型。通过机器学习算法对所有用户进行分类和根据各用户类别的特点,优化加权马尔可夫预测模型的步长阈值和加权系数,对各用户类别进行移动性预测。Dingding Hu [4] 为了对电动汽车用户进行分类提出了一种结合扩展RFM模型、两阶段聚类方法和熵权法的集成方法,Prasad N. Achyutha [5] 使用SVM算法和推特分析对用户进行了分类。
本研究根据短视频账号的粉丝数、作品数、历史获赞数、周期获赞数、周期评论数、周期收藏数、周期转发数、粉丝群聊数构建出账号潜在优质认证的评价特征。根据评价特征构建了GM-KNN模型(Grid Search CV and Manhattan Distance, K-Nearest Neighbor),以KNN算法为基础,使用网格搜索算法 [6] 进行参数寻优,确定最佳K值。根据多距离公式 [7] 进行评价指标对比,确定了本文中最优距离公式为曼哈顿距离公式。构建模型后对未认证短视频账号进行分类预测,可以将未认证短视频账号分为两类,即可认证优质账号和不可认证优质账号。评价指标表明该模型在短视频潜在优质账号的初步划分方面具有较佳效果。
2. 相关技术基础
2.1. KNN算法
KNN分类算法常用于数据挖掘分类技术。K最近邻即表示K个最近的邻居,每个样本都可以用它最接近的K个邻近值来代表。工作原理是:存在一个样本数据集合,也称为训练集,样本集中每个数据都存在标签。输入没有标签的新数据后,将新的数据的每个特征与样本集中数据对应的特征进行比较,然后提取样本最相似数据(最近邻)的分类标签。一般只选择样本数据集中前k个最相似的数据,通常k是不大于20的整数。KNN算法的基本步骤有:
1) 通过距离公式计算样本之间的距离;
2) 将未知样本和训练样本之间的距离按递增关系排序;
3) 选择距离最小的k个点;
4) 查看k个点的类别频率;
5) 将频率最多的类别作为未知样本的类别。
2.2. 网格搜索算法
网格搜索算法属于参数寻优算法,其将变量区域网格化,对所有网格点进行遍历,求解满足约束函数的目标函数值,通过比较选择出最优点,其方法属于穷举搜索方法。
2.3. 多距离公式
2.3.1. 欧几里得距离
N维空间点
和
欧式距离计算公式为公式(1)所示。
(1)
2.3.2. 曼哈顿距离
N维空间点
和
曼哈顿距离计算公式为公式所示。
(2)
2.3.3. 切比雪夫距离
N维空间点
和
切比雪夫距离计算公式为公式所示。
(3)
3. 数据特征及分析
3.1. 数据集
采用爬虫软件获取的抖音短视频平台数据,通过指定关键字搜索进行爬取,使用了在2022年5月28日至2022年6月12日获取的2008个账号信息。基本信息字段如表1所示。预处理后进行了多种算法以及方法的对比试验。经过参考和筛选,数据集里采用了账号的粉丝数、作品数、历史获赞数、周期获赞数、周期评论数、周期收藏数、周期转发数、粉丝群聊数作为主要特征,其中周期特征由表2可见并说明。

Table 1. Dataset user information data display
表1. 数据集用户信息数据展示

Table 2. Video information display of dataset users
表2. 数据集用户的视频信息展示
3.2. 数据类别平衡性分析
由图1可见,已认证账号人数和未认证账号人数数量基本均衡,所以不需要对数据进行平衡优化处理。
3.3. 数据特征相关性分析

Figure 2. Data feature correlation analysis
图2. 数据特征相关性分析
由相关性分析热力图图2可知,短视频账号的粉丝数、作品数、历史获赞数、周期获赞数、周期评论数、周期收藏数、周期转发数、粉丝群聊数特征都与认证信息正相关。
4. 基于网格搜索算法和曼哈顿距离的KNN算法面向短视频优质账号分类识别模型——GM-KNN模型
4.1. 模型框架
针对官方认证短视频账号特征性不是特别明显,比如有的短视频账号粉丝量和其他特征较少,但是因为具有一定知名度或者是某领域专家为官方认证账号,另外有的自媒体账号虽然级别和各方面的要求以及达到了官方认证程度,但是该账号由于没有主动申请官方认证,而使得该账户暂时为非官方认证账号。再加上短视频本章节采用数据集随机性较大,难以保证潜在优质用户分类准确度的情况下,本章节结合基于网格搜索算法和曼哈顿距离的KNN算法提出了一种账号分类模型GM-KNN算法,进行潜在官方认证优质账号分类识别(图3)。
4.2. 基于网格搜索算法对最优参数K值的确定
通过网格搜索算法对模型中的参数n_neighbors即K值寻找最优的参数值,一般K值为不大于20的数,设置了参数搜索范围为1~20,算法结果本文中最优K值为18。
4.3. 基于多距离公式确定最优距离公式
通过在模型中更改不同的距离公式对各项评价指标进行对比,由于本文实际需求,主要对准确率进行对比。采用了三种距离公式,分别为欧氏距离、曼哈顿距离、切比雪夫距离进行测试,最终确定本文最优距离为曼哈顿距离。

Figure 3. GM-KNN algorithm model diagram
图3. GM-KNN算法模型图
5. 短视频潜在优质账号实验过程对比和分析
5.1. 实验对象和具体设计
为了验证、评估本文方法的有效性,实验将数据集进行了80%训练集、20%测试集的划分,选取了不同KNN算法的自身比较和目前较为经典的且比较适用短视频潜在优质账号分类识别算法对比,具体方法如下采用。
1) 多种KNN算法对比。通过对原始KNN算法即基于欧氏距离的KNN算法、以及基于曼哈顿距离的KNN算法、基于切比雪夫距离的KNN算法、基于网格搜索算法和欧氏距离的KNN算法、基于网格搜索算法和切比雪夫距离的KNN算法和本文提出的GM-KNN算法进行准确率、查准率、召回率、F1值的整体比较,同时考虑本章节的最根本需求为短视频潜在优质账号分类识别的准确性,所以将准确率作为各算法的最根本评价指标。
2) 通过其他算法的比较。LogisticRegression算法、SVM算法、ElM算法与GM-KNN算法进行准确率对比。
5.2. 实验结果分析
5.2.1. 多种KNN算法对比
从表3可以看出,GM-KNN算法在各项评价指标方面均优于其他KNN算法,在本章节最主要评价指标准确率上,从图4可看出,GM-KNN算法高了基于欧氏距离的KNN算法3.2%、以及基于曼哈顿距离的KNN算法0.8%、基于切比雪夫距离的KNN算法3%、基于网格搜索算法和欧氏距离的KNN算法2.2%、基于网格搜索算法和切比雪夫距离的KNN算法百分点1.2%。
5.2.2. 各算法准确率对比
通过Logistic算法、SVM算法、Elm算法分别获得短视频潜在优质账号分类准确率,然后对这三个方法进行对比,实验结果如表所示,结果表明GM-KNN算法在多次测试取平均值后的准确率上高于Logistic算法、SVM算法、Elm算法,这是由于网格搜索算法寻优后参数K值最佳,加上真实短视频账号数据集里面官方认证潜在优质用户的特征不够明显,加上特征属性维数不算过低,曼哈顿距离对于高维数据更好,所以在此次实验中表现更佳。
从表4和图5可以看出,测试算法准确率N次取平均值后(N本章节取10),基于曼哈顿距离的KNN算法准确率均优于其他三种算法,其中,准确率相较于Logistic算法提升了7.2%,准确率相较于SVM算法提升了9.9%,准确率相较于Elm算法提升了5.3%。
6. 本章小结
短视频潜在优质账号的初步划分实质上是未认证账号分类预测的问题,本文先分析了数据集不同类别的均衡性,不需要对数据进行均衡优化,之后进行了相关性分析,短视频账号的粉丝数、作品数、历史获赞数、周期获赞数、周期评论数、周期收藏数、周期转发数、粉丝群聊数等特征都与认证信息相关,提出了本文的基于KNN算法的应用模型GM-KNN算法,针对KNN算法如何确定参数的问题,使用了
网格搜索法对其进行了参数优化,针对基础KNN算法欧式距离公式非最优的问题,采用了多种距离公式进行对比,使用曼哈顿距离公式进行距离改进,在经过评价指标对比后,结果表明该模型在该领域应用中具有更佳的效果,给出了一种短视频账号信息内容的浅度安全等级识别新的思路方法。