1. 引言
随着人类进入大数据时代,数据与算法在助力平台经济增长、便利民众生活的同时,也带来不小的隐患,大数据“杀熟”便是其中之一[1]。所谓“大数据杀熟”,是指平台利用用户的历史行为数据,通过算法为不同的用户群体制定差异化的定价策略,导致老用户反而比新用户支付更高的价格。大数据杀熟又被称为算法合谋、算法歧视、算法消费者价格歧视、价格歧视[2]。在电商平台上,用户的选择空间有限,特别是在如滴滴等占据市场主导地位的平台,定价权掌握在企业手中,消费者只能被动接受。
这类问题涉及互联网企业基于用户消费历史和行为数据,通过算法进行差异化定价,导致部分用户支付更高价格或享受较差服务,进而引发消费者不满,认为个人信息和数据安全被侵害。大数据“杀熟”不仅是企业道德问题,还涉及技术、商业和社会多方面[3]。企业通过数据分析获取用户行为、偏好等信息,制定个性化定价策略,如滴滴利用用户特征对“熟客”实行差别定价。虽然差异化定价有助于资源优化,但缺乏透明度和公平性[4]。
本文以滴滴打车为例,深入分析大数据“杀熟”现象,并通过两种机器学习算法预测消费者是否可能遭遇“杀熟”定价。通过不断优化参数以降低预测误差,识别出与“杀熟”行为相关的数据特征。随后,通过特征变量的重要性分析,进一步明确哪些信息类别需重点保护,以应对这一问题。
2. 大数据“杀熟”相关概述
大数据“杀熟”指企业利用个体用户的消费历史、行为数据等信息,对用户采取差异化定价和优惠策略,从而对特定用户群体提供更高价格或更差服务的现象,大数据“杀熟基本流程如图1所示”。不同的视角看待大数据“杀熟”也是拥有不同的看法,基于经济学的角度,大数据杀熟本质上是完全价格歧视,属于经济学的市场细分定价行为;基于算法的角度,是一种算法歧视性定价[5]的典型应用,是商家利用大数据对每一位消费者的支付能力及意愿进行评估并且区别定价的销售策略;基于法律的角度,是经营者滥用信息优势、在主观上故意实施的行为,违反了公平交易原则和消费者的知情权,属于法律意义上的价格欺诈。
Figure 1. The basic process of big data “price discrimination against familiar customers”
图1. 大数据“杀熟”的基本流程
3. 滴滴打车大数据“杀熟”现象分析
3.1. 滴滴打车大数据“杀熟”存因分析
3.1.1. 大数据分析能力
一方面,在一些情况下,滴滴打车可以通过消费者授权或合法的数据共享渠道获取用户的个人数据。这些数据可以用于算法价格歧视,但前提是消费者授权了使用其数据,并且在企业使用过程中遵守了相关的隐私政策和法规。另一方面,现代科技的发展使得企业可以收集和分析大规模的用户数据。通过强大的数据分析能力,滴滴打车可以更好地了解用户的个人特征、消费偏好和行为模式,从而基于这些信息进行个性化地定价。
3.1.2. 企业盈利属性
企业的首要目标通常是实现最大化的利润,根据经济学的最大剩余价值理论,消费者对于同一商品或者服务的接受价格是不同的,那么设计出消费者愿意接受的“最高价”便能够给企业创造更大的利润。通过算法价格歧视,企业可以根据不同用户的消费能力和购买意愿进行定价,从而最大程度地提高销售收入和利润。
3.1.3. 市场竞争压力
在激烈的市场竞争中,企业需要采取各种策略来吸引更多的用户和提高市场份额。算法价格歧视可以被视为一种市场定价策略,通过差异化定价来吸引不同层次的消费者,从而使得滴滴打车获得持续的竞争优势。
3.1.4. 消费者的个性化需要和体验
一些消费者更加倾向于个性化的产品和服务。通过算法价格歧视,企业可以根据消费者的个人特征和偏好来提供定制化的产品和服务,以满足他们的个性化需求,提供更好的消费体验。
3.1.5. 维权成本很高
消费者面临的维权渠道相对有限。尽管有相关的投诉平台和客服渠道,但在实际操作中,消费者往往需要耗费大量的时间和精力才能得到合理的解决,而且并不能保证最终能够获得满意的结果。并且,由于涉及的金额相对较小,单个消费者对于滴滴打车等大型平台的维权行动往往难以产生足够的影响力。这使得平台对于个体消费者的维权要求往往不够重视,也增加了消费者维权的困难。
3.2. 滴滴打车大数据“杀熟”实现条件
3.2.1. 企业规模大
滴滴打车作为中国最大的网约车平台,拥有庞大的用户基础和海量的行程数据。这使得他们可以利用大数据分析技术对用户行为进行深入研究,识别出不同类型的用户群体,并根据用户的消费能力、偏好等因素进行个性化定价。
3.2.2. 信息不对称
在滴滴打车平台中,消费者通常无法准确了解其他用户的定价情况和支付能力,也无法得知自己是否受到了差异化定价。这种信息不对称使得平台可以根据个体消费者的数据分析结果进行差异化定价,从而实现“杀熟”的效果。
3.3. 表现形式
3.3.1. 个性化价格
滴滴打车根据用户的消费能力和购买意愿,为不同用户提供不同的价格。这意味着相同的产品对于不同用户可能具有不同的价格标签。
3.3.2. 动态定价
滴滴打车平台根据市场供需情况和用户行为的实时分析,调整产品的价格。例如,在需求高峰期间或用户显示购买意向时,价格可能会上涨。
3.3.3. 地理定价
滴滴打车根据用户所在的地理位置进行定价。相同的产品在不同地区的定价可能存在差异,反映了当地市场需求和消费能力的不同。
3.3.4. 个人化折扣和优惠券
滴滴打车通过分析用户的购买历史和消费偏好,为个别用户提供个性化的折扣和优惠券,以激励其使用打车服务。
3.3.5. 定向广告和推荐
滴滴打车根据用户的兴趣和偏好向其展示定向广告和推荐产品。这些广告和推荐可能基于用户的个人特征和历史行为,以引导用户做出购买决策。
4. 滴滴打车平台的用户信息收集与隐私问题
4.1. 滴滴打车平台的数据收集
滴滴出行的全球年活跃用户已达4.93亿,全球活跃司机为1500万。其中,中国大陆拥有3.77亿活跃用户和1300万活跃司机。滴滴打车平台通过多种渠道广泛收集消费者的个人信息及行程数据,涉及的范围不仅限于消费者,还包括驾驶员的相关信息。平台所收集的数据种类多样,涵盖身份信息、行程记录、地理位置信息、支付方式等多维度数据。
如表1所示,滴滴打车平台获取用户信息的具体情况包括了乘客与司机双方的详细数据采集方式。通过这些数据的收集,平台能够提供更加精准的个性化服务,但也引发了隐私和数据安全的担忧。随着用户规模的增长,信息保护的需求变得愈加迫切,因此,有必要深入探讨滴滴打车在数据收集过程中的隐私问题及应对策略。
Table 1. Details of user information collected by Didi Chuxing
表1. 滴滴打车获取的用户信息明细
消费者个人信息 |
序号 |
信息名称 |
类型 |
获取条件 |
序号 |
信息名称 |
类型 |
获取条件 |
1 |
手机号 |
必填 |
用户使用APP |
21 |
行程信息——时长 |
获取 |
用户使用APP |
2 |
平台密码 |
必填 |
用户使用APP |
22 |
行程信息——里程 |
获取 |
用户使用APP |
3 |
OPPAID |
获取 |
用户使用APP |
23 |
订单信息及交易 |
获取 |
用户使用APP |
4 |
照片 |
选填 |
用户使用APP |
24 |
录音信息 |
获取 |
用户使用APP |
5 |
昵称 |
必填 |
用户使用APP |
25 |
支付记录 |
获取 |
用户使用APP |
6 |
姓名 |
必填 |
用户使用APP |
26 |
录像信息 |
获取 |
用户使用APP |
7 |
身份证号 |
必填 |
用户使用APP |
27 |
支付金额 |
获取 |
用户使用APP |
8 |
性别 |
获取 |
用户使用APP |
28 |
支付渠道 |
获取 |
用户使用APP |
9 |
年龄 |
获取 |
用户使用APP |
29 |
支付时间 |
获取 |
用户使用APP |
10 |
行业 |
选填 |
用户使用APP |
30 |
滴滴平台支付密码 |
必填 |
用户使用APP |
11 |
公司 |
选填 |
用户使用APP |
31 |
设备型号 |
获取 |
用户使用APP |
12 |
职业 |
选填 |
用户使用APP |
32 |
操作系统版本 |
获取 |
滴滴钱包APP |
13 |
个性签名 |
选填 |
用户使用APP |
33 |
设备设置 |
获取 |
用户使用APP |
14 |
常用地址 |
选填 |
用户使用APP |
34 |
MAC地址 |
获取 |
用户使用APP |
15 |
紧急联系人 |
选填 |
用户使用APP |
35 |
TMEI |
获取 |
用户使用APP |
16 |
位置信息 |
获取 |
用户使用APP |
36 |
SIM归属地 |
获取 |
用户使用APP |
17 |
IP地址 |
获取 |
用户使用APP |
37 |
设备环境 |
获取 |
用户使用APP |
18 |
GPS定位 |
获取 |
用户使用APP |
38 |
点击查看记录 |
获取 |
用户使用APP |
19 |
行程信息——出发地 |
必填 |
用户使用APP |
39 |
浏览器类型 |
获取 |
用户使用APP |
20 |
行程信息——到达地 |
必填 |
用户使用APP |
40 |
电信运营商 |
必填 |
用户使用APP |
4.2. 滴滴打车平台涉及的隐私问题
4.2.1. 个人信息泄露风险
滴滴打车平台收集了大量的个人信息,如果这些信息被未经授权的第三方获取,就存在个人隐私泄露的风险。滴滴打车平台获取了用户的位置信息,如果这些信息被滥用,可能导致用户的行踪被跟踪或利用于其他不当用途。
4.2.2. 数据安全风险
滴滴打车平台需要对大量的用户数据进行存储和处理,如果数据安全措施不到位,就可能面临数据被黑客攻击或泄露的风险。滴滴打车平台可能与其他合作伙伴共享用户数据,如果没有严格的数据共享协议和控制措施,就可能导致用户数据被滥用。
5. 机器学习算法对滴滴打车大数据杀熟的预测分析
5.1. 数据选择和数据描述
本文的数据来源于问卷调查,共计收回问卷249份,其中有效问卷为226份问卷。滴滴打车获取到的消费者的个人数据本文共计列出四十种,并且根据孙金云教授团队发布的《2020打车报告》中的指标选取作为借鉴,最后本文选取9个特征变量。该数据集的特征变量的构成如表2所示,其中性别、教育水平、年龄、所在城市、月收入、手机型号、打车距离、月使用频率作为输入变量为8,是否被“杀熟”作为输出变量或者目标变量。
Table 2. Feature variables
表2. 特征变量
数值型变量 |
分类性变量 |
年龄 |
性别 |
月收入 |
教育水平 |
打车距离 |
所在城市 |
月使用频率 |
手机型号被“杀熟” |
5.2. BP神经网络预测分析
5.2.1. 算法概述
BP神经网络(Back propagation Neural Network) [6]是一种常见的人工神经网络算法,用于进行监督学习任务,如分类和回归分析。它是一种前向反馈神经网络,通过使用反向传播算法来更新网络权重,以最小化预测输出与实际输出之间的误差。
5.2.2. 模型建立
将前8个变量作为输入变量,最后一个特征变量“是否被杀熟”作为输出变量,根据神经网络隐含层计算公式,将隐含层设置为10个层,通过不断的实验发现学习率为0.02,最大迭代次数设为1000次,目标训练误差为1E−6。并将原有的数据集划分为训练集和测试集,其比例为:150:76。并对数据集进行数据归一化,数据返归一化处理,在实验中设置数据排序,进行性能的评价和绘图。具体的模型建立如图2所示。
Figure 2. Structure of the BP neural network
图2. BP神经网络结构图
5.2.3. 模型评价
(1) 混淆矩阵
混淆矩阵(Confusion Matrix)是评估分类模型性能的一种表格形式的工具,它对模型的预测结果和真实标签之间的关系进行了可视化,模型建立的混淆矩阵如图3所示,其中1表示为被“杀熟”,2表示否。
(2) 准确率
通过公式计算准确率:
,其中,TP (True Positive)指的是模型正确预测
为正类的样本数;TN (True Negative)指的是模型正确预测为负类的样本数;FP (False Positive)指的是模型错误预测为正类的样本数(实际上为负类);FN (False Negative)指的是模型错误预测为负类的样本数(实际上为正类)。根据图3中的混淆矩阵计算求出准确率为73.7%,其效果如图4所示。
Figure 3. Confusion matrix of the test set
图3. 测试集混淆矩阵
Figure 4. Accuracy comparison chart of the prediction set
图4. 预测集准确率对比图
5.3. 随机森林算法预测分析
5.3.1. 算法概述
随机森林(Random Forest) [7]是一种集成学习算法,用于解决分类和回归问题。它是由多个决策树组成的集合模型,通过对各个决策树的预测结果进行综合,得出最终的预测结果。
Figure 5. Error curve chart
图5. 误差曲线图
Figure 6. Comparison chart of prediction results
图6. 预测结果对比图
5.3.2. 模型建立
模型的建立和BP神经网络模型建立很相似,前八个特征变量为输入变量,最后一个变量的输出变量。数据集的划分和BP神经网络算法模型保持一致,并将原有的数据集划分为训练集和测试集,其比例为:150:76。决策树数目为50,最小叶子数为1。并对数据集进行数据归一化,数据返归一化处理,在实验中设置数据排序,进行性能的评价和绘图。
5.3.3. 模型评价
随机森林的预测评价从预测误差图,如图5即可反映出来,另外预测准确率对比图,如图6所示。
5.4. 特征变量重要性排名
通过两种算法的对比,明显表明随机森林的预测精度要比BP神经网络算法好得多,然后通过通过随机森林的预测模型,对8个输入特征变量的重要性进行排名,从而比较对于预测结果的重要性,重要性排名如图7所示。
Figure 7. Feature variable importance ranking
图7. 特征变量重要性排名
其中,横轴的数字标签从1到8分别代表了:性别、教育水平、年龄、所在城市、月收入、手机型号、打车距离、月使用频率这8个输入特征变量。根据特征重要性排名,手机型号、月收入以及月使用频率在预测中比其他变量更为关键。因此,保护用户信息安全时应重点关注这几个方面,尤其是在用户的设备信息和消费习惯等敏感数据上。
为确保用户隐私,平台应对这些数据采取加密处理,防止未经授权的访问和数据泄露。此外,企业应制定更加严格的个人数据使用规范,确保用户知情同意并限制数据的滥用。通过技术手段和透明化的政策结合,不仅能够有效提升用户数据的安全性,还能增强用户对平台的信任感[8]。这种保护措施既能维护消费者的权益,也有助于企业在竞争中建立良好的品牌形象。
6. 隐私保护的解决方案与对策
根据实验分析,特征数据可用于预测是否发生“杀熟”行为,且不同特征变量对预测结果的重要性存在差异。这些发现为信息安全保护提供了启示,特别是在应对大数据“杀熟”现象时。以下,是加强隐私保护的具体解决方案与对策。
6.1. 加强数据安全保护
为了有效保护用户隐私,首先需要对数据进行分类与分级,根据数据的敏感性和访问需求,设定相应的权限与访问控制策略。只有经过严格授权的人员才可访问和处理敏感数据,确保数据的安全性。其次,使用加密技术对敏感数据进行保护,在数据传输和存储过程中,对高敏感性数据实施端到端的加密处理,即使数据发生泄露,未经授权者也无法解读。此外,企业应采取强密码策略、多因素身份验证等安全措施,进一步提高数据访问的安全性,确保只有经过验证的授权人员才能访问和处理数据。同时,需要加大对数据安全管理装备的投入,配置检测设备,建立价格检测机制[9]。最后,企业需要遵循相关法律法规,确保数据的合法收集与使用,特别是对用户敏感信息的处理。建立明确的隐私保护政策与操作流程,确保用户了解数据的使用目的与范围,并获得用户的明示同意,保障用户对其个人数据的控制权。
6.2. 增加透明度和可解释性
算法系统应具备更高的透明度与可解释性[10]。平台应向消费者明确说明定价策略和所使用的特征数据,帮助用户理解为何被赋予特定价格。同时,消费者应拥有对其个人数据的访问、管理和控制权,能够查看其数据如何被使用并在必要时修改或删除。这将增强用户对平台的信任,并减少因信息不对称而引发的不满与猜疑。此外,建立可解释性算法能够让消费者更容易理解系统的定价机制,尤其是在大数据“杀熟”现象中,用户应有权知晓其个人数据在定价决策中的作用。这种透明机制不仅保护了用户权益,还能促使平台优化算法,确保公平定价。
6.3. 公众参与和意识提升
为有效应对大数据“杀熟”及隐私侵犯问题,必须加强公众的参与和意识提升。通过公开讨论、教育和信息披露,帮助消费者了解大数据定价算法的潜在风险及其对个人权益的影响,提升公众对算法价格歧视的认知水平。公众的广泛参与和反馈可以推动平台优化定价策略,减少不公平行为的发生。
7. 结语
在数据算法广泛应用的背景下,保护用户数据隐私和维护用户权益至关重要。数据驱动的算法在提升服务效率和个性化体验的同时,也带来了隐私和公平性方面的挑战。通过加强数据安全保护、透明化数据使用政策、建立合理的定价机制,能够确保算法的公平、透明和可信赖性。
此外,企业应注重用户知情权和选择权,确保数据使用的合法性与合规性。通过增强对用户数据的保护力度,采取严格的隐私保护措施和安全策略,减少滥用数据带来的潜在风险。同时,加强对数据分析和算法决策的监管,防止因算法不透明或偏见导致的不公平定价现象。