1. 引言
大数据时代的来临把企业对用户个人信息的开发利用推向更深更广的层次,也带来了新的课题。个人信息,即为一切可以识别本人的信息的总和 [1] 。企业对个人信息利用的形式多样化,常见的有客户画像(用于个性化推荐或广告等)、征信报告(用于市场交易等)、用户分析报告(用于市场交易或市场推广等)等,并成为企业获利和拓展新市场的有效途径。然而目前我国个人信息商业化模式存在隐形开发利用的现象,开发模式相对无序,使得用户个人信息质量较低,给信息的开发利用带来了一定障碍 [2] 。企业的个人信息开发与利用的过程如何?与一般的产品开发有何不同?有无规律可循?
2. 个人信息产品化相关的研究综述
2.1. 个人信息研究多关注个人信息的法律与技术保护
个人信息的特点为可识别性(齐爱民,2005 [1] ;张苑,2006 [3] ;Feijóoa,2013 [4] ),即是否可以通过信息识别到本人。某些信息能直接识别到本人,如:身份证号,称为直接个人信息;另一些不能直接识别,但与其他信息相结合,同样能识别到特定个体,这些称为间接个人信息。直接、间接个人信息均为个人信息(侯富强,2015) [5] 。因而,个人信息,即一切可识别本人的信息的总和。
从法律上,个人信息保护相关研究已取得一定成果。个人信息的法律保护可以总结为三种主张:所有权(即财产权)客体说,隐私权客体说和人格权客体说(见表1)。无论采用哪种学说,都可以看出学者们主张个人信息是个人权益,需要法律保护落实。
从技术上,个人信息的保护是从收集、传输、储存与应用等环节入手。许红缨(2012) [11] 指出可以使用P3P协议(Platform for Privacy Preferences,隐私偏好平台,即当用户浏览网站时,网站需要提前告知将要收集的用户的信息,信息的储存时间,如何使用这些信息等),信息编码加密等方式保护个人信息。

Table 1. Personal information legal protection propositions
表1. 个人信息法律保护主张
Mont (2008) [12] 提出了一套信息传输协议,使得个人在网站输入的个人信息的传输过程更加安全。何治乐(2014) [13] 提出,可以建立数据存储期限机制,即为数据设置寿命,让数据控制者在未来某个时期删除数据。
可以看出,在个人信息的法律保护、技术规范等方面,国内外学者都有了一定成果。在了解个人信息保护相关研究的基础上,平衡自由流通与法律保护 [14] [15] ,合理利用个人信息,值得进一步讨论。
2.2. 产品化、产品开发相关研究较为成熟
2.2.1. 产品化和产品开发均强调开发阶段和过程
产品化,即将原有的,或零散或粗放,有一定价值的原始数据,通过一定手段聚集组合为满足企业需求的产品的过程。其特点是标准化(Jaakkola, 2011) [16] 、模块化(王朗,2012 [17] )、流程化(Jaakkola, 2011) [16] 。产品开发,指从研究选择适应市场需要的产品开始到产品设计、工艺制造设计,直到投入正常生产的一系列过程(刘晓伟,2012) [18] 。两者都是研究产品从无到有的过程。前者侧重于转化,强调从概念到产品的转变;后者则更侧重实际步骤,对具体过程分为几个阶段,每个阶段的任务,阶段之间的联系进行解释。通过研究产品开发,将产品化的过程显性化。
2.2.2. 不同领域开发的概念不尽相同
适用于传统制造业的产品开发方法侧重于产品规划,产品开发阶段,从而尽量减少迭代次数并控制成本,包括:门径管理流程(Robert, 1990) [19] ;企业新产品开发过程(Ulrich, 1995) [20] ;集成产品开发(IBM, 1992) [21] 等。适用于互联网行业的信息产品开发方法侧重其顾客参与(陈以增,2015) [22] 、敏捷开发(杜嘉敏,2014) [23] 。
上述研究都还没有对以互联网为基础的信息产品化或信息产品开发过程进行解剖,没有形成体系化的模型或理论。本文选择扎根理论提炼出个人信息产品化路径模型,再以实例分析来验证模型。
3. 模型构建
3.1. 数据分析
扎根理论,通常用于无理论指导的前提下,从资料中构建理论的研究。首先通过扎根理论提炼个人信息产品化路径模型。扎根过程主要集合网络资料与文献作为资料集进行研究,总数约10万余字,由五部分组成:个性化推荐案例;公司的隐私声明;行业规定;产品化相关文献;个人信息开发利用保护相关文献。
3.1.1. 实质性编码
完成初步的数据收集后,便进入实质性编码的阶段。编码是扎根理论的实现方式,即通过不断分析和比对资料,提炼出语段中的特征、概念等关键信息。本次研究提取了52个范畴,再通过对范畴进行再次聚合,获取核心范畴,获取的依据是 [24] :1) 核心性,即应尽可能多地与其它概念相关联;2) 解释力,即能够解释大部分研究资料的行为模式;3) 易于与其它变量产生联系并具有意义。所形成的范畴与核心范畴及其支持度对应如表2。
3.1.2. 理论性编码
经典扎根理论中,理论构建工作主要通过理论性编码完成,即将上一个阶段中形成的核心范畴以某种模式进行组织,确定其各核心范畴之间的关系,并构建理论。基于前期研究工作对产品开发相关文献的研究,个人信息产品化路径更倾向于阶段性,有顺序的模型,见图1。
表2. 范畴与核心范畴
注:核心范畴在构建理论的过程中需要进行理论性抽样,即通过可能构建的理论对现有范畴进行判断,若范畴支持度不高则需要继续搜集资料进行分析,因而资料的搜集与分析伴随着整个研究过程,直至达到“理论饱和”,即新资料不能提供新的信息。

Figure 1. Personal information production process model
图1. 个人信息产品化路径模型
3.2. 模型描述
3.2.1. 需求确定
通过分析市场、竞争对手,找到产品不足,从而明确新的需求。产品需求分为两类:企业端需求与用户端需求。前者指用于改善企业系统或流程,或者产出新产品,如研究用户行为时发现某环节满意度低,使得企业内部运转效率低下,从而改进该类流程。后者与用户的利益关联。为弥补个人信息被收集,需满足用户的直接或间接利益。直接利益即金钱或优惠券,已有学者在研究实验中以此测算个人信息价值 [25] 。间接利益即通过形如个性化推荐的方式,为用户节省决策时间。明确产品需求,可以为接下来明确信息用途、以及获取信息提供指引。
3.2.2. 产品策划
根据模型,产品策划阶段由开发前提、明确信息、获取信息三个核心范畴构成。
开发前提。包括两方面,一是企业需要做出并遵守声明,即企业会遵守用户个人信息保护的相关规定,不会收集与产品无关的无用信息;不会识别到特定个体;提供用户更改个人信息的方式和途径。二是企业需要确保自己有过硬的技术能力,能保护用户个人信息在收集、传输、保存的过程中不会被泄露。
明确信息。根据产品不同的需求,以及各信息的用途,决定产品化过程需要收集的信息。企业常用的个人信息及用途有:年龄,用于甄别用户是否适龄;电话,可用于联系用户,收集意见或用户调研;地址,用于提供服务,如快递;位置信息,亦用于提供服务,如导航;设备号,用于识别用户,判断是否一设备多账户;用户操作日志,用于改进用户体验。
获取信息。个人信息多种多样,信息的收集方式也不同。数据是产品实现的土壤,获得优质的数据能为优秀的产品提供保障。获取方式主要分为以下几类:用户在登陆注册时主动提供;用户调研;用户行为数据收集;公司内部分享;通过商业伙伴获取相应数据;通过第三方数据平台购买相应数据。
3.2.3. 产品开发
个人信息产品开发的过程和多数产品开发相似,耗时较长,较为关键。其特点是标准化、模块化、流程化。标准化是指开发过程及开发形成的成果均遵循特定的标准,便于索引和改进。模块化指将已经成熟的代码进行封装,共享模块,后续的产品只需修改少数参数,便可获取结果。流程化指产品开发有既定的顺序流程,有利于进度控制和质量控制。
编码资料集显示,部分公司会选择第三方开发的方法,将产品开发过程外包,在这种情况下,公司需要事先向用户阐明可能向第三方共享信息,并尽量做到仅将统计信息给到第三方公司。
产品开发的技术有多种,以个性化推荐为例,常用的算法包括基于内容的推荐算法、协同过滤推荐算法和基于知识的推荐算法等。总的来说,信息数量越多、越准确,推荐的结果便更令人满意。
3.2.4. 产品应用与迭代
个人信息产品应用可以分为四类 [26] :数据产品类;个性定制类;产品/服务改善类方法;企业提升类。产品应用和需求确定互相照应,产品的不断进行迭代更新,从而满足企业的需求。在迭代过程中,企业可积累多次重复运用的产品模块,进行优化并固化,从而为下一轮迭代节约相应环节的开发成本。
3.2.5. 环境因素
在个人信息产品化的过程中,需要从市场因素、安全因素、政府与法律因素三个角度来考虑环境因素的影响。
市场因素。在产品策划阶段,需要明确信息是否能收集,收集来源和渠道。收集信息的一个重要途径便是通过数据市场交易获得。因此数据交易市场机制是否良好(是否有扰乱秩序的黑市交易存在),数据相关各方信息是否对等(可能存在虚假信息),都对个人信息产品有着较为深远的影响。在产品应用阶段,产品完成后需要投放并接受市场的考验。
安全因素。安全因素指从企业角度如何保障用户的个人信息安全。就信息而言,不同类型的信息应该有特定的保存时间。一是由于信息的时效性,某些信息可能随着时间而失去真实性;二是取决于企业与用户达成的协议,若为非永久性协议,可按时删除企业保存的个人信息,避免信息泄露。对于企业来说,企业自身的安全机制,亦影响着用户的个人信息安全。数据安全规制和相应培训应贯彻落实到员工上。更新隐私政策时,应该及时告知用户。安全因素渗透于个人信息产品化路径各环节。安全技术的发展,也为个人信息产品化提供更多可发挥的空间。
政府与法律因素。无论处于产品化路径任何阶段,企业都应保密个人信息,但在政府或法律因素的干涉下,企业有可能公开个人信息。不同地区对不同类型的个人信息保护力度不同,产品在A地区适用,但在B地区则可能触及法律红线,因此在需求确定阶段需要考虑政府与法律因素。
4. 案例实证
国务院15年提出“互联网+”,把互联网的创新成果与经济社会各领域深度融合,互联网行业对信息科技的利用能力备受认同。某互联网公司(以下简称D公司)已创立10余年,作为第三方平台,连接用户与商家并提供服务。用户分析报告是面向企业端非常重要的一类信息产品,能帮助企业客户更好地了解产品、用户和竞争对手,辅助决策,是D公司除广告之外收入增长较快的新产品。
4.1. 公司用户分析报告产品化流程
在实际产品化流程中,涉及商务拓展、数据分析师、数据开发工程师、用户、商家等角色。D公司用户分析报告产品化流程包括以下四种情形,如图2所示。
情形一:全流程,该情形下需经过所有流程。其中第5步,收集数据,需要提前对用户常接触的环节进行埋点,收集用户在特定一段时间的行为数据。第7步进行数据开发,形成数据分析师进行分析的库表。这两步耗时较长,涉及人力成本较高,该情形出现频次较低,通常是涉及合同金额较大或具有开创性的分析报告,时间跨度通常为三个月以上。
情形二:具备原始数据的产品化流程,即不需经过第5、6步。基于D公司现有的数据,已可以满足数据分析师列出的数据分析需求。但现有数据过于底层,需要数据开发工程师撰写ETL,形成便于分析的数据库表,降低数据分析师的数据提取成本。该情形出现频次略高于全流程情形,该类报告通常需要一个月左右完成。
情形三:具备数据库表的产品化流程,即不需经过4~8步。基于现有的原始数据和库表,便可满足需求,形成用户分析报告。该情形下的分析报告需求出现频次最高。由于这类分析报告不需要数据开发,部门间沟通成本与数据开发时间成本降为最低,因而该类分析报告通常耗时相对较短,仅需一至两周左右即可完成。
情形四:处于迭代的快速产品化流程,该类报告通常在产品迭代时产生,不需要经过3~8步。该类情形下,其对应的初次分析报告已获得商家认可,并形成模板。该迭代用户分析报告相比初次开发改动较小,数据分析师仅需要在数据提取过程中改变时间、地点等参数,即可完成分析报告,耗时相对较短,通常1至2个工作日即可完成。
综合四种情形,第5步收集数据与第7步数据开发是产品化流程中难度较大,耗时较长的步骤,需要数据开发工程师具备专业背景知识,因而这两步的成本也相对较高。第1、2、9步则是关键步骤。在1、2步中,数据分析师与BD共同把握商家需求,诊断痛点,明确分析报告目的。后续步骤将围绕需求

Figure 2. The four situations in the productization of user analysis reports
图2. 用户分析报告产品化流程的四种情形
紧密展开。在第9步中数据分析师对现状进行剖析,并提出针对性的方案与建议,体现着分析报告的独有的价值。
4.2. 具体信息产品化的实际项目分析
D公司首次向商户(简称H)提供用户分析报告。经过需求确认后,分析师认为不需要再进行额外的数据收集和数据开发。该项目属于情形三,即具备数据库表的产品化流程,在实际应用中,这种情形出现频次最高,具有代表性。
1) 商务拓展向数据分析师提出需求。希望通过本次报告体现推广合作的流量效果,识别目标用户人群特征。并提供一批商家会员用户手机号,希望获取会员在D平台的用户画像。在BD拜访商家后,对其痛点准确把握,并以邮件形式告知数据分析师。该步骤共需约0.5工作日。
2) 数据分析师判断是否需求可行。通过与商务拓展沟通讨论,数据分析师认为,通过分析,以更精准的用户画像,便于H进行针对性营销,拉动增量存量用户市场价值。对于通过商家提供的手机号去调出该批用户记录的需求,数据分析师认为涉及用户隐私,不能控制个人被识别的风险。因此,除最后一个需求外,其他需求予以通过。该阶段需要0.5个工作日完成。
3) 数据分析师提出报告分析框架。通过总结需求,分析框架主要从两个部分切入。流量分析部分:比较合作前后分时段流量变化,并和知名竞争对手品牌进行比较流量转化率,分析H的发展空间;用户人群分析部分:对用户统计信息、访问和消费偏好等进行展现,让商家对更了解自己的用户。该步骤需要约0.5个工作日完成。
通过数据调研,数据分析师认为该报告所需数据均可在库内提取,不需要再经过数据开发工程师。因而在项目执行过程中,跳过明确数据用途、收集数据、用户返回数据、数据开发和返回数据等步骤,直接进入数据提取与报告撰写阶段。
4) 数据分析师提取数据,撰写报告。通过编写SQL语句的方式从数据库内提取数据,通过图表可视化,呈现分析报告。在实际操作过程中,一些逻辑相对复杂的指标,如用户访问和消费偏好难度相对较高,数据分析师需要在这些指标上需要花费更多的时间和精力。但若模块化保存相应的SQL语句,便可提升效率。该步骤(包括数据提取和报告撰写)需要约3个工作日完成。
5) 报告效果评估。H商户表示对该报告十分感兴趣,认为通过用户分析报告,对自己的用户有更深入的了解,对竞争对手也有更直接的认识,同时提出了一些反馈意见。本次用户分析报告共耗时约1周,通过该报告展现了平台的数据实力,推动平台与商家H合作新一轮价值百万的推广活动。分析报告可产出精准用户画像,为推广服务提供更准确的用户群体。两类信息产品形成的复合营销推广服务,比单独提供任一类产品的价值更高,形成“1 + 1 > 2”效应,为公司带来了更大的价值。
4.3. 模型与案例对比分析
与D公司的用户分析报告产品化流程对比,个人信息产品化路径模型可与之对应,如表3所示。
由用户分析报告产品化流程来看,复用程度最高的便是收集数据和数据开发阶段。增加这两个模块的复用性,能提升往后的产品开发效率。对应到模型上来说,需求确定,产品开发和产品应用迭代阶段则是每次用户分析报告都需要经历的阶段,而这正体现了用户分析报告针对不同商家有个性化报告服务的价值。通过前期对商家需求的准确把握,能使得产品开发和应用迭代得到较好效果,反之可能导致产品开发过程产生反复,产品不能顺利完成。
由价值角度来看,通过个人信息产品化,将用户个人信息的价值,经由公司各类角色员工的协同工作,转移到分析报告中,表现为用户分析报告的价值。在用户分析报告的产品应用过程中,还可以与其他服务,如定向推广服务相结合,提供推广对象精准人群,获得更佳的投放效果。这类集成产品应用,将信息产品的价值进一步提升。

Table 3. Comparison of the model and the case
表3. 模型与案例对比分析表
通过对比可以看出,模型每个阶段与实践各步骤的内容与顺序能相互对应,案例验证了模型的有效性。此外结合模型和案例的分析,也可为即将涉足于数据化运营的公司提供理论指导与实践参考。
5. 结论与展望
5.1. 研究结论
通过扎根理论提出个人信息产品化路径模型,分为需求确定、产品策划、产品开发、产品应用、产品迭代五个阶段,与互联网公司的信息产品化流程的12步对应。理论编码和案例中都发现复用程度较高、难度较大、耗时较长的步骤是收集数据和数据开发阶段,最关键的阶段是需求确定和数据提取与报告撰写阶段。实例中还发现根据产品化数据准备情况的不同,有四种情形,即① 全流程,② 具备原始数据的产品化流程,③ 具备数据库表的产品化流程,④ 处于迭代的快速产品化流程。通过模型与案例对比验证了个人信息产品化路径模型的有效性,为企业的个人信息产品化实施提供了思路。
5.2. 研究展望
希望后续进一步研究三个问题:一是各阶段评价机制的建立,提高质量管控;二是如何实现个人信息的可追溯性,加强信息安全管理;三是产品化过程的价值转移,原本归属于个人的零散的信息,在企业综合利用多人的统计信息形成个人信息产品后,如何为企业带来收益,即其价值转移形式和价值转移规律。