1. 介绍
网络电视(IPTV)是一种基于互联网通信协议(TCP/IP)的新媒体业务,其技术架构使实时精准获取用户行为数据成为可能,可为用户收视行为调查(User Behavior Investigation,简称UBI)提供完整的数据资料。相比于传统广播电视和数字电视(DVB),IPTV以其视听质量和交互能力方面的革命性提升迅速笼络一大批用户,成为引领视听媒体产业发展的新趋势。国外较早开展有关IPTV用户行为建模研究 [1] [2] ,我们发现,IPTV环境下的用户行为特征不仅涉及群体收视率,还可以从在线时长、频道切换特征、到达率、离开率、时频分布、子群特征及个性化特征等多个维度进行描述。作为“注意力经济”时代的重要量化指标,用户行为特征研究对IPTV的频道价值评估(CE)、有效广告投放(AD)、精准内容推荐(CR)、云媒体资源分配(CDN)以及故障检测(FD)均具有重要的应用价值。本文的目标是构建一个IPTV用户收视行为的基本计算架构和指标体系,并基于一个城市实际IPTV用户行为的数据子集进行切实的测量和计算,形成IPTV用户收视特征图谱。本文的数据集包括了133个频道、22.2万用户和7200万条记录,时长为31 * 24小时。本文首先介绍用户收视行为分析的背景和意义,然后创建电视观众收视行为数学定义与计算模型,再进行多维度收视特征统计分析与计算。最后是本文的工作总结与研究展望。
2. 定义与模型
2.1. 数据集与数据结构
本文研究的数据集中,我们定义每一条观看的数据记录为一个四元组
,这里u代表观众ID号,c代表观众u本次观看电视的频道ID号,s代表该次观看该频道c的起始时间,d代表用户u本次观看频道c的时长。
表示一次第i次观看的记录,由此可衍生出与
相关的一系列观众用户行为特征参数,通过对它们的定义和计算可以获知网络电视用户的基本行为特征,详见表1。
2.2. 观看行为建模
为了进一步深入研究IPTV用户观看电视行为状态,我们创建一个IPTV用户收视行为状态转移模型。首先定义三种用户收视行为状态:

Table 1. IPTV audience user behavior characteristics basic parameter definition table
表1. IPTV观众用户行为特征基本参数定义表
S:Surfing浏览状态,该状态下的用户表现为快速浏览多个电视频道,一般采用顺序方法依次在相邻频道间进行切换,发现其观看意愿,其特征为每个被浏览的频道的停留时间极短。记作:
,这里ε表示一个大于零的足够小的观看时长。
V:Viewing欣赏状态,该状态下的用户表现为停止切换,停留在一个频道上观看,不发生频道跳转,且观看时间较长。记作:
I:Idle状态,该状态下用户表现为既不继续观看某一频道,又不进行频道切换,系统处于空闲状态。为了保障研究的一致性,本文定义一个空频道Null Channel,若用户处于空频道(频道号为0,ch0),即用户处于空闲期,没有观看任何频道内容。记作:
综合考虑观众注意力、广告、节目等方面因素的动态变化,观众状态维持时间长短和状态之间的转化存在多种可能。一个观众观看一个频道较长时间之后,可能开始浏览其它频道,也可能切换到另一个感兴趣频道观看。我们定义4种状态转移行为:
① 关闭close,包括两个子行为V → I,S → I;
② 开启start,包括两个子行为I → V,I → S;
③ 换台change,包括两个子行为V → V,S → V;
④ 浏览surfing,包括两个子行为V → S,S → S。
综上,从用户角度出发,IPTV行为状态转移模型包括S、V、I三种状态以及各个状态之间的转移行为,S和V状态包括自我转移,I状态不含自我转移。如图1,有向图
表示一个IPTV典型用户的行为状态转移模型,图1中节点分别代表用户的三种状态S、V、I,有向边连接不同状态,表示观看行为的状态迁移动作。回路表示观众收视行为闭环状态链。

Figure 1. Network TV user viewing behavior modeling state diagram
图1. 网络电视用户观看行为建模状态图
为了清晰展示用户观看行为时序,图2给出一个用户典型的收视时序行为描述。用户从I状态开始,也就是空频道ch0,表示未开启IPTV服务;t0时刻开启IPTV系统。在时间区间[t0, t3]内,用户进行了频道浏览切换,即为状态S,用户从ch1切换到ch4,最后观看ch4至时间t4,即在时间区间[t3, t4]为V状态。在时区[t3, t6],该用户浏览过ch3,再切换至ch2。从t6到t7,用户又离线(关机)。从t7到t8,看ch2后结束观看。基于图1所示的状态转移模型,该观看过程可描述为:

Figure 2. Schematic diagram of the user-based viewing process based on the timeline
图2. 基于时间轴的用户观看过程示意图
基于实际IPTV用户数据集,通过大量统计研究,我们发现用户平均观看时长D有着与文献 [3] 中所描述的基本一致的分布特征,如图3所示。
图3为观看时长的累计概率密度分布图CDF,图3(a),图3(b)和图3(c)是我们统计计算用户数据的分布概率结果,可见56.06%的记录观看时长小于1 m,98.92%的记录观看时长小于3 h。图3(b)的x轴采用了图3(a) x轴的对数坐标,以便清晰展示相对短的观看时长的分布变化特征;我们也将放大x轴时间区间的统计结果展示在图3(c)中,以便展示更多的细节,同时,作为比对,我们也展示了文献 [3] 的结果于图3(d),这说明我们的研究跟历史和国外研究情况的相关一致性。在本文的研究中,浏览状态S是指观看时长小于60 s的观看行为;观赏状态V是指观看时长位于区间[60 s, 3 hour]的观看行为;离开行为Idle状态是指关机或者观看时长大于等于三小时的观看行为。
(a)
(b)
(c)
(d)
Figure 3. User watch time CDF chart. (a) x watch duration, y probability distribution; (b) pair (a) x-axis logarithm; (c) partition enlargement x-axis; (d) Meeyoung’ Result
图3. 用户观看时长CDF图。(a) x观看时长,y概率分布;(b) 对(a) x轴取对数;(c) 分区放大x轴;(d) Meeyoung’ Result
3. 网络电视数据统计分析
3.1. 群体行为的统计分析
图4(a)是整个IPTV用户群体从2014年8月25日到8月31日一周的在线人数变化曲线。横坐标是时间,纵坐标是在线人数。从图4可知,整体在线人数具有较强的自相似性,凌晨5点观众最少,下午1点观看人数出现一个次高峰;一天内的观看高峰出现在晚上7点到10点之间。文献 [4] 也揭示了境外IPTV用户在线人数分布的类似特征,可知国内外用户观看直播电视的行为特征具有较强的相似性。图4(b)、图4(c)和图4(d)展示了热频道、一般频道与冷频道7天的收视人数统计分布,我们发现不同频道内部具有自相似性特征,但是不同频道之间各向异性。图4所示不同频道每日在线人数呈明显的自相似性和概周期性。
(a)
(b)
(c)
(d)
Figure 4. Online population statistics. (a) The number of online users of the entire IPTV user group; (b) Number of online users of ch1; (c) Number of online users of ch7; (d) Number of online users of ch26
图4. 在线人数统计图。(a) 整个IPTV用户群在线人数;(b) ch1在线人数;(c) ch7在线人数;(d) ch26在线人数
3.2. 典型频道统计分析
我们统计分析ch1在2014年8月25日一天的到达率(平均观看率)、离开率(平均逃逸率)、在线人数和在线人数变化率。用户到达率是指单位时间观看频道的用户次数,见表1序号18;用户离开率是指单位时间离开频道的用户次数,见表1序号19;用户在线人数变化率是指单位时间在线人数变化数,见表1序号13。从图5(a)和5(b)中我们发现到达率和离开率具有强相似性,这与文献 [4] 的统计相似。图5(a)峰值点相对较少,我们推测用户观看某一个频道没有太明显的时间相关性,即就是说人们在一个频道上的到达时间是相对随机的。图5(b)峰值点较多,可以推测人们常常在相同的时间离开某一个频道,也就是说离开频道有强时间相关性。可能的原因是因为插播广告或节目播放完毕时,大量用户都放弃了该频道的观看。图5(c)显示24小时内,早上8点在线人数达到极值点,下午1点又达到一个小峰值点,晚上7点和晚上10在线人数出现大峰值点。图5(d)表示在线人数变化率,在线人数增加为+,在线人数减少为-,我们发现大正值较少,大负值较多,再次说明观众切换进入一个频道相对随机而切换离开一个频道呈现较强相关性。
3.3. 个体用户统计分析
图6呈现了两个用户在2014年8月一个月时间内观看次数时刻分布情况。n天内第i时刻总观看次数的计算公式为:
,若用户在第j天i时刻观赏了电视节目,即这次的观看时长大于或等于一分钟,则watchj,i为1,否则watchj,i为0。
图6(a)现实用户1在22点至次日凌晨6点无观看行为,可能为用户1睡觉时间;用户1早上8点、晚上7点和晚上9点出现峰值点,说明用户1在这些时间点附近经常看电视。该用户总体观看行为具备规律性,可推测该用户生活习惯规律,可能是生活较为规律的中老年电视观众用户。图6(b)用户2在一天24小时内大多数时间段内都有电视观看行为发生,说明该用户可能熬夜观看电视节目,推测该用户作息时间和娱乐时间不规律,建议培养健康收视习惯,可能是生活节奏不太规律的年轻电视观众用户。
(a) 平均观看率
(b) 平均逃逸率
(c) 在线人数
(d) 在线人数变化率
Figure 5. 24-hour online population statistics for ch1
图5. 对ch1一天24小时在线人数统计图
(a) 用户1
(b) 用户2
Figure 6. User 1 and User 2 time distribution of one month
图6. 用户1和用户2一个月时间观看次数时刻分布
图7为两个用户在2014年8月一个月时间内观看某个频道的24小时分布。该图的计算方式为n天内第i时刻观看频道k的总次数,计算公式为:
,若用户在第j天i时刻观看了频道k,则为1,否则watchj,i,k为0。图7(a)为用户1感兴趣频道(频道号为131)观看次数分布图。如图所述,用户1观看频道131的时间为18点至19点,即该用户观看该频道具有较强时间相关性。图7(b)为用户2感兴趣频道(频道号为3)观看次数分布图。如图所述,用户2观看频道3的时间主要为14点至16点,并且在一天内的其它时间,也看频道3,可知该用户2观看频道3的时间相关性不显著。
(a)
(b)
Figure 7. Time distribution of the number of views of user1time view and user 2 favorite channel. (a) User 1; (b) User 2
图7. 用户1和用户2最喜好频道的观看次数时刻分布。(a) 用户1;(b) 用户2
通过对个体用户行为数据统计分析,发现个体用户观看行为具有各向异性特征,利用这些行为特点有助于开展预加载 [5]、个性化推荐 [6]、广告推荐等多方面的研究,以提高用户观看IPTV的体验和效率。
4. 结束语
本文从整个用户群体、单个频道和个体用户三个角度对网络电视用户数据进行统计分析,呈现网络电视用户观看电视的行为特点,为网络电视系统的设计、资源的合理分配以及个性化频道推荐等方面提供了依据。下一步的工作将会对个体用户进行更精细的数学建模,更加准确地呈现用户行为特征,通过深度学习,绘制用户画像,促进个性化用户精准频道推荐和广告推送。随着IPTV用户发展日趋饱和,基于用户行为统计特征分析,深度学习用户潜在兴趣,开启面向多尺度用户人群的增值业务研究对于IPTV产业发展意义重大。
基金项目
本研究获广州市科技计划产学研重大(国际合作)专项支持No. 201704030124。
NOTES
*通讯作者。