1. 引言
随着国民经济的不断发展,人们的消费水平有了进一步的提高,消费结构也随之升级。具备深厚文化底蕴的白酒具有明显的社交属性,在社交场景中扮演着重要角色[1]。诸多因素共同驱动白酒消费市场的持续扩容。此外饮酒具有一定的舒筋活血的功效,能促进血液循环,强身健体[2]。中国白酒产业历史悠久且规模庞大,主要在四川和贵州等地发展迅速,产业聚集态势显著。白酒受地域和文化等多重因素的影响,仍处于垄断竞争格局发展,除了贵州茅台及五粮液两家企业市场份额较大外,其他白酒企业所占市场份额相对较低,行业的马太效应明显[3]。在互联网+的背景下,短视频、直播带货形式的兴起,触发了线上营销平台的崛起,并受到消费者市场的青睐[4]。
根据公开数据显示,2013~2016年,白酒产量仍呈现正增长。但是2017年至2022年期间,我国白酒产量呈现持续下降趋势(见图1)。2022年白酒产量累计671.2万千升,同比下滑5.6%。可能受疫情经济、质量安全事故、政府严惩政治腐败和多项禁酒令等影响[5] [6]。
从新石器时代的仰韶文化到夏朝初年,白酒文化历经了2000多年的启蒙期,具有深厚的历史文化底蕴[7]。白酒种类较多,按原材料分为粮食酒、瓜干酒、代用原料酒;按生产工艺分为固态法白酒、液态法白酒、调香白酒等[8];按酒精含量分为高度酒(60˚左右的酒)、中度酒(54˚左右的酒)、低度酒(是指39˚以下的酒);按产品档次分为高端酒、中档酒、低档酒。
(数据来源:中商产业研究院)。
Figure 1. China’s white wine production statistics, 2017~2022
图1. 2017~2022年我国白酒产量统计图
随着白酒产业在国内的规模扩大且不断增长,白酒行业已逐渐进入品牌竞争时代。白酒行业具有完整的商业链条,从上游原料、中间制造到下游消费各个环节都分工明确,涌现出了一系列优秀品牌。其中酱香型白酒主要以茅台、郎酒和习酒等为主,贵州独特的地理环境致使其垂直气候变化大,俗称贵州是“地无三尺平,天无三日晴”,但丰富的降水还是给酿酒提供了充沛的水源。贵州自然地理条件具有复杂性和丰富性的特点,而酿酒微生物种群对自然环境极度敏感,于是奠定了贵州白酒风味多样性和独特性的基础。
白酒产业作为万亿级支柱产业,是国民经济中极为重要的组成部分,从国家层面到地方各级政府一直都很重视和关心白酒产业发展。2022年,各级政府相继出台了一系列指导意见和地方政策,积极支持白酒产业健康稳定发展,政策利好信号不断,将推动行业更有序、更高质量的发展。白酒产业在贵州发展规模较大,贵州省政府也提出了推动贵州酱酒产业高质量发展的相关政策。目前,作为贵州酱酒龙头企业的茅台发展健壮,但许多中小微型酒企缺乏核心市场竞争力,不具备雄厚的文化做支撑,发展乏力。其次,酱酒消费市场规模仍有待提高,消费市场仍有可挖掘的空间。本文研究贵州酱酒市场的发展现状及其在电商背景下的机遇与挑战。通过分析消费者的购买行为与评价情感,本文旨在提出有效的市场推广策略,助力贵州酱酒中小微型企业的发展壮大。通过决策树模型与LDA主题模型,进一步探讨市场的消费者情感倾向与主题分布。分析贵州酱酒产业现状,以期给贵州酱酒产业“出谋划策”,助力酱酒中小微型企业发展壮大,推动贵州酱酒产业全面优质发展。
2. 酱酒市场现状
2.1. 宏观市场导向
随着近年来政府发布的一系列环保政策,许多优势企业有技术和资金去改进酿造技术来满足环保要求,但许多中小型企业面临环保技术落后,发展资金不足,同时也缺乏政府的帮助,酿造车间的投入成本激增,导致许多微小型企业举步维艰。
贵州酱酒产业发展不足。酱酒产业目前尚未形成在全国有影响力的交易市场,产销不均衡问题突出,且基酒价值未得到充分释放,基酒企业及下游各方痛点显著。
贵州酱酒品牌整体知名度不高,两级分化严重。依据调研,许多外省消费者知道贵州特别有名的酱酒品牌,如茅台和习酒,但也多停留在产品品牌本身,贵州酱酒品牌整体在全国白酒行业和消费者中曝光仍然存在不足,其中贵州酱酒产业的历史文化、酿造工艺缺乏宣传。
市场服务和管理需改进。当前酱酒市场存在购买渠道不够透明和有待完善等问题,市场缺乏透明且有保障的购买渠道,消费者普遍担心购买到假酱酒,这也导致线上消费流量聚集到电商平台主流店铺,本土酱酒难以打开销路。
目前酱酒产品在电商市场中物流运输水平有待提高,售后服务链需要完善,且线上酱酒市场监管不严,酱酒品质难以保证,消费者权益急需重视。此外,电商流量聚集化明显,强势品牌酱酒流量巨大,而一般酱酒企业在电商平台流量不足,线上发展受限。
2.2. 酒企发展道路
酱酒企业推动价值化仍较为困难。因酿造工艺需要,使得酱酒制造成本高、生产周期长、产能受限,且酱酒酿造极度依赖特定的自然地理环境,整体呈现“量少质优”的价值发展特点。以上因素直接决定了酱酒的价格不会低廉,不宜也无法盲目的大规模扩产。
在茅台酱酒品牌加持下,许多酱酒企业品牌迅速发展,但仅靠“同产区”带动显然乏力,而且加持带动的另一方面也局限了酱酒品牌本身。酱酒企业需要找到合适自身的最佳价值化发展道路。
酱酒基酒产业受到危害。目前存在恶性商业竞争扰乱产品价格情况,由于当地基酒出厂的价格较低,二级经销商会一般选择在单价上降低,以争取更多的成交机会,对酱酒市场价格带来干扰,给当地酱酒基酒产业带来危害。产销不均衡问题突出,且基酒价值未得到充分释放,加之近年来环保政策的颁布,酿造车间的投入成本激增,对酱酒企业发展不利。
2.3. 消费者购买体验
市场服务需改进。当前酱酒市场服务水准虽取得了一定的进步,但在贴近市场、消费者方面仍存在不足。在消费者便捷购买,安心消费上仍有待提升。购买渠道不够透明。目前存在消费者对于靠谱的酱酒消费渠道了解不足现象,特别是高价值类酱酒,购买渠道不透明且产品真伪难辨别。
在传统的营销环境中,品牌经验大多来源于线下。传统的销售渠道主要是对接产品经销商、直营店店主。酒企与消费者直接沟通对接的机会不多。在电商环境下,品牌要实现精准化营销,就必须要立足于对消费者的需求和消费习惯进行了解。因此,本研究通过在淘宝平台中输入酱酒关键词,爬取前100页中商品月销量大于等于1的所有商品数据。爬取字段主要为产品名称、月销量、店铺地址等信息,共计获得2066款商品的信息。
由商品信息数据可知(见图2),目前的淘宝在售商品中,店铺地址所在地位于贵州省的最多,其次为四川省。贵州以酱酒为主,贵州所属店铺约占总体店铺的35.8%,在贵州省贵阳市和遵义市的店铺数量遥遥领先(见图3),这与赤水河流域白酒产业园区密切相关。
3. 消费者评论描述性分析
3.1. 评论数据爬取
通过前期白酒市场的现状分析,利用京东平台中贵州酱酒评论数据进行爬取。网络爬虫也就是Web信息采集器,其运作机制为自动遍历互联网,下载并解析网页内容,同时提取新的URL地址,以形成一个持续循环的过程,直至满足预设的停止条件。此方法可以有效解决购物网站当中信息冗余和数据量大的问题,并且有利于信息的整理和清洗。
Figure 2. Histogram of sauce wine sales stores
图2. 酱酒销售店铺柱状图
Figure 3. Word cloud of geographic municipal distribution of stores
图3. 店铺地理市级分布词云图
在京东官网(https://www.jd.com/)输入关键词酱酒,随后按照评论数量进行排序。每条数据包含用户名、基本评论、评论时间、评论对象、评论类型。共计爬取数据53,339条,其中好评32,768条,差评20,571条。从评论内容可以看出,消费者对自己所购买的酱酒产品,还是很积极地表达自己的真实感想。评论内容从包装设计、香型口感、物流速度、服务水平等方面展开。因此可以从消费者评论数据中获取关键信息,了解消费者的心理,为消费者提供更好的产品和服务。下表1为评论展示:
Table 1. Data table of selected comments
表1. 部分评论数据表
用户名 |
评论 |
时间 |
产品名 |
类型 |
j***d |
感谢京东让我让我抢购到一瓶平价茅台,很喜欢啊,品相非常好,我好好珍藏,留着孩子结婚时拿出来喝,希望我下次还能抢到,感谢京东商品品质,很棒,京东购物放心,安心! |
2023-01-09 12:35 |
飞天53% vol 500 ml贵州茅台 |
pos |
童***7 |
包装设计:快递包装还可以,不过看起来不是那么坚固,希望以后包装继续加强,酒的包装没问题很好。香型口感:中国茅台,酱香型白酒,非常好。物流速度:送货速度很快,这一点给京东点赞。服务:服务还好,经常在京东买东西,买到了茅台很开心,感谢京东。 |
2023-01-15 10:38 |
飞天43% vol 500 ml 贵州茅台 |
pos |
j***f |
非常棒!感谢京东,过年有得喝啦!包装设计:漂亮!香型口感:劲爆好喝!服务:一流!物流速度:非常快!第二天收到了! |
2023-01-16 19:24 |
飞天53度500 ml
(精品) |
pos |
生*** |
围观了很久了,一直想买几瓶茅台酒,一直价格很高,没有机会,这次碰到价格合适的时间,不再犹豫,果断下手两瓶,之前喝过这酒,还不错! |
2023-01-26 23:03 |
飞天53度500 ml
(精品) |
pos |
3.2. 评论数据预处理
1) 数据清洗
因为该文本数据主要针对的是京东平台上,酱香型白酒中评论数据排名第一的产品。要考虑到可能不断重复出现的“白酒”、“酒”等词,以及系统默认的好评词条,去重后有效评论数据为13,154条。分词处理是文本数据预处理的基本操作,也是为后续分析展开的保证。中文分词的技术很多,本文中选取的是Python的jieba包。使用该包内的精确模式对文本数据进行最准确的剖分。下表2为部分分词结果:
Table 2. Table of comments after partial disambiguation
表2. 部分分词后评论表
用户名 |
分词后评论 |
j***d |
感谢 京东 让我 让我 抢购 到 一瓶 平价 茅台,很 喜欢 啊,品相 非常好,我 好好 珍藏,
留着 孩子 结婚 时 拿出来 喝,希望 我 下次 还能 抢到,感谢 京东 商品 品质,很棒,京东 购物 放心,安心! |
童***7 |
包装设计:快递 包装 还可以,不过 看起来 不是 那么 坚固,希望 以后 包装 继续 加强,
酒 的 包装 没问题 很好。香型 口感:中国 茅台,酱 香型 白酒,非常好。物流 速度:送货 速度 很快,这一点 给 京东 点赞。服务:服务 还好,经 常在 京东 买东西,买 到了 茅台 很 开心,感谢 京东。 |
j***f |
非常 棒!感谢 京东,过年 有得 喝啦!包装设计:漂亮!香型 口感:劲爆 好喝!服务:一流!物流 速度:非常 快!第二天 收 到了! |
生*** |
围观 了 很 久了,一直 想买 几瓶 茅台酒,一直 价格 很高,没有 机会,这次 碰到 价格 合适 的 时间,不再 犹豫,果断 下手 两瓶,之前 喝过 这酒,还 不错! |
通过表2可以看出,“的”、“了”之类的词出现的频率较高,而这些词在对评论数据进行情感分类时作用不大,因此需要去掉这些词。使用中文停用词表对数据进行处理,随后删除分词后数据中的标点符号以及数字。
词性标注的目的是为了消除词语中的一些歧义,强化每一个单词的特征。好的词性标注能够提高模型的准确率。故使用知网发布的《情感分析用词语集(beta版)》中的《中文正面评价词表》《中文负面评价词表》《中文正面情感词表》《中文负面情感词表》等[9]。对分词后数据进行词性标注,如下表3所示。
Table 3. Partial lexical labeling table
表3. 部分词性标注表
评论 |
词性 |
位置 |
养眼 |
n |
7 |
香型 |
n |
0 |
口感 |
n |
1 |
喝 |
vg |
2 |
过郎 |
n |
3 |
品种 |
n |
4 |
典型 |
n |
5 |
酱 |
n |
6 |
香味 |
n |
7 |
口齿 |
n |
8 |
2) 词云图
对清理后的文本数据依据词频统计,可以看出包装、价格、口感等词可以从不同方向反映出消费者的需求,同时也为进一步升级产品、完善物流指明了一定的方向。根据得到分词,绘制词云图如下图4所示。
Figure 4. Map of word cloud after participle
图4. 分词后词云图
4. 基于决策树的情感分类
4.1. 理论基础
为进一步了解消费者的情感倾向,建立决策树模型进行探究。决策树处理数据的算法主要有CART决策树(classification and regression tree),CART决策树可以处理回归和分类问题,支持剪枝技术[10]。CART决策树属性划分主要采用基尼指数,基尼指数反映的是数据集中随机抽取两个样本,而其类别标志不一致的概率。基尼指数越小,代表数据集的纯度越高。基尼指数计算公式为:
其中,D代表样本集合,n代表类别集合,是属于类别k的样本在样本集合中的比例。
由于CART决策树是一种二分类决策树,而对于二分类问题,样本有两种分类结果,一种是正例,另一种为反例[11]。在进行分类时,对于一个样本可能出现的分类情况可以分为四种(表4):
TP (True Positives):真正例,预测为正例而且实际上也是正例;
FP (False Positives):假正例,预测为正例然而实际上却是负例;
FN (False Negatives):假负例,预测为负例然而实际上却是正例;
TN (True Negatives):真负例,预测为负例而且实际上也是负例。
Table 4. Evaluation indicators for classification models
表4. 分类模型评价指标表
指标 |
计算 |
准确率accuracy |
正确分类的样本个数占总样本个数 A = (TP + TN)/N |
精确率precision |
预测正确的正例数据占预测为正例数据的比例 P = TP/(TP + FP) |
召回率recall |
预测为正确的正例数据占实际为正例数据的比例 R = TP/(TP + FN) |
F1-score |
调和平均值 F = 2/(1/P + 1/R) = 2*P*R/(P + R) |
4.2. 结论分析
一般评论中有分为好评和差评,为了解分词处理之后数据的标签类是否标注准确,通过CART决策树模型[12],对数据进行情感分类。模型在训练集上的准确率为0.97,在测试集上的准确率为0.96。模型结果如下表5所示。可以看出与好评密切相关的主要分为三个方面:酱酒口感、客服服务态度以及物流速度快。而与差评密切相关的是假酒以及垃圾评价,进一步验证前述问卷调研结果的可靠性。
Table 5. Table of results of the decision tree model run
表5. 决策树模型运行结果表
|
precision |
recall |
f1-score |
support |
neg |
0.96 |
0.99 |
0.98 |
302 |
pos |
0.75 |
0.45 |
0.56 |
20 |
accuracy |
|
|
0.96 |
322 |
Macro avg |
0.86 |
0.72 |
0.77 |
322 |
weighted avg |
0.95 |
0.96 |
0.95 |
322 |
5. 基于LDA主题模型的主题提取
使用无监督的一种贝叶斯模型,对评论数据处理,提取评论关键信息,进而了解用户的需求、意见、购买原因、产品的优缺点等。
5.1. 理论基础
潜在狄利克雷分配(Latent Dirichlet Allocation, LDA)模型是一种具有文本表示能力的非监督学习模型,提出了一种基于LDA主题模型的文本相似度计算方法[13]。LDA主题模型具有清晰的层次结构,依次表示为文档的集合层、主题层和特征词层,其结构如下图5所示。
Figure 5. Schematic diagram of the topology of the implicit topics of the LDA topic model
图5. LDA主题模型隐含主题的拓扑结构示意图
如图6所示,LDA主题模型是典型的有向概率图模型,由参数确定,反映了文档集合中隐含主题间的相对强弱,刻画所有隐含主题自身的概率分布。其中表示文档主题的概率分布,表示特定主题下特征词的概率分布,M表示文档集的文本数,K表示文档集的主题数,N表示每篇文档包含的特征词数。
Figure 6. Directed probability plot of the LDA topic model
图6. LDA主题模型有向概率图
LDA主题模型生成文本的过程[14]如下:
1) 对于主题z,根据Dirichlet分布Dir ()得到该主题上的一个单词多项式分布向量;
2) 根据泊松分布P得到文本的单词数目N;
3) 根据Dirichlet分布Dir()得到该文本的一个主题分布概率向量;
4) 对于该文本N个单词中的每一个单词Wn:
从的多项式分布Multinomial ()随机选择一个主题z;
从主题z的多项式条件概率分布Multinomial ()选择一个单词作为Wn。
5.2. 结果分析
本文采用LDA主题模型对在上文中决策树模型分类后数据进行建模,进而了解消费者的需求、购买原因、酱酒产品优缺点等。统计评论数据的正负情感词频数进行分析,在词云图上可以直观查看正负面评论的关键词。负面评价词语中降价、假酒、包装、客服等词可从不同的角度反映出当前酱酒线上销售的痛点问题。如下图7所示:
(a) (b)
Figure 7. Positive or negative word cloud
图7. 正面或负面词云图
主题模型是用在文档中发现抽象主题的一种统计模型。主题模型与传统判断文档相似性采用的查看单词出现个数不同,主题模型更加考虑到语义关联,避免片面统计相似性。
在一篇文档中,代表不同主题的词语往往会反复的出现,运用主题模型挖掘文本中词语规律,可寻找出非结构化的文本中的有用信息。基于此,对评论文本数据的主题挖掘,可为整个酱酒产业链提供改进方向。
6. 结论与建议
6.1. 结论
基于对酱酒消费者评论数据的深入分析,本文构建了决策树模型对消费者情感偏好进行分类,并进一步使用LDA模型对评论文本的主题词进行提取和分类。通过结合情感分类与主题分析,系统揭示了消费者在酱酒购买和消费过程中所关注的核心问题与潜在需求,尤其是负面评价中的痛点问题,为酱酒企业的产品改进和服务优化提供了具体方向。以下是基于数据分析的主要研究结论:
1) 市场服务需进一步优化。当前白酒市场服务水准虽取得一定的进步,但在贴近市场、消费者方面仍存在不足。在消费者方便购买、放心消费上仍有待提升。尽管近年来酱酒市场服务水准较以往有了显著提升,但分析结果表明,在贴近消费者需求和优化消费体验方面,仍存在诸多不足。具体表现在缺乏个性化服务、售后服务链条不完善和物流和包装等问题上。
2) 购买渠道透明度有待提升。数据分析显示,购买渠道的不透明性是消费者反馈中的主要问题之一。这种现象在高端酱酒消费场景中尤为突出,具体表现在消费者对渠道的信任不足、品牌认证与追溯体系缺失和电商平台缺乏透明的价格机制等方面。
3) 消费者对酱酒的品牌认知存在偏差。消费者对酱酒品牌的认知存在明显的两极化现象,这种偏差不仅影响了市场的公平竞争,也制约了中小型酱酒品牌的进一步发展。具体表现在盲目追求高端品牌、缺乏对酱酒文化与生产工艺的深入了解和中端市场接受度不足等方面。
6.2. 建议
通过情感分析与主题挖掘技术,深入揭示了消费者在酱酒市场中的需求痛点与偏好,聚焦市场服务、购买渠道透明度和品牌认知等关键问题。基于研究结论,旨在助力贵州酱酒产业的高质量发展,提升市场竞争力与消费者满意度,提出以下的优化建议。未来,酱酒企业可通过技术升级、文化传播和服务体系优化,在实现品牌效益最大化的同时,推动酱酒产业迈向更加广阔的市场空间。
第一,推动企业合并重组,打造酱酒核心产区。政府应该不断协调环保技术受限、发展资金不足的企业进行产业聚集,企业合并重组,推动酱酒产业品牌化、质量化、规范化和安全化。使得酱酒产业发展更加健壮。巩固提升原产地主产区优势。严格遵循原产区酿造标准,从原料、生产、质量上,并遵守主产区保护规划,强化产区内的质量标准建设,确保主产区优势,打造具有国际竞争力的核心产区。打造贵州酱酒核心产区旅游景点,融合农文旅发展模式。可打造体验馆,全方位体验生产的全过程[15],力求吸引酒文化爱好者参与其中。其次可设计出旅游脉络图、游览指南,在抖音、小红书等社交媒体加大广告宣传力度,打响贵州酱酒旅游文化名声,吸引中外游客参观游览。通过整合酒文化与旅游资源吸引更多游客,推动地方经济增长。
第二,拓宽酱酒消费选择,优化产品服务平台。引导消费者理性消费:通过宣传中端品牌的酿造工艺与产品优势,引导消费者建立理性消费观,避免对高端品牌的过度依赖。建议搭建购买酱酒的辅助大数据平台,通过整合电商平台的大数据资源,为消费者提供透明、可信的购买渠道,便于用户快速比较不同品牌的酱酒信息,包括生产厂家、价格及用户评价等,优化消费者决策体验。