基于Hadoop的产品大数据分布式存储优化
Storage Optimization of Product Big Data Based on Hadoop Platform
DOI: 10.12677/CSA.2021.115154, PDF,  被引量    科研立项经费支持
作者: 王耐东, 王雅君*, 张昕晨, 程胜明:大连工业大学机械工程与自动化学院,辽宁 大连
关键词: 产品大数据Hadoop平台数据存储优化数据检索Product Big Data Hadoop Platform Data Storage Optimization Data Retrieval
摘要: 研究产品相关大数据资源组织存储与检索查询技术,提出在Hadoop平台基础上对产品大数据资源进行分块存储。基于MapReduce并行架构模型,提出多副本一致性Hash数据存储算法,算法充分考虑了数据的相关性和时空属性,并优化了Hadoop平台的数据划分策略和数据块规格调整。通过对数据的优化存储布局,采用多源并行连接检索方法和多通道数据融合特征提取技术实现产品大数据信息检索,提高了数据资源管理效率。实验表明和标准Hadoop方案比较,多源并行连接数据检索的执行时间为其31.9%。
Abstract: A blocking storage layout optimization method based on Hadoop was proposed. A multi-copy consistency hash algorithm based on data correlation and spatial and temporal properties was used. Data distribution strategy and block size adjustment were studied based on Hadoop. A multi-data source map join query algorithm and a multichannel data fusion feature extraction algorithm based on data-optimised storage were designed for the big data resources of products according to the MapReduce parallel framework. Practical verifications show that the execution time of multi-data source parallel retrieval was only 31.9% of the time of the standard Hadoop scheme.
文章引用:王耐东, 王雅君, 张昕晨, 程胜明. 基于Hadoop的产品大数据分布式存储优化[J]. 计算机科学与应用, 2021, 11(5): 1503-1511. https://doi.org/10.12677/CSA.2021.115154

参考文献

[1] 王磊. HDFS文件系统升级方案的研究与实现[D]: [硕士学位论文]. 南京: 南京邮电大学, 2020.
[2] 张国华, 叶苗, 王自然, 周婷婷. 大数据Hadoop框架核心技术对比与实现[J]. 实验室研究与探索, 2021, 40(2): 145-148+176.
[3] 王艳, 蒋义然, 刘永立. 基于Hadoop的大数据处理技术及发展[J]. 信息记录材料, 2020, 21(11): 146-147.
[4] 李善青, 郑彦宁, 赵辉, 等. 大数据背景下科学元数据的重要问题研究[J]. 科技管理研究, 2019, 18(1): 184-188.
[5] 李联辉, 尹冠飞, 莫蓉. 面向航空发动机装配过程的信息追溯与过程监控[J]. 计算机集成制造系统, 2018, 22(12): 2986-3000.
[6] 李青, 冯丹, 梅正朋. 飞机使用寿命周期构型管理和追溯[J]. 计算机集成制造系统, 2016, 22(2): 476-481.
[7] 王瑶. 基于Hadoop框架的工业物联网实验平台构建与实现[D]: [硕士学位论文]. 西安: 西安石油大学, 2020.
[8] 王丹, 张祥合, 赵浩宇. 基于元数据的信息知识组织智能检索系统设计[J]. 情报科学, 2019, 18(9): 113-116, 958.
[9] 孙文金. 基于Hadoop的文件存取优化的方法研究[D]: [硕士学位论文]. 沈阳: 沈阳工业大学, 2020.
[10] 庞书杰. 关联规则并行优化算法及其应用研究[D]: [硕士学位论文]. 烟台: 烟台大学, 2020.
[11] 潘俊辉, 王辉, 张强, 王浩畅. 一种在MapReduce下实现的KNN改进算法[J]. 重庆科技学院学报(自然科学版), 2021, 23(1): 70-72+95.
[12] Siddiqa, A., Karim, A. and Gani, A. (2017) Big Data Storage Technologies: A Survey. Frontiers of Information Technology & Electronic Engineering, 8, 1041-1072. [Google Scholar] [CrossRef