基于MapReduce的大数据并行分析与处理
Parallel Analysis and Processing of Big Data Based on MapReduce
DOI: 10.12677/CSA.2022.123059, PDF,  被引量   
作者: 张昕晨, 王雅君, 程胜明, 冷峻宇, 刘小奇:大连工业大学,机械工程与自动化学院,辽宁 大连
关键词: 数据资源并行处理特征提取MapReduceData Resource Data Parallel Processing Feature Extraction MapReduce
摘要: 针对传统分布式数据库架构存储和管理企业产品相关的大数据资源效率不高等问题,研究企业产品海量数据资源处理与并行分析计算,提出在Hadoop平台基础上基于MapReduce并行架构模型的数据并行分析与数据处理方法。通过对数据的优化存储布局,在MapReduce并行框架基础上,采用多通道数据融合特征提取技术实现产品大数据信息的提取和并行分析计算,提高了数据资源管理效率。实际验证表明和标准Hadoop方案比较,多通道数据融合并行特征提取算法执行时间为其34.8%,实现了产品大数据资源高效的组织和管理。
Abstract: Aiming at the low efficiency of traditional distributed database architecture to store and manage big data resources related to enterprise products, the processing and parallel analysis and calculation of massive data resources of enterprise products are studied, and a parallel data analysis and data processing method based on MapReduce parallel architecture model based on Hadoop platform is proposed. By optimizing the storage layout of data, based on MapReduce parallel frame-work, multi-channel data fusion feature extraction technology is used to realize product big data information extraction and parallel analysis and calculation, improving the efficiency of data resource management. Actual verification shows that compared with the standard Hadoop scheme, the execution time of the multi-channel data fusion parallel feature extraction algorithm is 34.8%, which realizes the efficient organization and management of product big data resources.
文章引用:张昕晨, 王雅君, 程胜明, 冷峻宇, 刘小奇. 基于MapReduce的大数据并行分析与处理[J]. 计算机科学与应用, 2022, 12(3): 582-589. https://doi.org/10.12677/CSA.2022.123059

参考文献

[1] 张国华, 叶苗, 王自然, 周婷婷. 大数据 Hadoop 框架核心技术对比与实现[J]. 实验室研究与探索, 2021, 40(2): 145-148+176.
[2] 王艳, 蒋义然, 刘永立. 基于 Hadoop 的大数据处理技术及发展[J]. 信息记录材料, 2020, 21(11): 146-147.
[3] 李善青, 郑彦宁, 赵辉, 等. 大数据背景下科学元数据的重要问题研究[J]. 科技管理研究, 2019, 18(1): 184-188.
[4] 李联辉, 尹冠飞, 莫蓉. 面向航空发动机装配过程的信息追溯与过程监控[J]. 计算机集成制造系统, 2018, 22(12): 2986-3000.
[5] 李青, 冯丹, 梅正朋. 飞机使用寿命周期构型管理和追溯[J]. 计算机集成制造系统, 2016, 22(2): 476-481.
[6] 程学旗, 靳小龙, 王元卓, 等. 大数据系统和分析技术综述[J].软件学报, 2014, 25(9): 1889-1908.
[7] 孟小峰, 慈祥. 大数据管理: 概念、技术与挑战[J]. 计算机研究与发展, 2013, 50(1): 146-149.
[8] 王耐东, 王雅君, 张昕晨, 等. 基于Hadoop的产品大数据分布式存储优化[J]. 计算机科学与应用, 2021, 11(5): 1503-1511.
[9] 李鹏, 刘澄玉, 李丽萍, 等.多尺度多变量模糊熵分析[J]. 物理学报, 2013, 62(12): 120512-12020.
[10] Ahmed, M.U. and Mandic, D.P. (2012) Multivariate Multiscale Entropy Analysis. IEEE Signal Processing Letters, 19, 91-94. [Google Scholar] [CrossRef
[11] Morabito, F.C., Labate, D., La Foresta, F., et al. (2012) Multivariate Multi-Scale Permutation Entropy for Complexity Analysis of Alzheimer’s Dis-ease EEG. Entropy, 14, 1186-1202. [Google Scholar] [CrossRef
[12] Cao, L., Mees, A. and Judd, K. (1998) Dynamics from Multivariate Time Series. Physica D: Nonlinear Phenomena, 121, 75-88. [Google Scholar] [CrossRef