基于不同距离度量的K-Means算法在配对交易中的应用研究
Research on the Application of K-Means Algorithm Based on Different Distance Metrics in Pairing Transactions
DOI: 10.12677/pm.2024.1410350, PDF,   
作者: 朱 军, 赵 伟:西南民族大学经济学院,四川 成都
关键词: 配对交易K-Means聚类价差序列距离度量Pair Trading K-Means Clustering Spread Sequence Distance Metrics
摘要: 本研究探讨了K-Means聚类算法,在不同距离度量基础上对配对交易中两种期货合约的历史价差序列进行分类的应用。本文比较了欧式距离、曼哈顿距离、切比可夫距离和余弦相似度在价差序列分类中的应用效果。研究结果表明,相较于传统的欧式距离,余弦相似度能够更好地对价差序列进行聚类,在效果评测指标上表现更加优异。
Abstract: This study explores the application of K-Means clustering algorithm to classify the historical spread sequences of two futures contracts in paired trading based on different distance measures. This article compares the application effects of Euclidean distance, Manhattan distance, Chebyshev distance, and cosine similarity in price difference sequence classification. The research results indicate that compared to traditional Euclidean distance, cosine similarity can better cluster price difference sequences and perform better in performance evaluation indicators.
文章引用:朱军, 赵伟. 基于不同距离度量的K-Means算法在配对交易中的应用研究[J]. 理论数学, 2024, 14(10): 108-116. https://doi.org/10.12677/pm.2024.1410350

参考文献

[1] MacQueen, J. (1967) Some Methods for Classification and Analysis of Multivariate Observations. In: Le Cam, L.M. and Neyman, J., Eds., Proceedings of the 5th Berkeley Symposium on Mathematical Statistics and Probability, University of California Press, 281-297.
[2] 王紫涵. 聚类分析中K-Means聚类算法的改进与新聚类有效性指标研究[D]: [硕士学位论文]. 合肥: 安徽大学, 2022.
[3] Arthur, D. and Vassilvitskii, S. (2007) K-Means++: The Advantages of Careful Seeding. Proceedings of the Eighteenth Annual ACM-SIAM Symposium on Discrete Algorithms, New Orleans, 7-9 January 2007, 1027-1035.
[4] Sculley, D. (2010) Web-Scale K-Means Clustering. Proceedings of the 19th International Conference on World Wide Web, Raleigh, 26-30 April 2010, 1177-1178. [Google Scholar] [CrossRef
[5] 栗庆杰. 启发式k-means聚类算法的改进与应用研究[D]: [硕士学位论文]. 大连: 大连交通大学, 2023.
[6] 邵俊健, 王士同. 高维数据的增量式聚类算法的距离度量选择研究[J]. 计算机工程与科学, 2019, 41(2): 214-223.
[7] Wu, B., Wang, L. and Xu, C. (2009) Possibilistic Clustering Using Non-Euclidean Distance. 2009 Chinese Control and Decision Conference, Guilin, 17-19 June 2009, 938-940. [Google Scholar] [CrossRef
[8] 熊拥军, 刘卫国, 欧鹏杰. 模糊C-均值聚类算法的优化[J]. 计算机工程与应用, 2015, 51(11): 124-128.
[9] Liu, W.-Y., Chen, Z.-W., Bai, P., Fang, S.-F. and Shi, Y. (2005) A Kind of Improved Method of Fuzzy Clustering. 2005 International Conference on Machine Learning and Cybernetics, Guangzhou, 18-21 August 2005, 2646-2649. [Google Scholar] [CrossRef
[10] 朱兴晨. 距离测度优化的模糊聚类分析及应用[D]: [硕士学位论文]. 镇江: 江苏大学, 2023.
[11] 高新. 一种改进K-Means聚类算法与新的聚类有效性指标研究[D]: [硕士学位论文]. 合肥: 安徽大学, 2020.
[12] 吴建国. 基于马氏距离度量的聚类集成算法研究[D]: [硕士学位论文]. 太原: 山西大学, 2023.
[13] 于晓雨, 毕秀春, 张曙光. 配对交易的最优阈值[J]. 中国科学技术大学学报, 2020, 50(6): 784-792.
[14] 杨艳军, 陈思岑. 基于高频数据的我国国债期货市场套利研究[J]. 财务与金融, 2018(2): 1-6.
[15] 胡文伟, 胡建强, 李湛, 等. 基于强化学习算法的自适应配对交易模型[J]. 管理科学, 2017, 30(2): 148-160.
[16] 吴丰. 基于多尺度与关系特征挖掘的期货价差预测方法研究[D]: [硕士学位论文]. 长沙: 中南大学, 2023.
[17] 杨阳, 马超. 基于配对交易的上期所黄金期权套利策略研究[J]. 投资研究, 2024, 43(4): 145-159.
[18] Montana, G., Triantafyllopoulos, K. and Tsagaris, T. (2009) Flexible Least Squares for Temporal Data Mining and Statistical Arbitrage. Expert Systems with Applications, 36, 2819-2830. [Google Scholar] [CrossRef
[19] 钟锐. 基于K-Means++与Adaboost弹性网络的多股票配对交易策略设计[D]: [硕士学位论文]. 上海: 上海师范大学, 2020.
[20] 冯彪. 基于机器学习的商品期货配对交易参数优化研究[D]: [硕士学位论文]. 成都: 西南民族大学, 2023.
[21] 吴胜义, 王义贵, 王飞, 等. 基于多距离度量kNN模型的森林蓄积量反演[J]. 中南林业科技大学学报, 2023, 43(2): 10-18.