面向分布式在线学习的共享数据方法
作者:
作者单位:

辽宁工程技术大学

作者简介:

通讯作者:

中图分类号:

TP181

基金项目:

辽宁省教育厅项目(LJ2019QL016),,国家自然科学基金项目(面上项目,重点项目,重大项目)(71771111)


A Sharing Data Approach Oriented to Distributed Online Learning
Author:
Affiliation:

辽宁工程技术大学

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    分布式数据流已成为现代数据驱动应用产生数据的主要形式,而局部节点的数据虽然独立存储,但彼此之间是相互关联的,因此如何高效的共享局部节点数据来构建全局学习器是分布式在线学习的关键问题.针对此问题,本文提出了一种分布式在线学习的数据共享解决方案,包括基于指数损失的半监督聚类方法和基于协方差矩阵与均值向量的数据共享方法,并证明了重构数据集的累计绝对误差小于给定绝对误差界的概率下界.实验表明:本文方法可以使节点间的共享数据量维持在一个较低的水平, 同时保证基于重构数据训练得到的学习器具有很好的泛化学习能力.

    Abstract:

    Distributed data stream generated by current data-driven applications has become a main data representation. Although distributed data stream is captured from different data sources, they are correlated to a common event. Hence, the key issue of distributed online learning is how to build global learner by sharing data of local node. For this problem, this paper proposes a new sharing data solution for distributed online learning, containing the semi-supervised clustering approach based on exponential loss and the sharing data approach based on covariance matrix and mean vector, and proves the cumulative absolute error between the rebuilding data set and the original data set is bounded on the given threshold under some probability. Empirical studies demonstrate our approach has lower network traffic between nodes, and gets a learner having better generalization capability.

    参考文献
    相似文献
    引证文献
引用本文
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2019-12-25
  • 最后修改日期:2021-02-21
  • 录用日期:2020-03-23
  • 在线发布日期:
  • 出版日期: