成果名称 ---【 超大规模真实原始数据的浓缩方法 】

基本信息
所属机构
中国科学院计算技术研究所
主题词
数据浓缩;Rogh Sets;规则+例外
研究起止时间
1998.01 至2000.12
成果公报内容
1. 主要研究内容和研究方法 (1) 研究在分类学习和聚类生成中优化表示策略的认知依据和逻辑实质。 (2) 提出在分类学习和聚类生成中处理优化表示的统一的优化计算模型 (3) 发展多种面向超大规模原始数据的优化方法,重点发展基于Rough Set理论的局部搜索方法。 (4) 在曙光1000大规模并行计算机上实现(3)中提出的方法 (5) 在规则+例外表示最小化的优化目标下提出基于Rough Set的高性能聚类生成算法 (6) 在规则+例外表示最小化的优化目标下提出基于局部搜索的高性能分类学习算法 2. 主要研究成果 (1) 直接使用"规则+例外"的心理学模型建立基于Rough Set (RS)理论的计算模型; 在这个阶段的研究中,我们定义了一个"规则使用频率"作为选择例外的规则,并将这个规则应用于UCI数据库的部分数据集合上,获得了很好的结果。 (2) 将"规则+例外"的心理学模型扩展到知识粒度计算。 在这个阶段的研究中,我们使用RS理论中的Roughness作为知识粒度测量,并在理论上证明了知识粒度计算的基本定理,设计了知识粒度格的构造算法。 对"规则+例外"的应用,完成了对"人类可持续发展"数据库的"规则+例外"的分析。 (3) 设计了一种崭新的、基于信息粒度的分类算法,实验结果表明这种分类算法有很好的泛化能力。 (4) 从拟物的角度出发,提出了一种针对实数变量样本、基于引力势场拓扑结构的聚类算法。 (5) 对于名义尺度变量的样本,我们则使用"规则+例外"和最小描述复杂度的原理,提出了一种利用优化技术的聚类算法。 (6) 从特征空间变换的角度出发,我们提出了文本聚类中权重计算的迭代策略。 总的说来,我们在本项目的招待过程中对数据浓缩的优化本质有了更进一步的认识,并积累了一系列面向结构化和非结构化海量数据的聚类、分类和规则提取等数据浓缩操作的有实用价值的理论、方法和算法,在网络信息服务、数字图书馆等领域得到了初步的应用。


| 联系我们 | 网站地图 | 版权声明 |

版权:中国科学院 主办:中国科学院科技促进发展局 承办:中国科学院成都文献情报中心 蜀ICP备05003827号-12

建议使用1024×768 分辨率 IE6.0以上版本浏览器