-1-
中国科技论文在线
从希尔伯特-施密特独立性中学习的多标签
半监督学习方法
张晨光 1,张燕 1,张夏欢 2
(1. 海南大学信息科学技术学院数学系,海口 570228;
2. 北京凌云光技术有限责任公司视觉和图像系统事业部,北京 100097)
摘要:基于希尔伯特-施密特独立性提出了一种新的半监督学习方法,称为最大化依赖性多
标签半监督学习方法(dependence maximization multi-label semi-supervised learning method,
DMMS)。该方法将样本已有标签作为约束,以最大化特征集和标签集的关联性为目标,通
过求解一个线性系统为无标签数据打上标签,具有实现简单,无参(nonparameter)的特点。
多个真实多标签数据库的实验表明,DMMS 与最好的多标签学习方法,包括多标签近邻
(Multi-Label K-Nearest Neighbor,MLKNN)和图半监督学习方法具有类似的识别效果。
关键词:希尔伯特-施密特独立性; 多标签学习; 半监督学习
中图分类号:TP391 文献标识码:A
Multi-label semi-supervised learning method learnt from
Hilbert-Schmidt independence criterion
Zhang Chenguang1, Zhang Yan1, Zhang Xiahuan2
(1. College of Information Science and Technology, Hainan University, Haikou 570228, China;
2. System Division of Vision and Image, Luster LightTec Co., Ltd, Beijing 100097, China)
Abstract: Hilbert-Schmidt independence criterion (HSIC) can be used to measure the correlation
degree of feature set and label set of samples. On the basis of HSIC, this paper presents a new
semi-supervised learning method called dependence maximization multi-label semi-supervised learning
method (DMMS). By setting the existing labels as constraint and dependence of features and labels as
optimization objective, the method solves a linear system to get the labels for unlabeled samples,
possessing the features of simple implementation and no parameter estimation. Experiments on some
real multi-label datasets show that the proposed method is as good as the state-of-the-art multi-label
learning methods in recognition tasks, including multi-label k-nearest neighbor (MLKNN) and graph
based semi-supervised learning method.
Key words: Hilbert-Schmidt independence criterion, multi-label learning, semi-supervised learning
半监督学习方法是近几年机器学习领域的研究重点,生成模型、协同训练、图半监督和
直推支持向量机等方法被相继提出[1-3]。区别于有监督和无监督学习方法,半监督学习同时
从已标签数据和无标签数据中学习,使得最终的目标函数在全部数据(包括已标签和无标签
数据)上满足流形或者聚类等假设。多数情况下,如果无标签数据有助于对数据分布或者结
构的学习,半监督学习方法比纯粹的有监督或无监督学习方法有更好的学习效果, 因此在已
标签数据获得困难,且又存在大量无标签数据的应用中,半监督学习方法的作用显得尤其重
要。
多标签学习(multi-label learning)是目前机器学习领域中的一个热点问题。传统的分类学
习,包括多类学习(multi-class learning)问题,每个样本只属于一个类别。然而在很多实际问
题中,一个样本可能同时属于多个类别。例如,一篇文档可能属于多个预定义的主题;一张
图片可能同时具有多个语义;一个基因可能具有多种功能。至今,研究者们已经提出了多种
多标签学习方法,大致可以分为问题转换方法,包括 Classifier Chains[4] 、Random
基金项目:海南省教育厅高等学校科学研究资助项目(Hjkj2012-01);国家自然科学基金(11261015)
作者简介:张晨光,男,(1980-),硕士,讲师,主要研究方向:模式识别、图像处理。
通信联系人:张燕,讲师,主要研究方向:数据挖掘,zhangyanouc@
-2-
中国科技论文在线
k-labelsets[5],以及算法改进方法,包括MLKNN (multi-label k-nearest neighbor)[6]多标签图半
监督学习方法[7]。MLKNN作为近邻法在多标签情况下的推广,在多篇报道中的多个数据集
上都有略好于其他方法的表现[8],是多标签学习中最好的方法之一。
与以往的所有半监督学习方法相比,笔者提出的最大化依赖性多标签半监督学习方法
(dependence maximization multi-label semi-supervised learning method,DMMS)以最大化所有
样本特征集(包括已标签和未标签样本)和标签集之间的依赖程度作为学习的假设前提和目
标,与传统半监督学习方法将聚类假设或流形假设等作为利用无标签样本的方式不同。样本
特征集和标签集之间的依赖性可以采用 CCA(canonical correlation analysis)[9]、KCC(Kernel
Constrained Covariance)[10]以及 HSIC(Hilbert-Schmidt Independence Criterion)[10-12]。HSCI对再
生核希尔伯特空间(RKHS)上的希尔伯特-施密特算子进行统计估计,提出的依赖性经验估计
值在理论上具有收敛速度快和计算简单等特点[11]。因此,笔者选用 HSIC作为样本特征集和
标签集之间依赖程度的度量和优化目标,并在添加样本已有标签作为约束的情况下,将
DMMS转换为线性系统求解问题,具有实现简单、无参的特点。
本质上,无论样本点有多少个标签,DMMS 总是将其所有的标签看成一个点映射至标
签集所在的再生核希尔伯特空间。类似地,每个样本的样本值也映射至样本集所在的再生核
希尔伯特空间,进而通过最大化该两个空间的互协方差(cross-covariance)算子对应统计量的
估计值得到未标签样本所有可能的标签。因此,DMMS 不仅是一个半监督学习方法,而且
不需做任何改进,本身就是多标签学习方法。
笔者在多个真实多标签数据库对比了 DMMS、MLKNN 和同样适用于多标签学习的图
半监督学习方法,实验结果表明,DMMS作为一种新的多标签半监督学习方法是可行的。
1 HSIC简介
HSIC是一种基于核的独立性度量方法。该类方法总的原则是在再生核希尔伯特空间上
定义互协方差算子,进而从这些算子中推导出适合度量独立性的统计量来决定独立性的大
小。HSIC采用的是 Hilbert-Schmidt互协方差算子,通过对该算子范数的经验估计得到独立
性判断准则。
假设 M和 N都是可分度量空间。令 F为 M的再生核希尔伯特空间,F中元素 f是 M到
\的函数。M到 F 上的映射记为 : M FΦ → ,于是核函数可以写为:
, ( ), ( )( ) ,Fk MΦ Φ′ ′= 〈 ∈〉 ′xx x x x x , (1)
式中, , F〈⋅ ⋅〉 表示空间 F上的内积。类似地,将 N的再生核希尔伯特空间记为 G,有 N到 G
的映射 : N GΨ → ,相应的核函数为:
, ( ), ( )( ) ,Gl N′ ′ ′Ψ= 〈 ∈〉Ψ yy y y y y , (2)
假设Pr ×X Y 是 ( , )M N× Γ × Λ 上的联合分布,Γ和Λ分别是M和 N的 Borel集。相应的边
缘分布分别记为PrX和PrY,互协方差算子 :C G F→xy 定义为:
[ ], ( ) ( )C Φ Ψ µ µ⊗ − ⊗= x yx yy xE x y , (3)
式中, µx和 µ y分别表示 ( )Φ x 和 ( )Ψ y 的期望,⊗表示张量积,对任意 f F∈ 和 g G∈ ,有
:f Fg G⊗ → 为:
( ) , Gf g h f g h Gh⊗ 〈 〉 ∀ ∈= 。 (4)
Cxy可以看成 Hilbert-Schmidt算子,而所谓的 HSIC即定义为Cxy的 Hilbert-Schmidt算子
-3-
中国科技论文在线
范数,也即:
HS
2
HSIC( , ,Pr )F G C× =X xyY 。 (5)
在观察得到数据 1 1(( , ),=Z x y 2 2( , ),..., ( , ))n nx y x y 的基础上,可以给出 HSIC的经验估计
值为:
2HSIC( , , ) ( 1) Tr[ ]F G n −= − HKHLZ , (6)
式中, , , n n×∈\H K L , T= (1/ )n−H I ee ,I为单位矩阵,e是元素值全为 1的列向量,K 和
L分别是核 k和 l关于 Z 观测值的 Gram矩阵,即 ( , )i jij k=K x x 以及 ( , )i jij l=L y y 。HSIC的
经验估计值在理论上已经被证明具有收敛速度快以及计算简单等优点,其值越大说明 M 和
N的关联性越强,等于 0时说明M和 N相互独立。
2 最大化依赖性多标签半监督学习方法
考虑到样本特征与其标签具有一定联系的基本假设,本文利用 HSIC量化样本特征集与
标签集之间的关联程度,并通过最大化 HSIC为无标签样本打上标签。
给定已标签数据集和未标签数据集分别为: , 1,2,..) | },{( i i M N i vV ∈ == ×x y ,
{ |iU M= ∈x 1,2,.., }i v v u= + + ,
式中,M 和 N 分别是样本特征集和标签集所在空间。假设样本可能的类别总数为 m,则已
标签样本 ( 1,2,..., )i i l=x 的标签 iy 是一个 m维列向量,且:
1
0
i
ji
j⎧= ⎨⎩
属于第 类
否则
x
y 。 (7)
假设无标签数据 1,2,...( , )j j v v u= + +x 的标签 mj ∈\y 已知(与已标签样本的标签表示方
法类似, jy 也是 m 维列向量,只是其中元素是实数,可以看成是样本的“软标签”,本文目
标即是求得这些“软标签”),记:
1 2
1 2
[ , ,..., ]
[ , ,..., ]
X
Y
x x
yy y
xv u
v u
+
+
=⎧⎨ =⎩
。 (8)
给定M和 N上的核函数分别为 ( ) (, , )k M′ ′∈x x x x 和 ( )( ,, )l N′ ′∈y yyy ,则可得到它们关
于 X和Y 的 Gram矩阵K 和L,从而有:
2HSIC( , , , ) ( 1) Tr[ ]F G n −= −X Y HKHL , (9)
式中,F和 G分别是M和 N的再生核希尔伯特空间,H的定义同式(6), n v u= + 表示样本
总数。简单起见,标签集上的核函数取为线性核,即 T( ), ) ( ,l N′ ′ ′∈=y yy y y y ,重写式(9)的
迹,有:
T TTr[ ] Tr[ ] Tr[ ]= =HKHL HKHY Y YHKHY 。 (10)
DMMS方法的目标就是求解 Y,使得样本特征集和标签集的关联性即式(10)的值最大。
然而,因为 K是一个半正定的 Gram矩阵,而 H又是对称矩阵,因此HKH 同样是个半正定
矩阵,如果没有其他的限制条件,式(10)事实上没有最大值。针对该问题,常见的方法是对
Y进行限制,比如限制 T =Y Y I [12],但可能会对求解带来一些麻烦。本文的方法是添加正则
项,修改式(10)为优化目标:
T TmaxTr[ ]+YHKHY YHDHY , (11)
-4-
中国科技论文在线
式中,D 是对角矩阵,且D Kii ij
j
= −∑ 。显然, ( + )H K D H 是半负定矩阵,因此式(11)有最
大值。
注意到 Y 对应于已标签样本部分是已知的,本文将已知标签作为边界条件。记 VY 为 Y
中对应于已标签样本部分,并令:
= ( + )A H K D H , (12)
DMMS最终写为以下优化问题:
T
1 2[ , ,..., ]
maxTr[ ]
s. 3)t . (1V v=
YAY
y yY y 。
显然,DMMS的学习效果取决于对依赖性进行估计的准确程度。从式(3)和(5)可知,依
赖性取决于对互协方差算子的估计,而互协方差算子是张量积的期望和 µx的和。大量无标
签样本的加入对于该两项的估计无疑都有帮助。因此,可以期望 DMMS能够利用无标签样
本提高对依赖性估计的准确程度, 从而提高学习准确率。此外,从式(7)可知 DMMS 对
于标签集中元素的维数和值并没有限制,且无论样本的标签是多少维和值是多少,都只能将
其看 Y中一个点映射至再生核希尔伯特空间,因此 DMMS同时也是一种多标签学习方法。
3 DMMS的求解
为了求解具有边界条件的最优化问题式(13),将 A按照已标签和无标签样本的划分分成
4部分,有:
= VU
UV U
V⎡ ⎤⎢ ⎥⎣ ⎦
A A
A
A A
, (14)
式中, VA 和 UA 分别对应已标签和未标签样本, TUV VU=A A 。类似地有:
[ , ]V U=Y Y Y , (15)于是有:
T T T T+Tr[ ]=Tr[ ]2 +V V UV U UV UVUYAY Y AY Y A Y Y A Y 。 (16)
1 2[ , ,..., ]V v= y y yY 是固定值,优化问题进一步转换为:
VU U U
T T
V U Um 2 +axTr[ ]Y A Y Y A Y 。 (17)
由式(12)和(14)可知, UA 是半负定矩阵,因此式(17)存在解析解。令:
T T2 +Tr[ ] 0VU U UV U U
U
∂ =∂
Y A Y Y A Y
Y
, (18)
可得:
T T 0U U UV V+ =A Y A Y , (19)
也即
T TU U UV V= −A Y A Y 。 (20)
求解上述线性方程组可以得到无标签样本的“软标签” UY 。“软标签”可以认为是给出了
无标签样本属于某类的置信值,比如 ijY 是第 j个样本属于第 i类的置信值,其值越大就越有
理由相信其是属于第 i类。
此外,从 DMMS 的求解步骤来看,DMMS 具有实现简单以及无参的特点,求解主要可
分成两步:(1) 根据指定的核函数求出样本特征集的 Gram 矩阵以及相应的 A 矩阵;(2) 求
-5-
中国科技论文在线
解线性方程组式(20)。
4 实 验
为了凸显无标签样本对学习效果的影响,实验评测采取本文提出的反 k折交叉验证
(Reverse k-fold cross validation)的方式。所谓反 k折交叉验证指样本集被分成 k组,每一组轮
流当训练集,剩下的 1k − 组作为测试集,与 k 折交叉验证正好相反。通过反 k折交叉验证,
本文对比了 DMMS、MLKNN和图半监督学习方法[7]在多标签学习问题方面的学习效果。
参数设置
DMMS在样本特征集上的核函数选为常用的高斯核,即:
2
2( , ) exp ,2 i
i j
i j jk σ
−⎛ ⎞⎜ ⎟ ∈⎜ ⎟⎝ ⎠
= − x xx x x x X (21)
式中,参数σ 取为样本特征集上任意两点欧式距离的平均值。DMMS方法也可以选用别的
核函数,但是因为本文的目的在于引入DMMS方法,而高斯核已足以说明DMMS方法的有
效性,因此关于其他核函数的选择不在本文的讨论范围。
另外,MLKNN和图半监督学习方法均需要构建近邻图。设近邻数目统一为15,并将式
(21)作为构图过程中任意两个样本特征之间的相似度(距离)计算公式。最后,取定MLKNN
中的平滑参数值为1。
数据集
实验所用的数据集可以从开源项目 mulan[14]下载得到。这些数据集被广泛用于多标签学
习中[6-12],如表 1所示。
Name、Domain、Instances、Attributes 和 Class 分别表示数据库名称、所属领域、样本
总数、样本总数、样本特征维数和类别总数和样本平均所属类别数,而密度是基数与类别总
数的商值。
表 1 多标签学习数据集
Table 1 Datasets for multi-label learning
名称 领域 样本数 特征维数 类别数 单样本类别数 密度
Emotions Music 593 72 6
Yeast Biology 2 417 103 14
Scene Multimedia 2 407 294 6
评测指标
传统的单标签分类问题中的评测指标包括的准确率、查准率、查全率和 F-measure等都
不适用于多标签学习问题。多标签学习问题中的评测要比单标签学习的评测复杂很多。文献
[15]定义了目前多标记学习中的 5种常用评价指标,具体公式可参见原文。简介如下:
1) 汉明损失:指定阈值后,可以通过样本类属置信值预测得到任意未标签样本的类属,
比如 jiy 大于阈值,则认为第 i个样本属于第 j类。汉明损失可衡量预测结果与样本实际类属
之间的不一致程度,即样本属于某类但未被识别出,或不属于某类却被误判的可能性。
2) 1-错误率:描述对任一样本类属置信值最高的类属不是其实际类别的平均可能性,在
单标记学习中,演化成普通的分类错误率。
3) 覆盖率:将任意样本对应的类属置信值降序排序,覆盖率衡量从置信值最高的类别
开始,平均需要跨越多少个类属才能覆盖样本所属的全部类别。
-6-
中国科技论文在线
4) 排序损失:表明预测结果里真实所属类别的置信值低于非所属类别置信值的可能性。
5) 平均精度:平均精度反映置信值大于真实类别置信值的类属全是样本所属真实类别
的可能性。
5 项指标值中,只有平均精度是越大越好(最大为 1),其他指标都是越小说明学习方法
越有效
实验结果与分析
本文在 Emotions、Yeast、Scene三个真实数据库上对比了图半监督学习(GSL)、MLKNN
和 DMMS三种方法的分类效果。实验分为两组:第一组实验是反 5折交叉验证,即已标签
数据占总数据的 1/5,实验结果分别如表 2、3和 4所示,分别是 Emotions,Yeast和 Scene
三个数据库上的结果;第二组实验是反 10折交叉验证,已标签数据只占总数据的 1/10,类
似地,实验结果分别如表 5、6和 7所示。
表中的黑体表示在某指标里表现最好的值。从第一组的实验结果可以看到,DMMS 在
Scene数据集中的各项指标从第一组的实验结果可以看到,DMMS在 Scene数据集中的各项
指标都要好于其他两个方法,Emotions数据集上 DMMS方法要好于MLKNN方法,略差于
GSL方法。Yeast数据集是 DMMS表现最差的一个数据集,尽管如此,DMMS在该数据集
的 one-error指标上依然得到了一个最小值,说明如果只返回一个类属,则 DMMS的结果最
可信。MLKNN 的结果在 Emotions 数据集上的效果不理想,可能的原因是在反 5 折交叉验
证实验里,该数据集用于实验的已标签样本只有一百多个,对 MLKNN 影响很大,而对属
于半监督学习方法的 GSL和 DMMS的影响则小很多。
表 2 Yeast数据集上 GSL、MLKNN和 DMMS的反五 5折分类效果(均值+标准差)
Table 2 Reverse 5-fold cross validation results (mean+SD) of GSL, MLKNN and DMMS on Yeast dataset
方法 汉明损失 1-错误率 覆盖率 排序损失 平均精度
GSL 3 ± 3 ± 7 ± 4 ± 9 ±
MLKNN 0 ± 2 ± 7 ± 6 ± 4 ±
DMMS 1 ± 7 ± 0 ± 5 ± 8 ±
表 3 Emotions数据集上 GSL、MLKNN和 DMMS的反 5折分类效果(均值+标准差)
Table 3 Reverse 5-fold cross validation results (mean+SD) of GSL, MLKNN and DMMS on Emotions dataset
方法 汉明损失 1-错误率 覆盖率 排序损失 平均精度
GSL 8 ± 7 ± 9 ± 4 ± 8 ±
MLKNN 1 ± 8 ± 5 ± 5 ± 8 ±
DMMS 7 ± 2 ± 2 ± 3 ± 0 ±
表 4 Scene数据集上 GSL、MLKNN和 DMMS的反 5折分类效果(均值+标准差)
Table 4 Reverse 5-fold cross validation results (mean+SD) of GSL, MLKNN and DMMS on Scene dataset
方法 汉明损失 1-错误率 覆盖率 排序损失 平均精度
GSL 3 ± 5 ± 3 ± 9 ± 4 ±
MLKNN 1 ± 1 ± 7 ± 3 ± 0 ±
DMMS 7 ± 8 ± 9 ± 3 ± 2 ±
表 5 Yeast数据集上 GSL、MLKNN和 DMMS反 10折分类效果(均值+标准差)
Table 5 Reverse 10-fold cross validation results (mean+SD) of GSL, MLKNN and DMMS on Yeast dataset
方法 汉明损失 1-错误率 覆盖率 排序损失 平均精度
GSL 5 ± 9 ± 9 ± 9 ± 5 ±
MLKNN 1 ± 0 ± 9 ± 7 ± 3 ±
DMMS 7 ± 2 ± 8 ± 3 ± 4 ±
-7-
中国科技论文在线
表 6 Emotions数据集上 GSL、MLKNN和 DMMS反 10折分类效果(均值+标准差)
Table 6 Reverse 10-fold cross validation results (mean+SD) of GSL, MLKNN and DMMS on Emotions dataset
方法 汉明损失 1-错误率 覆盖率 排序损失 平均精度
GSL ± ± ± ± ±
MLKNN ± ± ± ± ±
DMMS ± ± ± ± ±
表 7 Scene数据集上 GSL、MLKNN和 DMMS反 10折分类效果(均值+标准差)
Table 7 Reverse 10-fold cross validation results (mean+SD) of GSL, MLKNN and DMMS on Scene dataset
方法 汉明损失 1-错误率 覆盖率 排序损失 平均精度
GSL 0 ± 7 ± 0 ± 7 ± 2 ±
MLKNN 3 ± 3 ± 5 ± 4 ± 2 ±
DMMS 8 ± 1 ± 2 ± 4 ± 7 ±
类似的结果可以从第二组实验看到,DMMS 在 Scene 数据集上的各项指标值依然都要
略好于其他两个方法,并且在 Yeast数据集的 hamming loss指标上取得了略好于其他方法的
结果,由原来的第二位上升到了第一位。此外,因为第二组实验中已标签数据的数目下降为
原来的一半,所有方法在各个指标上的值都略为变差。DMMS和 GSL作为半监督学习方法,
相较于MLKNN受该方面的影响比较轻微。比如,对比 DMMS方法在 Scene数据集上两次
的实验结果,基本上没有很大变化,平均精度都维持在了 上。
总之,上述实验说明 DMMS作为多标签半监督学习方法可以有效地从无标签样本中学
习,并且适用于多标签学习问题。
5 结 论
在希尔伯特-施密特独立性(Hilbert-Schmidt independence criterion,HSIC)的基础上提出
了最大化依赖性多标签半监督学习方法。该方法是一种多标签半监督学习方法,具有实现简
单且无参等特点。在 Scene等真实数据库上的实验表明,最大化依赖性多标签半监督学习方
法具有类似于其他多标签方法的学习效果,甚至有可能在已标签样本稀少的情况下略好于其
他方法。本文中的最大化依赖性多标签半监督学习方法只对高斯核的学习效果做了研究和实
验,未来将对不同的核在更多数据集上的学习效果做进一步的研究和实验。
参考文献 (References)
[1] Zhou Dengyong, Bousquet O, Lal T N, et al. Learning with local and global consistency [C]// Auer P and
Meir P. 18th Annual Conf on Neural Information Processing Systems. Cambridge: MIT Press, 2004: 321-328.
[2] Wang Fei, Wang Jingdong, Zhang Changshui, et al. Semi-supervised classification using linear neighborhood
propagation [C]//Raid Hammond. IEEE Conference on Computer Vision and Pattern Recognition. New York City:
IEEE, 2006: 160-167.
[3] Chapelle O, Scholkopf B, Zien A. Semi-supervised learning [M]. Cambridge: MIT Press, 2006: 333-341.
[4] Read J, Pfahringer B, Holmes G, et al. Classifier chains for multi-label classification [J]. Mach Learn, 2011,
85(3): 333-359.
[5] Tsoumakas G, Ioannis V. Random k-labelsets for multi-label classification [J]. IEEE Trans Knowl Data Eng,
2011, 23(7): 1079-1089.
[6] Zhang Minling, Zhou Zhihua. A k-nearest neighbor based algorithm for multi-label classification
[C]//Andrzej Skowron. 1st IEEE International Conference on Granular Computing. NY: IEEE, 2005:718-721.
[7] Zha Zhengjun, Mei Tao, Wang Jingdong, et al. Graph-based semi-supervised learning with multiple labels [J].
J Visual Commun Image Represent, 2009, 20(2): 97-103.
[8] Chiang T H, Lo Hung Yi, Lin Shoude. A ranking-based KNN approach for multi-Label classification [J]. J
Mach Learn Res-Proc Track, 2012, 25: 81-96.
[9] Hardoon D R, Szedmak S, Taylor J S. Canonical correlation analysis: An overview with application to
learning methods [J]. Neural Comput, 2004, 16(12):2639-2664.
[10] Gretton A, Smola A, Bousquet O, et al. Kernel constrained covariance for dependence measurement [C]//
Ghahramani Z, Cowell R. 10th International Workshop on. Artificial Intelligence and Statistics. USA: Society for
Artificial Intelligence and Statistics, 2005: 12-23.
-8-
中国科技论文在线
[11] Gretton A, Bousquet B, Smola A, et al. Measuring statistical dependence with Hilbert-Schmidt norms [C]//
Jain S, Simon H U, et al. 16th International Conference on Algorithmic Learning Theory. Berlin: Springer Verlag,
2005: 63-77.
[12] Zhang Y, Zhou Z H. Multi-label dimensionality reduction via dependency maximization [C]//In:
Proceedings of the 23rd AAAI Conference on Artificial Intelligence. New York: IEEE Computer Society, 2008:
1503-1505.
[13] Zhang Yin, Zhou Zhihua. Multi-label dimensionality reduction via dependency maximization [C]// Mark B,
Maria F, and Sylvie T. the 23rd AAAI Conference on Artificial Intelligence. New York: IEEE Computer Society,
2008:1503~1505.
[14] Zhang Kun, Peters J, Dominik J, et al. Kernel-based conditional independence test and application in causal
discovery [EB/OL]. [2013-08-20].
[15] Grigorios T, Eleftherios S, Jozef V, et al. MULAN: a java library for multi-label learning [J]. J Mach Learn
Res, 2011, 12(7): 2411-2414.
[16] Schapire R E, Singer Y. Boostexter: a boosting-based system for text categorization [J]. Mach Learn, 2000,
39 (2-3): 135-168.