武书连2021世界大学论文引用胜者排名2000名以后的大学,陆续发布。
附件1:基于“胜者在前”原则的论文引用评价方法
基于“胜者在前”原则的论文引用评价方法
一、数据采集
《2021世界大学论文引用评价》共收集全世界7855所大学在14464种学术期刊2015-2019连续5年发表的论文之间相互引用数据,其中,国外期刊11290种、国内期刊3174种(含台港澳期刊)。14464源期刊均为雅学资讯网的SCD和SCDW期刊,网址:www.yaxue.net。
论文合作单位小于等于4的,按单位数量计算得分,大于4的,计算前4个单位得分,第5单位及其之后不计分。
计算公式:合作单位数为L时第j个单位对该论文得分Aj贡献如下:
Aj = qj / [1 q-(1 q)1-L]
1 ≤ j ≤ L ≤ 4, q = 0.618
引用论文合作单位同理,每篇论文最多计算4个合作单位。每篇论文被引用1次得1分。
得分举例1:某篇由清华大学(j=1)独立发表的论文,被另一篇由剑桥大学(j=1)独立发表的论文引用。
该两篇论文,被引论文作者单位数L=1,引用论文作者单位数L=1,根据计算公式清华大学得到剑桥大学1分。
得分举例2:某篇由北京大学(j=1)和哈佛大学(j=2)合作发表的论文,被另一篇由南京大学(j=1)、麻省理工学院(j=2)、浙江大学(j=3)合作发表的论文引用。
被引论文作者单位数L=2,根据计算公式北京大学得0.618分、哈佛大学得0.382分。
引用论文作者单位数L=3,根据计算公式南京大学得0.500分、麻省理工学院得0.309分、浙江大学得0.191分。
北京大学得到南京大学0.500×0.618=0.309分,得到麻省理工学院0.309×0.618=0.191分,得到浙江大学0.191×0.618=0.118分。
哈佛大学得到南京大学0.500×0.382=0.191分,得到麻省理工学院0.309×0.382=0.118分,得到浙江大学0.191×0.382=0.073分。
同样的方法计算出全世界7855所大学所有论文相互引用得分。
二、数据处理
统计所有大学相互引用得分后,当出现一所大学所有论文被另一所大学所有论文引用得分小于1时(即不到1次完整引用),将该引用值归为0,之后获得所有引用得分大于或者等于1的论文引用得分表。
基于各大学论文引用得分表,得到各大学相互引用的6种状态:
A:引用其它大学得分小于被其它大学引用得分;
B:引用其它大学得分等于被其它大学引用得分;
C:引用其它大学得分大于被其它大学引用得分;
以上引用与被引用得分都不为0。
D:引用其它大学得分等于0,被其它大学引用得分大于0;
E:引用其它大学得分等于0,被其它大学引用得分等于0;
F:引用其它大学得分大于0,被其它大学引用得分等于0;
以上引用与被引用得分中任何一项出现0。
统计各大学上述6种状态后,以6种状态的出现次数确定每所大学基础得分,所有大学基础得分初始均设为0。
当出现一次A,基础得分加1分,出现一次D,基础得分加1分;出现一次C或者F,基础得分减1分,出现一次E,基础得分减2分;出现B时,基础得分不变。
将所有大学基础得分降序排列,得到初始排名。
三、胜者在前评价原则
所有大学之间论文引用均为前述6种状态之一,故可设置一个评价指标,即大学间相互引用得分的比较。
例如,当牛津大学被东京大学引用得分大于东京大学引用牛津大学得分时,牛津大学胜了东京大学,牛津大学排在东京大学前面,反之排在东京大学后面。
基于这种比较,提出了胜者在前评价原则,即在相互引用方面,两个大学比较,被引用得分高的是胜者,胜者排在败者前面。不过在比较数千所大学时,大学间胜负关系并非单一的链状,而是交错的网状。假设某大学赢了当前排名第一的大学,却输给了其它所有大学,那将该大学的排名设置在哪个位置成为需要解决的问题。
因此,需要一个基于胜者在前原则的检验方法,即确定各大学合理位置的方法。
假设大学优秀与否的表现是连续而非离散的,即只赢个别排名靠前的大学不能作为被评为优秀大学的依据。基于此,通过计算各大学基础得分,量化整体表现,设置胜者在前检验对各大学进行迭代排名。迭代排名指的是,重复对排名进行特定操作,每一次对排名的特定操作称为一次“迭代排名”,而每一次迭代得到的新排名会作为下一次迭代的初始排名。
在进行胜者在前检验时,需要先明确检验范围的概念。检验范围指的是各大学在当前排名需要被检验的邻近范围,检验范围长度的一半称为检验半径。基于大学优秀与否的表现是连续的,对于任何大学,在其所在排名的检验范围内,胜过比它排名低的大部分大学并输给比它排名高的大部分大学,此时它当前的排名才是稳定的,否则就需要变动它的排名,这就是胜者在前检验。
胜者在前检验思想是,确定了整体表现的初始排名后,通过胜者在前检验进行迭代,最后能收敛到某个特定排名,这个特定排名是满足胜者在前检验的排名,也就是最终排名。
排名收敛:排名在迭代一定次数后,当不再发生变化或者是达到一个循环变化且步长较小的状态时,称之为排名收敛。
四、胜者在前评价过程
胜者在前检验方法
本次评价中不同排名对应不同检验半径:前100名的检验半径是当前排名减1;后100名的检验半径是被评价大学总数减当前排名;非前后一百名的检验半径是100。检验范围是从当前排名减检验半径到当前排名加检验半径。
对于任何一个大学,在检验范围内,输给比它当前排名在前的大学数量除以检验半径就是向上检验准确率,胜过比它当前排名低的大学数量除以检验半径就是向下检验准确率。
胜者在前迭代方法
根据初始排名S0,依次对每所大学做胜者在前检验,获得每所大学基于当前排名的向上检验准确率和向下检验准确率。当检验准确率大于等于55%时,称之为达标,即当前排名不变动。此时会出现三种情况:
(1)向上检验准确率和向下检验准确率都达标;
(2)向上检验准确率和向下检验准确率中有一个达标;
(3)向上检验准确率和向下检验准确率都不达标。
发生情况(1)时,该大学排名不变动。发生情况(2)时,若向上检验准确率不达标,则排名上升;若向下检验准确率不达标,则排名下降。发生情况(3)时,若向下检验准确率大于向上检验准确率,则排名上升;向下检验准确率小于等于向上检验准确率,则排名下降。
将所有大学迭代一次后,会得到新的排名,该新排名称之为S1。基于此迭代方式,将该初始大学排名S0连续迭代P次,使得S0变成SP。
定义动态平衡状态:对于已迭代P次后的排名SP,再迭代i次,SP i和SP排名相同,即SP i=SP(i≤50),则称SP处于动态平衡状态。
定义收敛:在迭代P次后,排名SP达到一个动态平衡状态时,将此情况称之为在P次收敛,并将SP作为最终结果。该最终结果SP称为胜者排名。
五、算法描述
定义:
SEi是i大学所有论文在7855所大学中,被引用总数的排名;
Abs(SEA,SEB)为B大学引用A大学的得分;
Uk是当前排名中第k名的大学。
1、数据处理中基础得分计算方法
计算任意大学M基础得分Sc时,先将大学M的初始基础得分设为0(Sc=0)
对于任意非M的其它大学Q,
当Abs(SEQ,SEM)和Abs(SEM,SEQ)都不等于0时:
如果Abs(SEM,SEQ)/Abs(SEQ,SEM)>1,Sc =1;
如果Abs(SEM,SEQ)/Abs(SEQ,SEM)=1,Sc =0;
如果Abs(SEM,SEQ)/Abs(SEQ,SEM)<1,Sc -=1。
当Abs(SEQ,SEM)和Abs(SEM,SEQ)中存在0时:
如果Abs(SEM,SEQ)>0,Abs(SEQ,SEM)=0,Sc =1;
如果Abs(SEM,SEQ)=0,Abs(SEQ,SEM)=0,Sc -=2;
如果Abs(SEM,SEQ)=0,Abs(SEQ,SEM)>0,Sc -=1。
遍历所有非M的其它大学从而计算出M的最终基础得分Sc。
2、胜者在前检验方法
定义:Total(T)为被评价的大学总数,R为检验半径,M为待检验大学,N为待检验大学的当前名次。
∀ N≤100,R=N-1;∀100,R=100;∀ T-99≤N,R=T-N。
定义:UpError(UE)为在N名次前R个大学中引用待检验大学得分大于被引得分的占比;DownError(DE)为在N名次后R个大学中引用待检验大学得分小于被引得分的占比。
UE为向上检验错误率(=1-向上检验准确率);DE为向下检验错误率(=1-向下检验准确率)。
遍历j∈(N,N R],I = Uj,如果Abs(SEi,SEM)>Abs(SEM,SEi)
或者Abs(SEi,SEM)=Abs(SEM,SEi)≠0,DE Num = 1。
DE = DE Num /R
遍历j∈[N -R,N),i = Uj,如果Abs(SEi,SEM)< Abs(SEM,SEi)
或者Abs(SEi,SEM)= Abs(SEM,SEi)≠0,UE Num = 1。
UE = UE Num /R
基于此检验方法,每所大学在当前排名都能得出对应的UE和DE
3、迭代方法
根据初始排名S0,依次对每所大学做胜者在前检验。对任意大学M,可以获取其当前排名N,并经过胜者在前检验计算出该大学当前排名的UE和DE。此时会出现三种情况:
(1)UE≤0.45 & DE≤0.45;
(2)(UE≤0.45 & DE>0.45)|(UE>0.45 & DE≤0.45);
(3)UE>0.45 & DE>0.45。
情况(1)该大学排名不动;情况(2)若UE>0.45则排名上升,若DE>0.45则排名下降;情况(3)若UE>DE则排名上升,UE≤DE则排名下降。
情况(2)迭代方式
UE>0.45:
第一步:UE>0.45则排名上升,H=N-3;
第二步:若H<100,则H=N-1;若H<0,H=0;
第三步:把大学M放到H位置上。
DE>0.45:
第一步:DE>0.45则排名下降,H=N 4;
第二步:若H<100,则H=N 1;
第三步:把大学M放到H位置上。
情况(3)迭代方式
UE>DE:
第一步:UE>DE则排名上升,H=N-2;
第二步:若H<100,则H=N-1;若H<0,H=0;
第三步:把大学M放到H位置上。
DE>UE:
第一步:DE>UE则排名下降,H=N 3;
第二步:若H<100,则H=N 1;
第三步:把大学M放到H位置上。
DE=UE:
第一步:DE=UE则排名下降,则H=N 1;
第二步:把大学M放到H位置上。
基于以上迭代方式,按当前排名从高到低依次遍历所有大学,记为一次完整的迭代,从而得到S1,S0即变成S1。基于上述的完整迭代,对S0连续迭代P次,使得S0变成SP。
当排名收敛到一个动态平衡状态时,即在迭代P次后,再迭代i次,SP i=SP(i<=50),将此称之为在P次收敛,并将SP作为最终结果。
附件2:他引总数前1000名大学,依据“胜者在前原则的论文引用评价方法”得到的胜者排名
(为方便同行重复检验依据“胜者在前原则的论文引用评价方法”得到的胜者排名,《中国大学评价》课题组向所有对本评价感兴趣的单位和个人,提供7855所大学论文他引总数前1000名的大学论文相互引用关系表。有需求的,请实名发邮件到作者信箱,或者用其他方式联系作者)。
他引总数前1000名大学论文引用胜者排名