Les indicateurs deviennent des éléments incontournables du fonctionnement de la recherche, que ce soit au niveau des structures, des orientations stratégiques ou des financements. Ce n'est que très compréhensible. Cependant, certains indicateurs comme le facteur d'impact des journaux (FIJ) ont acquis une influence démesurée qui justifie que l'on se penche plus que l'on ne l'a fait jusqu'à présent sur ce qu'il recouvre.
À travers une revue de la littérature sur le sujet et de tests réalisés par eux-mêmes, les membres de la commission d'évaluation de l'INRIA ont souligné les faiblesses de ces données chiffrées trop facilement utilisées sans recoupements et ont émis quelques recommandations liées à leur usage. Voici, résumé sous forme de réponses à quelques questions, l'essentiel de leur contribution.
1. Qu'est-ce qu'un indicateur ?
2. Les sources sont-elles fiables ?
3. Comment comptabiliser les citations ?
4. Les indicateurs donnent-ils bien l'information voulue ?
5. Y a-t-il des dommages collatéraux ?
6. Quelles précautions prendre ?
7. Pour en savoir plus
1. Qu'est-ce qu'un indicateur ?
Les indicateurs bibliométriques sont pour la plupart établis à partir de l'analyse de citations, c'est-à-dire la partie finale d'un article scientifique consacrée aux références utilisées par l'auteur pour écrire son article. Le recueil des citations est un travail colossal. Il se fait à partir de bases de données d'articles. Une requête permet dans un premier temps de trouver les articles mentionnés dans les références et d'établir ainsi une base de citations. Cette dernière est ensuite utilisée pour calculer un certain nombre d'indicateurs supposés refléter l'impact des articles publiés par un chercheur, un laboratoire ou une institution, voire la qualité du travail publié. Tout indicateur reposant sur les citations fait donc l'hypothèse qu'une citation est toujours positive (le travail est digne de louange), ce qui est loin d'être le cas dans la littérature scientifique.
2.Les sources sont-elles fiables ?
Les principaux fournisseurs étudiés dans le rapport de la commission d'évaluation sont la société commerciale Thomson ISI — la plus ancienne (1960) qui publie annuellement son Journal Citation Report (JCR) (Science Citation Index pour sa version papier) à partir du Web of Science (WoS) —, Scopus, lancé par Elsevier en 2004, et quelques unes des plus importantes sources gratuites dont Citeseer, spécialisée en informatique, Google Scholar et Citebase.
Le premier élément qui frappe, sans toutefois surprendre vu l'ampleur de la tâche, est le recouvrement très disparate des domaines de recherche selon les bases malgré le grand nombre de titres pris en considération :
ISI-WoS couvre mieux les sciences dures (80%) que les sciences du vivant, et mieux les sciences fondamentales qu'appliquées. Elle n'analyse cependant que 8 700 journaux alors qu'en 1999 on estimait à 100 000 le nombre de revues scientifiques dont 25 000 rien que dans le domaine médical. Des publications importantes dans certains domaines, comme les actes de conférences, les articles publiés dans des journaux en accès ouvert ou dans les archives ouvertes ou les pages personnelles, ne sont pas ou mal pris en compte, tout comme les livres ou chapitres de livres. Les revues couvertes sont principalement anglosaxones : en 2005, 98,74% des articles analysés sont en anglais, 0,234% en français, 0,205 en chinois et 0,09 en japonais.
On retrouve peu ou prou les mêmes faiblesses de couverture dans les autres bases : Scopus analyse 15 000 titres et 12 850 journaux et 125 séries de livres avec cependant une meilleure couverture pour l'ingénierie et une meilleure répartition géographique (60% ne provenant pas des États-Unis). CiteSeer porte sur 1 200 journaux et conférences en informatique. La couverture de Google Scholar est très variable selon les domaines, les sources sont mal connues et la particularité de Citebase est de prendre en compte aussi bien les citations que le nombre de téléchargements des articles de quelques unes des archives ouvertes.
Le problème de la couverture est important car il arrive que la base ne prenne pas en compte une publication pourtant centrale pour une spécialité. En conséquence les journaux d'informatique, par exemple, classés comme meilleurs par la base spécialisée CiteSteer se retrouvent en très mauvais classement dans son domaine par WoS : le premier arrive 26e, le 4e est 122e. Ces classements sont par ailleurs sensiblement différents du classement qui serait réalisé par des experts du domaine, comme les scientifiques du comité d'évaluation en ont fait l'expérience pour une de leur spécialité, la robotique.
3. Comment comptabiliser les citations ?
Compter le nombre de citations à attribuer à un auteur, un journal ou une institution pose de nombreux problèmes techniques : un article peut avoir plusieurs auteurs — les citations peuvent être attribuées au seul éditeur d'un livre ou attribué à chacun des auteurs d'un article —, les homonymies peuvent augmenter ou diminuer les articles attribués à une personne pour peu que son nom soit assez courant, l'identification des journaux est rendue difficile par la variations dans les abréviations, les affectations multiples des chercheurs compliquent le travail des indexeurs, sans compter les abréviations différentes qui peuvent attribuer des articles à des institutions différentes alors qu'il s'agit en réalité du même — par exemple 4 chercheurs tests de l'INRIA totalisent jusqu'à 9 appellations différentes (INRIA, Loria, INRIA Rennes - Bretagne Atlantique, ...) dans WoS.
Pour les sources gratuites, le traitement automatique des données renforce le problème : un prénom commençant par la même lettre, les lettres accentuées, l'ordre du nom et du prénom, etc. sont autant de sources d'erreur dans l'attribution des citations.
La couverture nécessairement limitée des bases de citations et les difficultés d'indexation se manifestent ouvertement si on compare les résultats obtenus pour les mêmes requêtes sur ces différentes bases. Le nombre de citations fournies sont souvent très différents : par exemple Scopus a proposé 35% de citations de plus que le WoS et Google Scholar 160% de plus pour 25 chercheurs renommés en science de l'information. Le nombre de citations fournies est également peu représentatif des articles effectivement cités : en examinant ses propres citations dans le Web of Science, Nisonger a trouvé que cette base contenait 28.8% du total des citations de ses publications, 42.2% des citations de ses articles de journaux, 20.3% des citations dans des supports non américains et 2.3% des citations de ses articles non écrits en anglais. Ces pourcentages varient de plus dans des proportions différentes selon les domaines de recherche concernés.
L'incohérence des sources jette clairement un doute sur la valeur des indicateurs qui sont publiés à partir d'elles, quelle que soit leur qualité théorique. On peut de surcroît se poser la question de la validité de publier un indicateur avec 3 décimales alors que l'on est susceptible d'avoir omis plus de 20% des citations des journaux traités et que cette incertitude va jouer dès la première décimale de l'indicateur.
4.Les indicateurs donnent-ils bien l'information voulue ?
L'évaluation de la qualité scientifique d'un article est un problème délicat. Une approche simple consiste à relier la qualité d'un article à la qualité du support dans lequel il a été publié.
On substitue ainsi une évaluation du support (le plus souvent un journal scientifique) à une évaluation individuelle, ce qui évidemment simplifie énormément le travail puisqu'il y a bien moins de supports que d'articles. Mais est-ce pertinent ?
L'indicateur inventé au début des années 1960 par l'ISI pour classer les journaux et le plus utilisé aujourd'hui est le Journal impact factor (JIF). L'impact d'un journal à l'année n est défini comme le rapport entre le nombre de citations dans l'année n d'articles du journal parus dans les années n-1 et n-2, et le nombre total d'articles publiés pendant ces deux années.
Le premier biais relevé par le rapport est que le classement des journaux ainsi obtenu ne permet pas de comparer des domaines de recherche différents. La limitation à deux ans a pour effet de favoriser les domaines à évolution rapide pour lesquels un travail de plus de deux ans d'âge est déjà obsolète. De ce fait, les publications en biologie moléculaire ont un indice plus fort que les publications en mathématiques, par exemple en 2005 le JIF moyen pour 140 journaux de mathématique et de génétique variait d'un facteur 10. L'article d'Andrew Wiles sur le théorème de Fermat ne contient que 4 références sur 84 à des publications de moins de deux ans. Sans parler des pratiques de citations qui peuvent varier fortement d'un domaine à un autre, par exemple le taux moyen de citation en 2000 en pharmacologie était de 11 alors qu'en génétique il était de 28. D'autres facteurs encore peuvent influencer de manière arbitraire le JIF, comme la taille de la communauté ou la nature du matériel publié et le degré de spécialisation des journaux (plus ils sont généralistes, plus ils ont un JIF fort).
D'autres indices ont été proposés : l'indice d'immédiateté, calculé sur un an seulement, ou la demi-vie des citations qui fournit une information sur la pérennité des recherches dans un domaine (nombre d'années j tel que 50% des citations de l'année n sont antérieures à l'année n-j et 50% ultérieures). Ces indices ne sont cependant pas indépendants du JIF, puisque mécaniquement des publications à faible demi-vie auront un fort JIF mais ils les complètent.
Par ailleurs, le rapport note qu'il est difficile d'utiliser le JIF pour évaluer les laboratoires. Le rapport du CWTS de l'université de Leiden par exemple montre que la corrélation entre l'évaluation par les pairs de 42 laboratoires en informatique hollandais établie par le Review Committee for Computer Science de la Quality Assurance Netherlands Universities (QANU) a une corrélation faible avec les indicateurs.
Il n'est pas non plus approprié pour estimer la valeur des auteurs qui écrivent dans un journal dans la mesure où, même pour les journaux à fort JIF, les citations proviennent d'au plus 15% des articles publiés ; le JIF ne mesure donc pas vraiment la qualité d'un article ou d'un auteur spécifique. Les exemples sont nombreux d'articles publiés dans un journal avec un JIF faible et constituant pourtant une contribution majeure à la science contemporaine et, à
l'inverse, d'articles de mauvaise qualité, ou purement polémistes, publiés dans des journaux avec des JIF élevés.
En conséquence une tendance actuelle (souvent critiquée d'ailleurs par les bibliométriciens professionnels) est de proposer des indicateurs censés mieux évaluer la qualité scientifique du travail d'un individu. Le plus célèbre est le nombre H proposé par J.E. Hirsch pour évaluer la valeur d'un chercheur et prendre des décisions sur son recrutement par exemple. C'est le nombre h d'articles de l'auteur qui ont été cités au moins h fois chacun. L'avantage est que cet indice peut être facilement obtenu par WoS en utilisant l'ordre times cited. Cependant, tout comme le JIF, le nombre H varie selon les disciplines — il tend à être plus élevé en biologie qu'en physique par exemple — et présente les mêmes difficultés à établir puisque calculé à partir des mêmes bases (problème d'homonymie, etc) en donnant des résultats très différents selon les bases. Par ailleurs, certaines études ont noté que le nombre H est corrélé avec l'âge, qu'il peut substantiellement augmenter même si le chercheur n'est plus actif depuis longtemps, qu'il est sous-estimé pour les chercheurs ayant publié des livres et qu'il ne met pas en valeur les contributions très importantes d'un auteur notamment.
Un certain nombre de variantes de cet indice ont été proposées pour combler ces lacunes – le a-index (nombre moyen de citations pour les articles retenus dans le calcul du nombre H) et le g-index (nombre g d'articles dont la somme des nombres de citations est au moins g2 (un g-index de 10 indique que l'auteur a écrit 10 papiers dont la somme des citations est au moins de 100) mais sans étude sérieuse de leur fiabilité il est douteux de s'y fier.
D'autres indicateurs comme le
crown indicator ou le
Top 5% ont été avancés pour tenter de corriger les biais des principaux indicateurs utilisés, notamment pour prendre en compte les spécificités des domaines scientifiques. Ils se calculent néanmoins à partir des mêmes bases de citations et se heurtent donc toujours à l'imprécision des sources. Un problème supplémentaire est lié à la définition des domaines scientifiques ; il faut en particulier déterminer le degré de spécialisation adopté pour améliorer la fiabilité de l'indicateur.
L'étude systématique entreprise sur quatre chercheurs de l'INRIA internationalement reconnus montre que les biais et insuffisances constatées dans les indicateurs ne sont pas des exceptions mais plutôt la règle, au moins pour ce qui concerne l'informatique au sens large.
5. Y a-t-il des dommages collatéraux ?
L'usage intensif, voire exclusif, des indicateurs peuvent pousser les acteurs de la recherche, qu'ils soient scientifiques ou éditeurs, à tenter d'augmenter leur score dans les indicateurs. Les journaux demandent de plus en plus fréquemment à leurs auteurs d'inclure des citations d'articles de leur journal dans les références bibliographiques. Les chercheurs publient leurs travaux par morceaux afin d'augmenter le nombre de leurs publications et peuvent adopter une stratégie d'auto-citation dans un groupe pour augmenter sensiblement le nombre H de chacun.
Outre qu'il est possible de jouer ainsi sensiblement sur les valeurs prises pour les indicateurs, leur usage de plus en plus fréquent dans l'évaluation des chercheurs a des conséquences néfastes pour la science et l'innovation. Du fait des biais dont souffre leur calcul, l'usage exagéré des indicateurs incite les jeunes chercheurs à obtenir des résultats rapidement au détriment de recherches de longue haleine et freine l'innovation en pénalisant la formation des petites communautés dans des domaines émergents.
6. Quelles précautions prendre ?
La commission d'évaluation termine son rapport par quelques recommandations sur l'utilisation de ces indicateurs dont la principale est de rejeter la tentation d'automatiser l'évaluation. Utiliser plusieurs indicateurs, faire revoir les listes de journaux par des experts capables d'identifier les journaux et conférences jugées importantes, et n'utiliser les indicateurs qu'en complément d'autres évaluations et pour détecter des tendances, sont quelques unes des recommandations listées. Ces recommandations générales sont accompagnées de suggestions liées à la spécificité de l'institut, en particulier la grande variété de ses appellations et adresses qui appelle un travail de normalisation afin de ne pas baisser artificiellement la valeur des indicateurs concernant l'institut. La commission rappelle à ce propos que l'OST a lancé le programme normadresses pour proposer à l'ISI une nomenclature cohérente des laboratoires français et mieux gérer les multi-affiliations et les co-signatures.
Pour en savoir plus :
Consultez le document d'analyse de la
Commission d'évaluation de l'INRIA
sur les indicateurs bibliométriques (PDF).