Statistique & recherche clinique

L'analyse statistique fait partie intégrante du protocole clinique ou expérimental. L'analyse statistique devrait être décidée a priori pour être scientifiquement et éthiquement correctes (1) et idéalement figurer dans le protocole soumis au Comité d'Ethique. Cependant, il n'est pas dans le chef du Comité d'Ethique d'interdire de tester a posteriori des hypothèses complémentaires qui pourraient surgir de l'examen des données, d'autres publications, ou de sérendipité. Le libre choix est laissé au chercheur ou à l'investigateur.

Quelques règles de bonnes pratiques statistiques

Il faut distinguer clairement le terme "variable" du terme "paramètre":

  • Une variable peut prendre différentes valeurs pour un sujet ou une unité expérimentale et est donc mesurée ou dérivée (par exemple: l'âge, le sexe... ).
  • Un paramètre est un résumé de plusieurs variables mesurées et est donc calculé (par exemple: une moyenne, une médiane).

L'analyse statistique doit décrire comment les variables seront présentées:

  • Les variables continues seront d'abord testées pour vérifier si elles sont distribuées normalement ou non à l'aide d'un test de normalité (test de Shapiro-Wilk, test de KolmogorovSmirnov...). Si elles sont gaussiennes, les variables peuvent être représentées en moyenne ± écart-type (ou erreur standard de la moyenne). Si non, les variables seront présentées en médiane (espace interquartile).
  • Les variables catégorielles seront présentées en pourcentage ou telles quelles.

Les tests de comparaison de deux ou plusieurs groupes  se conformeront à l'analyse de la distribution des données reprise ci-dessus:

  • Tests paramétriques (test t de Student, ANOVA paramétrique, r de Pearson... ).
  • Tests non-paramétriques (test de Mann-Whitney, test de Wilcoxon, test de Kruskall-Wallis, test de Friedman, r de Spearman... ) (2).

Les modèles multivariables (linéaire, logistique, de Poisson ou de Cox) spécifieront les variables testées associées à la variable prédite et les conditions d'application de ces modèles (3). Ne pas confondre une analyse multivariable et une analyse multivariée.

  • Dans une analyse multivariable, il n'y a qu'une seule variable prédite, un seul y (par exemple: régression de Cox, régression de Poisson... ).
  • Dans une analyse multivariée, il y a plusieurs variables prédites, plusieurs y's (par exemple: analyse en composantes principales, analyse discriminante... ).

L'analyse des séries temporelles spécifieront l'analyse et les tests utilisés. Avant de décider de la présence d'un rythme, la "randomness" de la série doit être testée. Un test d'autocorrélation sera utile pour déterminer si cette série est amortie ou non.

Concernant les bases de données, la préférence sera donnée au data mining (Knowledge Discovery in Database, KDD) plutôt qu'à une analyse à l'aveugle sans précautions (data fishing, data dredging, data snooping) (4).

Références

  • Tukey JW. Medical research: statistics and ethics. Science 1977;198:679-684.
  • Altman DG. Practical Statistics for Medical Research. Chapman & Hall, London, 1991, 611 pp.
  • Katz MH. Multivariable Analysis: a Practical Guide for Clinicians, 2nd edition. Cambridge University Press, Cambridge, 2006, 203 pp.
  • Data Mining: Concepts and Techniques. 2nd Ed. Han J, Kamber M. Editors. Elsevier 2006, 703 pp.