Recueil de recherches sur les victimes d’actes criminels, no 3
L’accès aux populations difficiles à joindre : l’é chantillonnage en fonction des répondants
Par Sidikat Fashola, Agente de recherche, Division de la recherche et de la statistique, Ministère de la Justice Canada
Selon Lauritsen et Archakova (2008), l’un des principaux défis de la recherche empirique sur les victimes d’actes criminels consiste à rassembler des données représentatives d’une population donnée de victimes. Pour différentes raisons d’ordre éthique et méthodologique, il est difficile de recruter des victimes pour participer à des études de recherche. L’échantillon le plus représentatif des victimes d’actes criminels est celui de l’Enquête sociale générale sur la victimisation, réalisée tous les cinq ans par Statistique Canada. Cette enquête s’intéresse exclusivement à la prévalence, aux types et aux conséquences fondamentales de la victimisation ainsi qu’aux facteurs de risque. Les chercheurs qui tentent de mieux comprendre les expériences que vivent les victimes par rapport au système de justice pénale et par rapport aux programmes et services qui leur sont offerts ou qui veulent mieux comprendre ce qu’est la victimisation doivent se tourner vers d’autres sources de données pour obtenir un portrait plus nuancé de la victimisation au Canada.
Le présent article porte essentiellement sur une méthode particulière de recrutement des populations difficiles à joindre. Il est important d’étudier ces populations si l’on veut par la suite orienter le processus d’élaboration de politiques fondés sur des données probantes. L’absence de données empiriques sur la ou les populations difficiles à joindre que l’on souhaite étudier risque de restreindre l’efficacité des politiques. Les populations difficiles à joindre comprennent des groupes pour lesquels il n’existe pas de liste exhaustive des membres de la population; ces groupes peuvent être répartis sur un grand territoire et il se peut qu’on ne sache rien à leur sujet. Parfois certains groupes tiennent beaucoup à la protection de leurs renseignements personnels; ils s’engagent peut-être dans des comportements illicites (par exemple, les consommateurs de drogues infectés au VIH, les travailleuses et travailleurs du sexe) ou se méfient peut-être de la culture dominante (par exemple, les travailleurs migrants sans papiers). Le présent article explique, en particulier, comment l’échantillonnage en fonction des répondants (EFR) a été utilisé récemment dans un projet de recherche entrepris par la Division de la recherche et de la statistique du ministère de la Justice du Canada sur les répercussions des crimes haineux sur les collectivités.
L’échantillonnage en fonction des répondants
L’échantillonnage en fonction des répondants utilise une méthode modifiée d’échantillonnage en boule de neige pour recruter les participants à la recherche (Heckathorn, 1997, 2002). L’échantillonnage en boule de neige, appelée aussi un échantillonnage par réputation, mise sur les relations personnelles des personnes interrogées pour réunir des renseignements sur d’autres répondants éventuels (Trochim, 2006). Dans l’échantillonnage en boule de neige, les échantillons initiaux ne peuvent pas être constitués au hasard. Ce genre de sondage peut donc être biaisé parce qu’il a tendance à attirer des participants plus coopératifs qui se portent volontaires pour faire partie de l’étude, alors que les sujets moins coopératifs sont exclus. Le sondage en boule de neige peut aussi être biaisé parce qu’il est possible que les participants essaient de protéger des amis en ne donnant pas leurs noms ou encore parce qu’ils ne recrutent que les amis qui présentent les mêmes caractéristiques qu’eux. De plus, comme les personnes sont recommandées à partir de réseaux, les personnes se situant à l’extérieur de ces réseaux sont exclues de l’échantillon (Heckathorn, 1997, 2002).
L’EFR ressemble à l’échantillonnage en boule de neige dans la mesure où les répondants recrutent leurs pairs et que les chercheurs conservent des données sur la constitution de l’échantillon, c’est-à-dire qui a recruté qui, ainsi que sur le nombre de personnes que chaque participant désigne comme faisant partie de son réseau social (Heckathorn, 1997, 2002). Contrairement à l’échantillonnage en boule de neige, l’EFR exige le recrutement direct de pairs par leurs pairs, fixe des quotas de recrutement[1] et prévoit un système de mesures incitatives pour le recrutement des pairs, selon lequel les répondants sont récompensés pour leur participation et pour la recommandation d’autres répondants possibles (Abdul-Quader et coll., 2006).
Comme l’échantillonnage en boule de neige, l’EFR est conçu comme un recrutement en chaîne. Le processus d’échantillonnage commence par la sélection d’un groupe de personnes en provenance de la population cible qui servent de « recruteurs ». Après avoir participé à l’étude, ces recruteurs se voient remettre un nombre fixe de coupons de recrutement qu’ils utilisent pour recruter, dans la population cible, d’autres personnes avec lesquelles ils ont déjà des relations. Chaque coupon de recrutement possède son propre code numérique. Les recruteurs doivent également préciser leur « degré »[2]. Après avoir participé à l’étude, ces nouveaux membres de l’échantillon reçoivent à leur tour le même nombre fixe de coupons qu’ils utilisent ensuite pour recruter d’autres participants. Les nouvelles recrues doivent aussi préciser leur « degré ». Ce processus d’échantillonnage se poursuit jusqu’à obtention de la taille désirée de l’échantillon (Heckathorn, 1997).
Le modèle mathématique sur lequel se fonde l’analyse de l’EFR permet d’éliminer certains biais habituellement associés à l’échantillonnage en boule de neige (Heckathorn, 1997, 2002). Le modèle mathématique à la base de l’EFR combine les principes de la théorie de la chaîne de Markov[3] et de la théorie des réseaux sociaux biaisés[4] en un cadre unique d’analyse des données. Le modèle mathématique à la base de l’EFR donne à penser que si le recrutement des pairs s’effectue par vagues suffisamment nombreuses, la représentativité de la population au sein de l’échantillon se stabilisera, et les vagues de recrutement ultérieures ne la modifieront que très peu. Ce processus est appelé « atteinte de l’équilibre » (Heckathorn, 1997, 2002). Dans l’EFR, le modèle de recrutement pondère mathématiquement l’échantillon et, ce faisant, crée un échantillon exempt des biais qui pourraient avoir été introduits du fait que les premiers répondants à partir desquels le recrutement s’est fait n’ont pas été choisis au hasard (Heckathorn, 1997, 2002). À l’intérieur de ce cadre, il devient possible d’obtenir des estimations non biaisées de la prévalence pour la population étudiée et de construire des intervalles de confiance[5] de part et d’autre de leur courbe (Salganik, 2006).
L’échantillonnage en fonction des répondants permet de recruter dans une population difficile à joindre des participants à la recherche. En plus de sa capacité de recruter dans des populations
difficiles à joindre des participants à la recherche, il y a un logiciel statistique spécialisé qui permet aux chercheurs d’analyser leurs données en utilisant le modèle mathématique à la base de l’EFR. Ce logiciel a pour nom : RDS Analytical Tool – RDSAT (l’outil d’analyse de l’EFR) (RDS Incorporated, 2006). La méthode de l’EFR a servi à étudier un large éventail de « populations difficiles à joindre », notamment les consommateurs de drogues par injection (Heckathorn et Rosenstein, 2002), les personnes atteintes du VIH (Frost et coll., 2006), les travailleuses et travailleurs du sexe (Johnston et coll., 2006) et les musiciens de jazz (Heckathorn et Jeffri, 2001, 2003). La méthode de l’EFR a été élaborée en 1997 par Douglas Heckathorn dans le cadre d’un projet de recherche sur la prévention du VIH qui était financé par le National Institute on Drug Abuse Connecticut et qui ciblait la population des consommateurs de drogues par injection dans différentes villes du Connecticut (Heckathorn, s.d.).
Avantages et inconvénients
Le recrutement à l’aide de la méthode de l’EFR donne aux chercheurs un accès systématique aux membres de populations difficiles à joindre qui, autrement, seraient inaccessibles. Parce que l’EFR est une méthode d’échantillonnage probabiliste, les chercheurs sont capables de fournir des estimations démographiques sans biais et d’en mesurer la précision. Cette méthode d’échantillonnage rend également possible un recrutement rapide parce que chaque participant devient un recruteur. Alors, pour chaque participant ultérieur, il existe une possibilité de croissance exponentielle du recrutement. Cela est particulièrement vrai lorsque les participants possèdent de vastes réseaux sociaux et des liens solides à l’intérieur de ces réseaux. La méthode de l’EFR peut être particulièrement utile dans le recrutement rapide de participants dans les zones urbaines densément peuplées (Abdul-Quader et coll., 2006).
La possibilité de recrutement rapide est un des avantages de la méthode de l’EFR, mais il se peut aussi que le recrutement soit très lent si les participants négligent de recruter leurs pairs. Différentes raisons expliquent pourquoi le recrutement peut être difficile, notamment la petite taille des réseaux, l’absence de relations étroites entre les membres de la population cible, les préoccupations concernant la protection des renseignements personnels ou une forte stigmatisation associée à la population cible. Par conséquent, les taux de recrutement sont parfois imprévisibles. L’une des solutions aux préoccupations concernant la confidentialité consisterait à offrir aux répondants des options de rechange qui leur permettraient de participer à la méthode choisie pour la collecte de données sans avoir à rencontrer les chercheurs en personne, par exemple les entrevues téléphoniques ou les questionnaires à remplir soi-même en ligne.
D’autres inconvénients de la méthode de l’EFR ont trait aux difficultés qui peuvent surgir lors de l’analyse des données réunies. Par exemple, puisque la méthode de l’EFR doit tenir compte d’une pondération en fonction de la taille des réseaux et des modalités de recrutement, la force statistique de l’échantillon appliquée à la population cible diminue si les participants ne recrutent que des personnes présentant les mêmes caractéristiques qu’eux-mêmes. De plus, l’outil d’analyse de l’EFR ne fournit que des estimations statistiques de base, telles que les estimations des proportions de la population, et n’a pas la capacité d’analyser des statistiques plus compliquées, comme la taille requise de l’échantillon, les effets du plan de sondage et la signification statistique entre les groupes. Qui plus est, les chercheurs qui utilisent la méthode de l’EFR ignorent souvent le fait que leurs données ont été recueillies à l’aide d’un plan d’échantillonnage complexe et construisent des intervalles de confiance comme s’ils disposaient d’un échantillon aléatoire. C’est ce qu’on appelle la « méthode naïve » (Salganik, 2006, 100).
Pour évaluer la taille requise de l’échantillon, Salganik (2006) propose de sélectionner, pour la méthode de l’EFR, un échantillon deux fois plus grand que celui qui serait nécessaire dans le cas d’un échantillonnage aléatoire simple. Il propose également d’employer une méthode d’autoamorçage pour compenser la « méthode naïve » inhérente à l’EFR. L’autoamorçage est une méthode d’échantillonnage consistant à échantillonner de nouveau à maintes reprises les données obtenues d’un échantillon initial. Vous pouvez produire n’importe quel nombre de nouveaux échantillons et calculer les statistiques pour chaque nouvel échantillon (Howell, 2002). Les valeurs statistiques moyennes de tous les nouveaux échantillons sont utilisées pour évaluer l’exactitude des statistiques se rapportant à l’échantillon initial. La méthode de l’autoamorçage n’est peut-être pas toujours exacte, car les intervalles de confiance sont construits pour une population imaginaire, mais elle est encore présentée par certains comme étant supérieure à la méthode naïve parce que les nouveaux échantillons sont créés de façon aléatoire.
Étude des répercussions des crimes haineux sur les collectivités
Le but premier de cette étude était de comprendre les répercussions des crimes haineux sur différentes collectivités – collectivités géographiques, ethniques, raciales ou identitaires. Le plan de recherche comportait deux études de cas où les crimes commis étaient prétendument motivés par la haine.
La première étude de cas était une agression avec violence contre un réfugié soudanais perpétrée par un groupe d’une dizaine d’hommes au parc Victoria, à Kitchener, en Ontario, en 2006. La seconde étude de cas était l’agression par deux hommes d’un Sino-Canadien qui pêchait près du pont Mossington sur la rivière Black, à Sutton dans la ville de Georgina. Cet incident faisait partie d’une série d’agressions perpétrées contre des pêcheurs sino-canadiens sur le lac Simcoe, à Georgina.
Des données ont été réunies aux deux endroits où s’étaient produits les incidents, c’est-à-dire dans la région de Kitchener-Waterloo et dans la région du Grand Toronto. À chacun de ces endroits, deux collectivités principales ont été sélectionnées pour la collecte de données. Au premier endroit, les données ont été recueillies auprès de la « collectivité identitaire africaine » de Kitchener-Waterloo (personnes appartenant au groupe racial et ethnique de la victime) et auprès de la « collectivité géographique de Kitchener » (personnes vivant dans la région de Kitchener, en Ontario). Au deuxième endroit, les données ont été recueillies auprès de la « collectivité identitaire chinoise » de la région du Grand Toronto (personnes appartenant au groupe racial et ethnique de la victime) ainsi qu’auprès de la « collectivité géographique de Georgina » (personnes vivant dans la région de Georgina, en Ontario).
Un sondage a été réalisé auprès des collectivités géographiques et identitaires. À la suite d’une description de l’incident prétendument motivé par la haine, le questionnaire contenait un certain nombre de questions au sujet des « répercussions de l’événement » (Marren, 2005) sur la collectivité. En l’absence de liste exhaustive de tous les membres des collectivités identitaires selon la race ou l’origine ethnique, pour les besoins de l’échantillon aléatoire simple, c’est la méthode de l’EFR qui a été retenue pour cette étude. L’outil d’analyse de l’EFR a été utilisé pour analyser les données, car cet outil permet aux chercheurs d’établir des estimations de la prévalence pour la population étudiée et de construire des intervalles de confiance. En utilisant seulement un échantillon de personnes appartenant à chacune des collectivités identitaires, on pouvait tirer des conclusions concernant les populations des collectivités identitaires avec un degré plus élevé de fiabilité statistique que celui qu’il aurait été possible d’obtenir sans la méthode d’autoamorçage. L’échantillonnage aléatoire stratifié a servi à générer un échantillon statistiquement fiable pour les collectivités géographiques.
À l’aide du recrutement par EFR (c’est-à-dire du recrutement en chaîne), l’étude a commencé par cinq premiers répondants (les « recruteurs ») dans chacune des deux collectivités identitaires – la collectivité identitaire africaine et la collectivité identitaire chinoise. Quatre coupons étaient remis à ces recruteurs afin qu’ils puissent recruter chacun quatre nouveaux participants dans leurs réseaux sociaux respectifs (lien). Les quatre participants recommandés recevaient à leur tour quatre coupons chacun qui devaient leur servir à recruter quatre participants supplémentaires. Il a fallu cinq vagues de recrutement pour établir l’échantillon. En guise de récompense pour leur participation, les répondants avaient la possibilité de participer à un tirage au sort pour gagner un prix.
En règle générale, un niveau de confiance de 95 % est considéré statistiquement fiable. Dans la plupart des cas, il faudrait constituer un échantillon de 400 participants pour chaque collectivité identitaire. Il s’est révélé difficile de constituer un échantillon de 400 participants pour chaque collectivité identitaire parce que de nombreux participants refusaient de fournir les coordonnées de leurs amis. De plus, les répondants semblaient peu motivés à communiquer avec leurs amis au nom des chercheurs. Au total, 196 personnes de la collectivité identitaire africaine de Kitchener et 288 personnes de la collectivité identitaire chinoise de la région du Grand Toronto ont répondu au questionnaire d’enquête.
Conclusion
L’EFR est une méthode d’échantillonnage utilisée dans les situations où les chercheurs tentent d’étudier des populations difficiles à joindre. L’EFR combine « l’échantillonnage en boule de neige » avec un modèle mathématique qui pondère l’échantillon de façon à en supprimer les biais qui pourraient y avoir été introduits par le choix non aléatoire des premières personnes recrutées. Il devient alors possible de produire des estimations moins biaisées de la prévalence et de construire des intervalles de confiance de part et d’autre de leur courbe.
L’EFR est une méthode d’échantillonnage relativement nouvelle et, au fur et à mesure que son utilisation s’accroîtra, les chercheurs en connaîtront de mieux en mieux les possibilités et les limites. Dans la présente étude, l’EFR n’a pas éliminé tous les défis que pose le recrutement de victimes d’actes criminels; dans certains cas, les participants potentiels ne faisaient pas confiance aux chercheurs ou ne voulaient tout simplement pas parler de l’incident qu’ils avaient vécu. Le recrutement demeurait donc difficile. Mais l’utilisation de l’EFR a contribué à augmenter la fiabilité statistique de l’échantillon comparativement à l’échantillonnage en boule de neige. La méthode de l’EFR a également permis de tirer des conclusions statistiquement plus fiables au sujet des répercussions des crimes haineux sur les collectivités identitaires. En soi, ces avantages portent à croire que l’EFR est une méthode dont l’utilisation devrait être considérée plus sérieusement par les chercheurs qui souhaitent étudier des populations difficiles à joindre. v
Références bibliographiques
- Abdul-Quader, Abu S., Douglas. D. Heckathorn, Keith Sabin et Tobi Saidel. 2006. « Implementation and Analysis of Respondent-Driven Sampling: Lessons Learned from the Field »,Journal of Urban Health: Bulletin of the New York Academy of Medicine, vol. 83, no 7, p. 1-5.
- Frost, Simon D. W., Kimberly C. Brouwer, Michelle A. FirestoneCruz, Rebeca Ramos, Maria Elena Ramos, Remedios M. Lozada, Carlos Magis-Rodriguez et Steffanie A. Strathdee. 2006. « Respondent-Driven Sampling of Injection Drug Users in Two U.S.–Mexico Border Cities: Recruitment Dynamics and Impact on Estimates of HIV and Syphilis Prevalence »,Journal of Urban Health: Bulletin of the New York Academy of Medicine, vol. 83, no 7, p. 83-97.
- Heckathorn, Douglas D. 1997. « Respondent-Driven Sampling: A New Approach to the Study of Hidden Populations »,Social Problems, vol. 44, no 2, p. 174-199.
- Heckathorn, Douglas D. 2002. « Respondent-Driven Sampling II: Deriving Valid Population Estimates from Chain-Referral Samples of Hidden Populations »,Social Problems,vol. 49, no 1, p. 11-34.
- Heckathorn, Douglas D., et Joan Jeffri. 2001. « Finding the Beat: Using Respondent-Driven Sampling to Study Jazz Musicians »,Poetics, vol. 28, p. 307-329.
- Heckathorn, Douglas D., et Joan Jeffri. 2003. « Social Networks of Jazz Musicians », dansChanging the Beat: A Study of the Worklife of Jazz Musicians,Volume III: Respondent-Driven Sampling, National Endowment for the Arts Research Division Report no. 43, 48-61, Washington (DC), National Endowment for the Arts.
- Heckathorn, Douglas D., et Judith E. Rosenstein. 2002. « Group Solidarity as the Product of Collective Action: Creation of Solidarity in a Population of Injection Users »,Group Cohesion, Trust, and Solidarity, vol. 19, p. 37-66.
- Heckathorn, Douglas D. n.d.Respondent-Driven Sampling. Sur Internet : http://www.respondentdrivensampling.org. (En anglais seulement)
- Howell, David C. 2008.Méthodes statistiques en sciences humaines,Bruxelles, De Boeck.
- Johnston, Lisa, Keith Sabin, Mai Hien et Pham Huong. 2006. « Assessment of Respondent-Driven Sampling for Recruiting Female Sex Workers in Two Vietnamese Cities: Reaching the Unseen Sex Worker »,Journal of Urban Health: Bulletin of the New York Academy of Medicine, vol. 83, no 7, p. 16-28.
- Kendall, Carl. 2006.Respondent-Driven Sampling,Document présenté à FIOCRUZ, La NouvelleOrléans.
- Lauritsen, Janet L., et Ekaterina Archakova. 2008. « Advancing the Usefulness of Research for Victims of Crime »,Journal of Contemporary Criminal Justice, vol. 24, no 2, p. 92-102.
- MARREN, Joan. 2005. « Horowitz's Impact of Event Scale an Assessment of Post-Traumatic Stress in Older Adults »,MedSurg Nursing, vol. 14, no 5, p. 329-331.
- RDS Incorporated. 2006.RDS Analysis Tool v5.6 User Manual, Ithaca (New York), RDS Incorporated.Sur Internet : http://www.respondentdrivensampling.org/reports/RDSAT_56_Manual.pdf (En anglais seulement) (consulté le 14 juillet 2009).
- Salganik, Matthew J. 2006. « Variance Estimation, Design Effects, and Sample Size Calculations for Respondent-Driven Sampling »,Journal of Urban Health: Bulletin of the New York Academy of Medicine,vol. 83, no 7, p. 98-112.
- Trochim, William M. K. 2006.Research Methods Knowledge Base.Sur Internet : http://www.socialresearchmethods.net/kb/sampnon.php (consulté en février 2007).
- Date de modification :