lundi 16 septembre 2013

La chasse aux doublons est ouverte !


En généalogie, un doublon est un individu qui possède deux fiches ou davantage, au lieu d'une seule, dans une base de données. Il encombre donc inutilement celle-ci.

Les doublons surgissent au détour d'un acte dans lequel ils sont cités : parrains et marraines, témoins d'un mariage, personnes présentes à une sépulture, parfois même officiant religieux ou officier d'état civil. L'absence de détails (âge, métier, lien de parenté, lieu de résidence…) complique leur identification, d'autant plus s'ils n'ont pas apposé leur signature sur le registre !



Dès le début, j'ai pris l'habitude de saisir dans Heredis toutes les personnes citées dans les actes, mais j'ai un temps hésité entre deux attitudes :
  • La prudente, qui consiste à créer une nouvelle fiche si j'ai un doute sur l'identité de la personne,
  • La paresseuse, qui consiste à créer un lien avec une fiche existante, si les présomptions sont suffisantes (que celui qui ne l'a jamais fait me jette la première pierre).

Rassurez-vous, j'ai désormais compris que la première option était la seule acceptable. Mais si les doublons ont tendance à proliférer, comment arrêter ces envahisseurs ? Et d'abord, comment les repérer ?

Premier indice manifeste : les homonymes. Méfions-nous toutefois des prénoms qui se transmettent de père en fils ou de parrain à filleul, multipliant à plaisir, par exemple, les Mathurin Troussier (actuellement, une bonne douzaine dans mes ancêtres, clairement identifiés comme étant des personnes distinctes).

Deuxième indice : l'absence de dates clés, je veux dire par là les dates de naissance ou de baptême, de mariage, de décès ou de sépulture. Le cas est surtout fréquent sous l'Ancien Régime, les officiers d'état civil, notamment ceux de la deuxième moitié du XIXe siècle, étant moins avares en détails que les prêtres qui tenaient les registres paroissiaux. Cela peut se comprendre : le curé qui croisait ses ouailles tous les jours ne voyait pas la nécessité de préciser un lien qui lui paraissait évident.

J'ai donc décidé de faire le ménage dans mon arbre généalogique. Mais comment s'y prendre et par quel bout commencer ? Je viens de franchir le cap des 8 000 fiches et je me vois mal les éplucher une par une, dans l'ordre alphabétique où elles se présentent, précédées de quelques prénoms sans autre patronyme qu'un magnifique point d'interrogation (résultat de difficultés de lecture ou d'un curé négligent). Combien de jours, de mois, d'années peut-être, avant d'atteindre le dernier personnage de la liste ?

Je pense que je vais procéder branche par branche, en commençant par les plus fournies. Ce qui fait immédiatement surgir la question suivante : comment repérer les branches qui comprennent le plus d'individus ?

Dans Heredis, si je passe par le dictionnaire des noms, j'ai bien la fréquence d'utilisation de chaque patronyme, mais à condition de le sélectionner dans la liste. Trop long ! avec les variantes, il y en a actuellement 3 192 !

Dans Geneanet, j'obtiens quelque chose de plus satisfaisant, avec le chemin d'accès suivant : Voir mon arbre/Autour de l'arbre/Statistiques/Fréquence/Noms. Cela donne une liste de patronymes, classée par ordre décroissant de fréquence.

Le mieux consiste à combiner les deux approches : un premier tri dans Geneanet pour repérer les patronymes les plus fréquents et un passage par Heredis et sa palette "Individus", pour y incorporer les variantes (Laubret, mais aussi Laubré et Laubrette, par exemple). J'obtiens ainsi la liste de tous les individus porteurs du même nom, indépendamment des fantaisies introduites par les différents rédacteurs des actes.

Sans grande surprise, les patronymes qui se détachent nettement sont celui de mon père et celui de ma mère, puis celui des Troussier originaires de la Mayenne. À moi de jouer pour y traquer les doublons. Mais comment m'y prendre ?

Dans un premier temps, j'ai l'intention de rechercher les dates manquantes, en complétant les fratries, en recherchant les dates clés des collatéraux et alliés ainsi que celles de leurs parents et de leurs enfants. Cela devrait permettre d'éclaircir certains points, notamment tous ces individus indiqués dans les actes comme oncles et tantes, gendres, beaux-frères, cousins…

Ensuite, relire les actes pour peut-être y découvrir un détail qui m'aurait échappé : ce mot que je n'avais pas déchiffré dans un acte de baptême à la suite du nom du parrain, n'est-ce pas "orfevre" ? J'ai bien par ailleurs un homonyme marchand orfèvre, qui a épousé une tante de l'enfant…

Enfin, noter les points sur lesquels je bute et pourquoi : difficile d'identifier avec certitude les liens de parenté avec un parrain, une marraine, un témoin, lorsque les registres des vingt ou trente années précédentes ne sont pas disponibles. Je sais que je n'éliminerai jamais radicalement les doublons de ma base de données, mais je peux d'ores et déjà la nettoyer un peu.

Bon, voilà l'ébauche d'un programme pour les semaines à venir…

Et vous, comment faites-vous pour éliminer les doublons ?

10 commentaires:

  1. bonjour Dominique
    C'est un vrai problème que tu évoques là, et j'ai lu avec attention tes pistes de reflexion. Déjà je peux constater que je n'ai pas de mathurin Troussier :) nous n'aurons pas ce doublon en commun :)
    Je procède également par branche, avec l'utilisation des variantes dans Heredis pour essayer de m'y retrouver. J'aimerais un outil qui controle par rapport aux noms et aux dates quand on saisit un individu, avec des propositions. Peut etre avec Heredis 25 ?
    Pour l'instant, je dois nettoyer 3 ou 4 doublons par semaine et en créer une bonne dizaine, :(
    ps je vais jeudi aux archives de paris, si ca te tente :)

    RépondreSupprimer
    Réponses
    1. Merci Brigitte. Mon planning est un peu chargé, je pense que je n'aurai pas le temps de préparer ma visite aux Archives de Paris d'ici jeudi, mais ce sera avec plaisir une prochaine fois.

      Supprimer
  2. Bonjour Dominique,

    Dans Heredis, tu peux rechercher les doublons (Recherches / Rechercher les doublons. Tu peux ensuite choisir une limitation sur le nom ou scanner toute ta base. Heredis affiche en vis-à-vis les fiches des individus pour lesquels il pense qu'il y a un doublon. Tu peux ensuite choisir d'ignorer ou de fusionner.

    C'est une étape que je fais (enfin j'essaye !) une fois par mois, afin de ne pas me retrouver comme toi - car ce fut le cas et le temps passé à corriger m'a servi de leçon ;-)

    Bonne semaine !

    RépondreSupprimer
    Réponses
    1. J'ai bien repéré le traitement des doublons dans Heredis, mais je le trouve pas très performant. Peut-être la prochaine version sera-t-elle plus efficace ?

      Supprimer
  3. Pour les doublons d'anciens régime, et en reconstituant systématiquement les fratries, j'ai remarqué quelque chose d'assez fréquent. Souvent, les parrain et marraine du premier enfant sont les grands parents. Pour le second, les autres grands parents (généralement un de chaque côté) s'ils sont encore vivants. Puis se sont les oncles et tantes (même par alliance, ce qui permet parfois de supprimer des doublons). Enfin, des amis ou "personnalités" (seigneur, marchand, curé) quand le stock d'oncles et tantes est épuisé. Parfois des cousins ou des frères et soeurs pour les derniers enfants.

    RépondreSupprimer
    Réponses
    1. J'ai fait à peu près les mêmes constatations, mais toute règle a ses exceptions, c'est bien connu. Et les homonymes sont fréquents dans certaines branches de ma famille...

      Supprimer
  4. Bonjour

    Pour la chasse aux doublons j'utilise pour ma part l'outil de mon logiciel geneatique.

    Par contre pour les témoins j'ai fini par adopter une autre pratique.

    Je ne créais de fiches que lorsque j'étais sûr que le témoin faisait partie de la famille (il était clairement indiqué que le parrain était l'oncle, la marraine la soeur, etc.

    Mais je ne créais pas de fiche pour un témoin seul, sauf si je pensais qu'il pouvait être important dans l'histoire familiale.
    D'autant plus que j'ai fait le choix de prendre en compte tous les frère et soeurs connus de mes ancêtres.

    Par contre pour ne pas perdre d'éléments importants j'ai entrepris de mentionner sur la fiche d'un couple tous les parrains et marraines qqu'ils ont donné à leurs enfants. Ensuite par recoupements, surtout dans les branches où la remontée est ardue, je vérifie quel peut être le lien.
    Ma note prend alors en compte une supposition (grand-mère ? oncle par alliance ?) ou je peux rattacher la mention à une fiche.

    Cedeca

    RépondreSupprimer
    Réponses
    1. Je dois dire qu'avec le temps on apprend à mieux exploiter les possibilités de son logiciel préféré. Pour ma part, j'utilise la dernière version d'Heredis pour Mac, la bleue (en attendant la suivante annoncée pour l'automne), et j'indique maintenant dans les espaces réservés aux notes, les blocages, les suppositions, les réflexions que tel ou tel des individus présents dans ma base de données m'inspire. Cela m'évite par exemple de me plonger à nouveau dans les archives en ligne de tel village pour m'apercevoir que les registres que je souhaite consulter ne sont pas disponibles !

      Supprimer
    2. Bonsoir,

      Le refus de saisir une information est une absurdité dans la mesure où la grammaire GedCom donne les solutions pour le faire.
      Par ailleurs alourdir les champs notes les rend inutilisables ensuite.

      Certes j'utilise le logiciel Ancestris qui respecte strictment la grammaire GedCom et donc mon fichier est propre de ce côté là mais cela ne m'empêche pas d'avoir des doublons.

      À intervalle régulier je me replonge dans les sources et j'en détecte quelques uns.
      Il est vrai aussi qu'avant de créer un nouvel individu je peux vérifier que je n'ai pas un individu qui puisse correspondre. Celà aide pas mal à éviter les saisies multiples.

      Amitiés

      Supprimer
    3. Bonjour,

      Personnellement je saisis toutes les personnes citées dans un acte si je déchiffre les patronymes, car je me dis que cela peut aider quelqu'un lorsque je transfère mon fichier sur Geneanet.

      Supprimer

Votre commentaire sera publié après approbation.