Similist : le démonstrateur
Nous avons un démonstrateur en ligne pour Similist.
Vous pouvez l’utiliser pour découvrir les possibilités de Similist. Pour en savoir plus et/ou apprendre à l’utiliser vous pouvez consulter son tutoriel.
Sources de données
Pour le démonstrateur, nous avons récupéré la liste des monuments historiques sur data.gouv.fr. Cette liste ne contient pas d’images. Les images ont été récupérées depuis Wikimedia Commons pour l’essentiel et de Flickr pour une petite partie.
Droits d’auteur
Pour chaque image le programme de téléchargement a vérifié la license afin d’éviter de publier d’images non redistribuables. Si vous trouvez des images pour lesquelles vous pensez que c’est incorrect, vous pouvez accéder aux images sources depuis leur page pour le vérifier et en cas de problème nous contacter.
Problèmes et limitations connus
- Doublons : la liste des monuments historiques comprend souvent des parties d’un même monument. La source d’image principale Wikimedia Commons ne fait pas la différence entre ces parties et les images sont donc souvent affectées à toutes les entrées pour un même monument. Par ailleurs une petite partie des monuments a également été importée depuis Flickr et nous n’avons pas dédoublonné ces monuments.
- Performances : le code est relativement rapide mais nous utilisons une petite machine virtuelle pour héberger le démonstrateur. En cas de forte affluence vos recherches peuvent être ralenties.
- Base incomplète : nous n’avons pu intégrer que des images librement redistribuables et accessibles en ligne. Une partie des monuments est donc partiellement représentée. Le nombre d’images (~130 000) est également loin de représenter les capacités de Similist : le démonstrateur tourne sur une petite machine virtuelle mais celle-ci pourrait aisément faire des recherches rapides sur des millions d’images.
Solutions :
- Doublons : techniquement c’est assez facile car nous pouvons très facilement identifier les images très similaires et donc les monuments concernés, nous n’avons juste pas encore pris le temps d’implémenter la fonctionnalité de dédoublonnage.
- Performances : contactez-nous si vous avez un besoin spécifique. Dès aujourd’hui nous pouvons déployer Similist sur des serveurs supportant des recherches sur environ 100 millions d’images. En distribuant les recherches sur plusieurs serveurs il n’y a pas de limite théorique à notre technologie.
- Base incomplète : c’est inhérent au informations librement utilisables pour les monuments historiques. Si vous avez une banque d’images plus complète cela ne vous affectera pas. Similist est en particulier très efficace sur les bases d’objets dont les caractéristiques sont assez homogènes et bien représentées. Contactez-nous si vous souhaitez avoir une évaluation rapide et gratuite de votre base.