Cette opportunité est basée à Lausanne

Cross-lingual Toxicity Detection (Diploma Thesis/Internship)



Online interaction is nowadays prevalent in the life of many people, and the youngest who use social media and instant messaging platforms the most are also the most vulnerable. As discussions can sometimes get heated, users might face personal insults, harassment or other kinds of hate messages.

Several solutions to this problem are already in use: manual or keyword-based censorship, moderators or user flagging toxic messages, etc. But these systems either need constant surveillance by human moderators or can be abused (users flagging a message for no reason or using new non-blacklisted words to prevent censorship).

The goal of this project is to guarantee users a safe and healthy experience in online chats by implementing an intelligent moderating system able to detect and identify toxic messages to assist moderators in their task.


Challenges: In this project, it is necessary to identify correctly and in a timely manner different classes of toxicity in online discussions, where the messages can be produced in large volumes and variety. It is also important that this internship aims towards cross-lingual models, namely using aligned datasets to train a model on multiple languages will be necessary. Moreover, the annotated datasets available might come from different sources, and thus contain different labels. Being able to merge these datasets will be required as well.


Project applications: Social media/online discussions/chatbots

What you will learn: You will be a junior data scientist, developing your skills in machine learning (deep learning, natural language processing).


Possible extensions: Integrating the model with a moderating chatbot to test it with users online.

Keywords: NLP, toxicity detection, multi-label classification, cross-lingual models, transfer learning, text embeddings

In this role

In this project, the goal is to:

  • Build a model able to detect and identify toxic messages
  • Use transfer learning to train the model on several languages

Ce que nous proposons

Diploma Thesis / Internship in Lausanne. Join our team as intern and you will find a young, dynamic and culturally diverse working environment.

    About your profile

    • Required: machine learning and deep learning, NLP
    • Software engineering, Python, deep leaning/ML libraries (keras, tensorflow, scikit-learn, nltk, spaCy, etc.)

    If you are INTERESTED in applying for this position, please send us your complete application (CV, cover letter, letter of reference, diplomas and certificates).

    En continuant votre navigation sur ce site, vous acceptez l'utilisation de cookies ou technologies similaires ayant pour finalité la réalisation de statistiques de visites sur notre site (tests et mesures d'audience, de fréquentation, de navigation, de performance), mais également de vous proposer des contenus et annonces ciblés et adaptés à vos centres d'intérêt.

    Nos cookies ont été mis à jour. N'hésitez pas à mettre à jour vos préférences.


    Gérer vos préférences cookies

    Mettre à jour vos préférences cookies

    Vous pouvez vous informer sur la nature des cookies déposés, les accepter ou les refuser soit globalement pour l'ensemble du site et l'ensemble des services, soit service par service.

    OK, tout accepter

    Flux de visiteur

    Ces cookies nous offrent un aperçu des sources de trafic et nous permettent de mieux comprendre nos visiteurs, tout en garantissant leur anonymat.

    (Google Analytics et CrazyEgg)


    Outils de partage

    Les cookies de médias sociaux permettent de partager des contenus sur vos réseaux préférés.



    Connaissance du visiteur

    Ces cookies sont utilisés pour suivre les visiteurs sur les sites Internet.

    Ils doivent nous permettre d’offrir à nos visiteurs identifiés davantage de contenus pertinents et ciblés (ClickDimensions) et d’afficher des publicités susceptibles d’intéresser les utilisateurs (Facebook Pixels).


    Pour plus d'informations relatives à la protection de données, cliquez ici.