
Classification automatique
Contexte
Dans le cadre de mon apprentissage du langage Java à l'IUT2, j'ai travaillé sur un projet visant à classifier des dépêches en fonction de leur contenu.
Objectifs
L'objectif principal était de classer des dépêches (textes courts de 15 à 30 mots) en cinq catégories distinctes (sport, culture, économie, etc.) en utilisant un programme Java. Le classement devait être basé sur l'analyse des mots contenus dans chaque dépêche, tout en garantissant une efficacité maximale.



Méthodologie
Le projet s'est déroulé en binôme et s'est articulé autour de plusieurs étapes clés :
-
Entraînement du programme :
- Analyse de la base d'entraînement contenant une liste de dépêches avec leurs catégories respectives.
- Dresser un dictionnaire en répertoriant tous les mots présents dans les dépêches.
- Comptabiliser la fréquence d'apparition de chaque mot dans les cinq catégories.
- Attribuer un score à chaque mot en fonction de son importance dans chaque catégorie.
- Ajuster le nombre d'occurrences nécessaires pour chaque score afin d'optimiser notre précision.
-
Test et optimisation :
- Appliquer le programme à une base de test contenant des dépêches avec des catégories inconnues.
- Noter les résultats obtenus dans un fichier texte pour analyse.
- Modifier le programme en explorant différentes méthodes de recherche pour améliorer la performance.
- Implémenter un support pour les flux RSS, offrant une nouvelle source d'entraînement pour le programme.