From 4b49eceecae4b0d07695cb7a1e8780d2023e9dfb Mon Sep 17 00:00:00 2001
From: Awen Lelu <awen.lelu@provectio.fr>
Date: Mon, 5 Jan 2026 11:48:24 +0100
Subject: [PATCH] finish summary of dataset features

---
 readme.md | 55 ++++++++++++++++++++++++++++++++++++++++++++++++++++++-
 1 file changed, 54 insertions(+), 1 deletion(-)

diff --git a/readme.md b/readme.md
index 0db81a5..c9b242b 100644
--- a/readme.md
+++ b/readme.md
@@ -14,4 +14,57 @@ Dataset: [](https://www.kaggle.com/datasets/datasetengineer/teenage-online-behav
 * Social Media Usage (Low, Medium, High): fréquence d'utilisation de média sociaux
   * définir média social (diff de réseau social ?)
 * VPN Usage (Yes, No): utilisation d'un vpn lors de la session
-* 
+  * peut être corréler avec divers facteurs de risque pour
+    déterminer si l'utilisation d'un vpn réduit les risques cyber.
+* Cyberbullying Reports: nombres d'incidents lié au cyberharcèlement sur cette session
+* Parental Control Alers: Nombres d'alertes déclanchés par des programmes de
+  controle parental installer sur la machine.
+* Firewall Logs: nombre de connections bloquée par le firewall
+  * le firewall est un programme permettant de bloquer les ports d'un pc
+    ou l'accèes internet de certains programmes. Certains firewall se basent
+    sur une liste de logiciels malvenant à bloqué tendis que le plus basique
+    se charge de bloqué certains ports / protocoles. Une bonne pratique
+    sur un serveur / PC est de bloqué tout les ports par défaut et d'ouvrire
+    uniquement ceux dont on à besoin (ex, le port 22 pour ssh.)
+* Login attempts: nombres de tentatives de connections lors de la session
+  * usage ?
+* Download Risk (Low, Medium, High): Niveau de risque associé aux fichiers
+  télécharger
+  * Basé sur ?
+* Password Strength (Weak, Moderate, Strong): Résistence des mots de passes utilisés
+  * la qualification de la résistence d'un MDP se base sur sa capacité
+    à résister à un bruteforce sur la durée. Pour cela, on vas regarder
+    si ce dernier est bien aléatoire, qu'il ne comporte pas de pattern
+    identifiable, pas de mots du ditionnaire, une variété de caractères, ect...
+* Data Breach Notifications: Nombre d'altertes lié aux informations personelles
+  de cet identifiant, ex: mot de passe, address, téléphone, ...
+* Online Purchase Risk: Similaire au **download risk** mais pour les achats en ligne
+* Education Content Usage: Fréquence d'engagement de l'utilisateur avec du conteneu
+  éducationel
+* Age Groupe (under 13, 13-16, 17-19): catégotie d'âge auquel appartient le sujet
+* Geolocation: localisation de l'utilisateur
+* Public Network Usage (Yes, No): Est ce que l'activité enregistrée était elle
+  sur un réseau public ?
+  * Permettrais de corréler le niveau de risques des différents types de réseau
+* Network Type: Type de connection utilisée. ex: wifi, 5G, ect...
+* Hours Online: Total d'heure passée sur la session
+* Website Visits: Nombres de sites visités lors de la session
+* Peer Interactions: Nombres d'interaction en *Peer-To-Peer* durant la session
+  * Le Peer-To-Peer est une méthode de communication ou deux PC communiques
+    directement entres eux sans intermédiaires. ex: le protocol bitorrent
+* Risky Website (Yes, No): Est ce que des visites sur des sites à risque
+  ont été enregistrés ?
+  * Source ?
+* Cloud Service Usage (Yes, No): Est ce que des services dans le *cloud* on été
+  utilisé lors de cette session ?
+  * Définir cloud
+* Unencrypted Trafic (Yes, No): Est ce que du trafic réseau non chiffré à été
+  utilisé lors de cette session.
+  * La plupart du trafic sur internet est chiffré via le protocol *SSL* afin
+    d'éviter qu'un acteur mal intentioné puisse avoir accès aux données de
+    cette connection. Il est possible de piéger un utilisateur à utiliser
+    une connection non chiffrée afin de lui subtiliser des données.
+* Ad Clicks (Yes, No): Est ce que des publicités ont été cliqués lors de cette
+  session ?
+* Insecure Login Attempts: Nombre de tentatives de connections sur des réseaux
+  non sécurisé.