Les données non structurées et leur traitement
Une version article du chapitre pour comprendre l'essentiel rapidement, vérifier si le niveau correspond, puis basculer vers Wilo pour la pratique guidée et le suivi.
Lecture
5 chapitres
Un parcours éditorialisé et navigable.
Pratique
12 questions
Quiz et cartes mémoire à ouvrir après la lecture.
Objectif
Seconde générale et technologique
Format rapide pour vérifier si le chapitre correspond.
Chapitre 1
Introduction aux données non structurées
Qu'est-ce qu'une donnée non structurée ?
Les données non structurées sont des informations qui n'ont pas de format prédéfini, rigide ou organisé. Contrairement aux données structurées, elles ne résident pas dans une base de données relationnelle traditionnelle et n'ont pas de schéma fixe (comme des lignes et des colonnes bien définies). Leur organisation est souvent plus libre, ce qui les rend plus difficiles à analyser avec des méthodes classiques.
Différence avec les données structurées :
- Données structurées : Organisées en tables avec des lignes et des colonnes, des types de données spécifiques (nombres, dates, texte court), et des relations claires. Exemples : une base de données de clients avec des champs "Nom", "Prénom", "Adresse", "Date de naissance". Faciles à rechercher et à analyser avec SQL.
- Données non structurées : Pas de schéma prédéfini. Elles peuvent contenir du texte, des images, du son, de la vidéo. Leur richesse réside dans leur contenu, mais leur forme est variable.
Exemples courants :
- Textes : E-mails, documents Word, pages web, publications sur les réseaux sociaux, articles de presse, messages instantanés, commentaires de clients.
- Média : Photos, vidéos, fichiers audio (enregistrements vocaux, musique).
- Autres : Fichiers logs (journaux d'activité de serveurs), données de capteurs en temps réel, données géospatiales.
Les données non structurées représentent la majorité des données générées aujourd'hui.
Pourquoi s'intéresser aux données non structurées ?
L'intérêt pour les données non structurées est devenu crucial pour plusieurs raisons :
- Volume croissant : Avec l'explosion d'Internet, des réseaux sociaux, des smartphones et des objets connectés, la quantité de données non structurées générées chaque jour est phénoménale et continue d'augmenter exponentiellement. On parle de plusieurs zettaoctets (milliards de téraoctets) par an.
- Richesse d'informations : Ces données contiennent une mine d'informations précieuses et souvent inexploitées. Par exemple, les avis clients sur un produit peuvent révéler des tendances, les photos peuvent montrer des défauts de fabrication, et les publications sur les réseaux sociaux peuvent indiquer des sentiments envers une marque.
- Défis de traitement : En raison de leur nature diverse et de l'absence de structure fixe, l'analyse et l'extraction de sens des données non structurées posent des défis techniques importants. Les outils traditionnels de bases de données ne sont pas adaptés. Cela a mené au développement de nouvelles techniques et technologies (comme le Big Data, l'intelligence artificielle et l'apprentissage automatique).
Comprendre et maîtriser le traitement de ces données est essentiel pour les entreprises, la recherche scientifique et même la vie quotidienne (par exemple, les moteurs de recherche).
Types de données non structurées
Les données non structurées peuvent être classées en plusieurs catégories principales :
-
Texte : C'est le type le plus courant. Il inclut tout ce qui est écrit :
- Documents : PDF, Word, e-mails, rapports.
- Web : Pages web, blogs, forums, commentaires en ligne.
- Réseaux sociaux : Publications, tweets, messages privés.
- Conversations : Journaux de chat, transcriptions d'appels. Le texte est riche en informations sémantiques, mais ambigu et complexe à analyser automatiquement.
-
Image : Tout ce qui est visuel :
- Photos : Images prises par des appareils photo ou smartphones.
- Graphiques : Infographies, diagrammes.
- Scans : Documents numérisés. Les images peuvent contenir des visages, des objets, des scènes, des textes (qui peuvent être extraits via l'OCR - Reconnaissance Optique de Caractères).
-
Audio/Vidéo : Elles combinent souvent plusieurs dimensions (son et image pour la vidéo) :
- Audio : Fichiers musicaux, enregistrements vocaux, podcasts.
- Vidéo : Films, vidéos YouTube, enregistrements de surveillance. Ces données sont très lourdes et nécessitent des techniques spécifiques pour extraire des informations comme les dialogues, les objets en mouvement, les émotions, etc.
-
Données web : Bien que souvent textuelles, elles peuvent inclure des éléments multimédias et ont des structures spécifiques (HTML, XML) qui les rendent semi-structurées.
- Pages web : Contenu HTML, liens hypertexte.
- Flux de données : RSS, JSON (souvent considéré comme semi-structuré car il a une structure interne flexible).
Chaque type de données non structurées nécessite des outils et des techniques de traitement spécifiques.
Chapitre 2
Collecte et stockage des données non structurées
Sources de données non structurées
Les données non structurées proviennent d'une multitude de sources, en constante expansion :
- Réseaux sociaux : Facebook, Twitter, Instagram, LinkedIn, TikTok... Des milliards de messages, photos, vidéos, commentaires sont générés chaque jour. Ces données sont très précieuses pour l'analyse des tendances, des sentiments et du comportement des consommateurs.
- Capteurs et objets connectés (IoT) : Caméras de surveillance, capteurs météorologiques, appareils de fitness, voitures connectées, instruments médicaux. Ils génèrent des flux continus de données (vidéo, audio, série temporelle) qui sont souvent bruts et non organisés.
- Documents numériques : E-mails, rapports d'entreprise, contrats, articles de recherche, livres numériques, présentations. Tous ces fichiers texte ou PDF sont des sources massives d'informations non structurées.
- Web : L'ensemble du World Wide Web est une source immense, incluant les sites web d'actualités, les blogs, les forums, les sites e-commerce, les wikis.
- Données multimédias : Bibliothèques d'images, de vidéos et de fichiers audio (par exemple, banques d'images, plateformes de streaming).
- Données de communication : Transcriptions d'appels téléphoniques, enregistrements de centres d'appels, messages instantanés entre utilisateurs.
Méthodes de collecte
La collecte de données non structurées est souvent complexe et nécessite des approches spécifiques :
-
Crawling (ou Web Scraping) : Consiste à parcourir le web de manière automatisée pour extraire des informations des pages web. Des programmes appelés "bots" ou "spiders" suivent les liens hypertexte et récupèrent le contenu (texte, images, liens).
- Exemple : Un moteur de recherche utilise des crawlers pour indexer le contenu du web.
- Outils : Scrapy (Python), Beautiful Soup (Python).
- Attention : Le crawling doit respecter les conditions d'utilisation des sites web et les lois sur la protection des données.
-
API (Application Programming Interface) : De nombreuses plateformes (réseaux sociaux comme Twitter, YouTube, services météo, etc.) offrent des API qui permettent aux développeurs d'accéder à leurs données de manière structurée et contrôlée. C'est la méthode préférée car elle est plus fiable et respecte les règles des plateformes.
- Exemple : L'API Twitter permet de récupérer des tweets en fonction de mots-clés, d'utilisateurs, etc.
-
Saisie manuelle ou semi-automatique : Pour des volumes plus petits ou des données très spécifiques, la saisie humaine reste une option. Cela peut inclure la transcription d'enregistrements audio, l'annotation d'images ou la digitalisation de documents papier. Des outils d'OCR (Optical Character Recognition) peuvent automatiser la reconnaissance de texte dans les images.
-
Flux de données en temps réel : Pour les capteurs ou les systèmes d'IoT, les données sont souvent collectées en continu via des protocoles spécifiques (MQTT, Kafka) et ingérées dans des systèmes de traitement en temps réel.
Stockage adapté
Les bases de données relationnelles classiques ne sont pas efficaces pour stocker les données non structurées en raison de leur volume, de leur variété et de l'absence de schéma fixe. De nouvelles approches ont émergé :
-
Bases de données NoSQL (Not Only SQL) : Ces bases de données sont conçues pour gérer de grands volumes de données variées, souvent sans schéma fixe. Elles sont plus flexibles et scalables que les bases relationnelles.
- Bases de documents : Stockent les données sous forme de documents (JSON, XML). Exemples : MongoDB, Couchbase. Idéales pour les données web ou les profils utilisateurs.
- Bases de données clé-valeur : Stockent des paires clé-valeur simples. Exemples : Redis, Amazon DynamoDB. Très rapides pour des accès simples.
- Bases de données orientées colonnes : Stockent les données par colonnes plutôt que par lignes. Exemples : Apache Cassandra, HBase. Bonnes pour les données de séries temporelles ou les grands tableaux dispersés.
- Bases de données orientées graphes : Stockent des données sous forme de nœuds et de relations. Exemples : Neo4j. Idéales pour les réseaux sociaux, les recommandations.
-
Systèmes de fichiers distribués (HDFS - Hadoop Distributed File System) : Conçus pour stocker des fichiers très volumineux sur un cluster de machines. HDFS est la pierre angulaire de l'écosystème Hadoop et est très utilisé pour le Big Data. Il permet de stocker des téraoctets, voire des pétaoctets de données brutes, qu'elles soient structurées ou non.
-
Cloud computing (Stockage objet) : Les fournisseurs de services cloud (AWS S3, Google Cloud Storage, Azure Blob Storage) offrent des solutions de stockage d'objets (fichiers) à grande échelle, très durables et économiques. Ces solutions sont idéales pour stocker des images, vidéos, sauvegardes, et des "lacs de données" (data lakes) où les données brutes sont conservées avant d'être traitées.
Le choix de la méthode de stockage dépend du volume, du type de données et des besoins d'accès/traitement.
Chapitre 3
Traitement du texte et du langage naturel
Principes du Traitement Automatique du Langage Naturel (TALN)
Le TALN implique plusieurs étapes clés pour transformer le texte brut en données analysables :
-
Tokenisation : C'est la première étape. Elle consiste à diviser un texte en unités plus petites appelées "tokens". Un token peut être un mot, un chiffre, un signe de ponctuation, ou même une phrase.
- Exemple : La phrase "Bonjour, comment allez-vous ?" serait tokenisée en ["Bonjour", ",", "comment", "allez", "-", "vous", "?"].
- Importance : Permet de travailler sur des unités de sens et non sur une chaîne de caractères brute.
-
Normalisation : Après la tokenisation, la normalisation vise à réduire les variations d'un mot pour faciliter l'analyse.
- Mise en minuscules : Convertir tout le texte en minuscules pour traiter "Bonjour" et "bonjour" comme le même mot.
- Suppression des mots vides (Stop Words) : Éliminer les mots très courants qui n'apportent pas beaucoup de sens (articles, prépositions : "le", "la", "un", "de", "à", "est").
- Lemmatisation : Réduire les mots à leur forme canonique ou leur "lemme" (la forme de base du mot). Par exemple, "courir", "court", "courait" deviennent tous "courir".
- Racine (Stemming) : Technique plus simple et moins précise que la lemmatisation, qui consiste à couper les suffixes pour obtenir la racine du mot. Par exemple, "courant", "coureur" peuvent devenir "cour".
-
Analyse syntaxique (Parsing) : Consiste à analyser la structure grammaticale d'une phrase pour comprendre les relations entre les mots.
- Analyse de dépendance : Identifie les relations de dépendance entre les mots (quel mot modifie quel autre).
- Analyse en constituants : Décompose la phrase en groupes de mots (syntagmes nominaux, verbaux, etc.) selon des règles grammaticales.
- Importance : Aide à comprendre le sens des phrases et à identifier le sujet, le verbe, l'objet, etc.
Extraction d'informations
Une fois le texte traité, l'objectif est d'en extraire des informations pertinentes :
-
Reconnaissance d'entités nommées (REN ou NER) : Identifier et classer les entités du monde réel mentionnées dans le texte en catégories prédéfinies comme les noms de personnes, d'organisations, de lieux, de dates, de quantités.
- Exemple : Dans "Tim Cook a visité Paris le 15 mars 2023", le NER identifierait "Tim Cook" comme une personne, "Paris" comme un lieu, et "15 mars 2023" comme une date.
- Application : Indexation de documents, résumé automatique, recherche d'informations.
-
Classification de texte : Attribuer une ou plusieurs catégories prédéfinies à un document textuel.
- Exemple : Classer un e-mail comme "spam" ou "non-spam", un article de presse dans la catégorie "sport", "politique" ou "économie", un commentaire client comme "positif" ou "négatif".
- Techniques : Apprentissage automatique (Machine Learning) avec des algorithmes comme les machines à vecteurs de support (SVM) ou les réseaux de neurones.
-
Analyse de sentiments : Déterminer la tonalité émotionnelle ou l'attitude exprimée dans un texte (positive, négative, neutre, ou des émotions plus spécifiques comme la joie, la colère).
- Exemple : Analyser les avis clients sur un produit pour savoir si les retours sont majoritairement positifs ou négatifs.
- Application : Veille e-réputation, analyse de feedback, études de marché.
Applications du TALN
Le TALN est au cœur de nombreuses technologies que nous utilisons quotidiennement :
- Moteurs de recherche : Compréhension des requêtes des utilisateurs et pertinence des résultats (ex: Google, Bing). Le TALN aide à comprendre l'intention derrière les mots-clés.
- Traduction automatique : Traduire du texte ou de la parole d'une langue à une autre (ex: Google Traduction, DeepL). Les modèles neuronaux ont grandement amélioré la qualité des traductions.
- Chatbots et assistants virtuels : Systèmes capables de converser avec les humains, de répondre à des questions et d'effectuer des tâches (ex: Siri, Google Assistant, ChatGPT). Ils utilisent le TALN pour comprendre les requêtes vocales ou textuelles et générer des réponses cohérentes.
- Résumé automatique : Générer un résumé concis d'un document long.
- Correction grammaticale et orthographique : Outils comme Grammarly ou les correcteurs intégrés aux traitements de texte.
- Filtrage de spam : Identifier et bloquer les e-mails indésirables.
Le TALN est un domaine en évolution rapide, essentiel pour interagir avec l'information textuelle.
Chapitre 4
Traitement des images et du son
Principes du traitement d'images
Le traitement d'images est l'ensemble des techniques visant à manipuler ou analyser des images numériques.
-
Pixels et résolution : Une image numérique est composée d'une grille de petits carrés appelés pixels (picture elements). Chaque pixel a une couleur et une intensité.
- La résolution d'une image est le nombre de pixels qu'elle contient (par exemple, 1920x1080 pixels pour une image Full HD). Plus la résolution est élevée, plus l'image est détaillée.
- Pour une image couleur, chaque pixel est généralement représenté par trois valeurs (Rouge, Vert, Bleu - RVB), chacune allant de 0 à 255.
-
Formats d'image : Différents formats existent pour stocker les images, chacun avec ses caractéristiques :
- JPEG (Joint Photographic Experts Group) : Format compressé avec perte d'information, idéal pour les photographies.
- PNG (Portable Network Graphics) : Format compressé sans perte, supporte la transparence, idéal pour les graphiques et logos.
- GIF (Graphics Interchange Format) : Format compressé sans perte, supporte l'animation et la transparence, limité à 256 couleurs.
- TIFF (Tagged Image File Format) : Format non compressé ou compressé sans perte, utilisé en édition professionnelle et pour les scans de haute qualité.
-
Opérations de base :
- Filtrage : Appliquer des filtres pour modifier l'apparence de l'image (flou, netteté, détection de bords).
- Transformation géométrique : Rotation, mise à l'échelle, recadrage.
- Amélioration de contraste/luminosité : Ajuster les niveaux de couleur pour une meilleure visibilité.
- Segmentation : Diviser l'image en régions ou objets distincts pour une analyse plus poussée.
Reconnaissance d'images
La reconnaissance d'images est une application du traitement d'images et de l'apprentissage automatique qui vise à identifier et comprendre le contenu visuel.
-
Détection d'objets : Localiser et identifier des objets spécifiques dans une image ou une vidéo (par exemple, des voitures, des piétons, des animaux). Les algorithmes dessinent des "boîtes englobantes" autour des objets détectés.
- Application : Voitures autonomes, surveillance, comptage d'objets.
-
Reconnaissance faciale : Identifier ou vérifier l'identité d'une personne à partir de son visage. Cela implique la détection du visage, l'extraction de caractéristiques faciales (distance entre les yeux, forme du nez) et la comparaison avec une base de données de visages connus.
- Application : Déverrouillage de smartphones, sécurité, contrôle d'accès.
- Défis éthiques importants liés à la vie privée et à la surveillance.
-
Classification d'images : Attribuer une étiquette ou une catégorie à une image entière (par exemple, "paysage", "portrait", "intérieur").
- Application : Organisation automatique de galeries de photos, modération de contenu.
- Techniques : Réseaux de neurones convolutifs (CNN) sont les plus performants pour cette tâche.
Traitement du son
Le traitement du son concerne la manipulation et l'analyse des données audio.
-
Numérisation du son : Pour qu'un ordinateur puisse traiter le son, celui-ci doit être converti d'un signal analogique (continu) en un signal numérique (discret).
- Échantillonnage : Mesurer l'amplitude du signal sonore à intervalles réguliers. La fréquence d'échantillonnage (par exemple, 44,1 kHz pour les CD audio) indique le nombre d'échantillons par seconde. Plus elle est élevée, plus le son numérisé est fidèle à l'original.
- Quantification : Attribuer une valeur numérique à chaque échantillon. La résolution en bits (par exemple, 16 bits) détermine le nombre de niveaux d'amplitude possibles.
-
Reconnaissance vocale : Convertir la parole humaine (audio) en texte écrit. C'est l'inverse de la synthèse vocale.
- Étapes : Analyse acoustique (extraction de caractéristiques du son), modélisation phonétique (association des sons aux phonèmes), modélisation linguistique (assemblage des phonèmes en mots et phrases).
- Application : Dictée vocale, assistants vocaux, centres d'appels automatisés.
-
Synthèse vocale (Text-to-Speech - TTS) : Générer de la parole humaine à partir d'un texte écrit.
- Méthodes : Concaténation (assemblage d'unités de parole préenregistrées) ou synthèse paramétrique (génération de la parole à partir de modèles acoustiques).
- Application : Lecteurs d'écran pour malvoyants, GPS, annonces automatisées.
Chapitre 5
Défis et enjeux éthiques
Qualité et volume des données
- Bruit : Les données non structurées contiennent souvent des informations non pertinentes, des erreurs, des incohérences ou des données de faible qualité. Par exemple, des commentaires en ligne avec des fautes d'orthographe, du jargon, des abréviations, ou des images floues. Le "bruit" peut fausser les analyses.
- Incomplétude : Les données peuvent manquer d'informations essentielles. Un texte peut être tronqué, une image peut ne pas montrer l'objet entier, ou un enregistrement audio peut être interrompu.
- Échelle (Volume) : Le volume colossal des données non structurées rend leur stockage, leur traitement et leur analyse complexes. Il nécessite des infrastructures matérielles et logicielles coûteuses et des algorithmes très efficaces.
- Le traitement de très grandes quantités de données prend du temps et consomme beaucoup d'énergie.
Vie privée et sécurité
- Anonymisation et pseudonymisation : Les données non structurées (surtout texte, images, audio) contiennent souvent des informations directement identifiables (noms, visages, voix) ou indirectement identifiables (adresses, numéros de téléphone). Il est crucial de protéger la vie privée des individus en anonymisant (supprimer toute information d'identification) ou en pseudonymisant (remplacer les identifiants par des pseudonymes) ces données avant leur traitement.
- RGPD (Règlement Général sur la Protection des Données) : En Europe, le RGPD impose des règles strictes sur la collecte, le traitement et le stockage des données personnelles. Cela s'applique fortement aux données non structurées, exigeant le consentement des utilisateurs, le droit à l'oubli, et des mesures de sécurité renforcées.
- Fuites de données : Le stockage de grandes quantités de données non structurées, surtout si elles contiennent des informations personnelles, augmente le risque de fuites de données en cas de cyberattaque, avec des conséquences graves pour les individus et les organisations.
Biais et équité
- Biais algorithmiques : Les algorithmes d'apprentissage automatique (souvent utilisés pour traiter les données non structurées) "apprennent" à partir des données qui leur sont fournies. Si ces données sont biaisées (par exemple, si une base de données de visages pour la reconnaissance faciale contient majoritairement des hommes blancs), l'algorithme reproduira et amplifiera ce biais.
- Exemple : Un système de reconnaissance faciale peut être moins précis pour identifier les femmes ou les personnes de couleur. Un algorithme de TALN peut associer des professions à des genres stéréotypés.
- Représentativité des données : Il est crucial que les ensembles de données utilisés pour entraîner les modèles soient représentatifs de la population ou du phénomène qu'ils sont censés analyser. Une sous-représentation de certains groupes peut entraîner des services inefficaces ou discriminatoires.
- Impact social : Les décisions prises sur la base de l'analyse de données non structurées (par exemple, recrutement, accès au crédit, surveillance) peuvent avoir un impact profond sur les individus et la société. Il est essentiel de s'assurer que ces systèmes sont utilisés de manière juste, transparente et responsable, en évitant la discrimination et en respectant les droits fondamentaux.
Ces défis nécessitent une vigilance constante, des cadres réglementaires adaptés et une démarche éthique dans le développement et l'utilisation des technologies de traitement des données non structurées.
Après la lecture
Passe à la pratique avec deux blocs bien visibles
Une fois le cours lu, ouvre soit le quiz pour vérifier la compréhension, soit les flashcards pour mémoriser les idées importantes. Les deux s'ouvrent dans une fenêtre dédiée.
Suite naturelle
Tu veux aller plus loin que l'article ?
Retrouve le même chapitre dans Wilo avec la suite des questions, la répétition espacée, les corrigés complets et une progression suivie dans le temps.