Ce mot, au consonnances mathématiques, peut réveiller de mauvais souvenirs. Lorsqu'on manipule des données, on lui préfère souvent les termes "Attributs", "Descripteurs", ou "Champ". Mais quand arrive l'heure de la modélisation, le technicien entre en scène, et pour lui, la modélisation est une question mathématique, et il utilisera plus volontiers le terme "variable".
En Data Mining, les variables existent sous plusieurs formes : numérique, nominale, ordinale ou binaire (voir ces mots). Ces distinctions sont importantes car chaque technique de Data Mining ne sait en général traiter qu'un seul type de variable, alors que les fichiers contiennent le plus souvent des variables de types différents, et qu'il est impératif d'utiliser simultanément toutes ces variables. Il faut donc procéder à des codages permettant d'homogénéiser le type des variables. Il s'agit là d'un véritable casse-tête, dont l'importance est souvent sous estimée.