La couverture de la General Service List (West, 1953), visant à rendre compte de l’anglais fondamental, et de l’Academic Word List (AWL) (Coxhead, 2000), visant à représenter le lexique des écrits universitaires, ne représente que 80% des mots d’un corpus d’écrits scientifiques anglais d’à peu près 875 000 mots, contre 86,7% pour les sciences humaines et lettres, 88,8% pour le commerce et 88,5% pour le droit (Coxhead, 1998). La couverture de 9,1% de l’AWL pour les sciences est comparable à celle des sciences humaines et du droit, alors que la couverture de la GSL pour les sciences de 65% est nettement inférieure à celle du droit (10% de moins), des sciences humaines (8%) et du commerce (6%). Pour traiter ce lexique absent, nous avons réalisé une étude de corpus sur le vocabulaire des écrits scientifiques pour établir dans quelle mesure un vocabulaire spécifique aux sciences pouvait être dégagé en dehors de la GSL et de l’AWL. Hirsh (2004) a mis en évidence que les domaines comportant le plus de vocabulaire technique utilisaient la plus faible proportion de mots du lexique fondamental (de la GSL). Cette étude pilote a permis de dégager une liste de 318 familles de mots couvrant 4% des mots d’un corpus d’écrits scientifiques d’1,5 millions de mots, contre moins de 1% pour les autres corpus des sciences humaines, de commerce, et du droit et un corpus littéraire de 3,5 millions de mots.
