Le Corpus Taurinense (CT) est la version morphologiquement annotée d'ItalAnt Corpus, un corpus électronique de textes d'ancien italien (écrits entre 1251 et 1300). Nous essayons ici de décrire l'approche suivie dans le CT pour l'annotation des lexies complexes (MWUs 'multiword units'). La lexie complexe dans notre travail est un groupe de deux mots graphiques ou plus qui reçoit (aussi) une étiquette de partie du discours d'ensemble parce que ce groupe de mots est en relation paradigmatique avec une autre unité lexicale de la même partie du discours.Notre étiquetage de parties du discours confirme que la majorité des conjonctions composées de l'italien moderne n'était pas lexicalisée à cette époque. L'ordre des composants est déjà celui de l'italien moderne mais ces conjonctions peuvent encore être interrompues par des éléments occasionnels.
