Reference corpus for word linking, divided into training data and test data. The sentences come from the English and Swedish parts of Europarl. Data are created from the English-Swedish part of the Europarl corpus. For each sentence pair in the selected subset, token correspondences are stated as pairs of integral token identifiers
En referenskorpus för ordlänkning uppdelad på tränings- och testdata. Meningarna är hämtade från Europarl engelska respektive svenska delar. Data är skapade från den engelsk-svenska delen av den parallella korpusen Europarl och utgörs, för varje meningspar, av par av tokenidentifierare på formen n-m där n och m är heltal.