ftyers.github.io/Practical_3.md at b77d2163d6cf8c19cd7d3092e9b9a1675a926684 · ftyers/ftyers.github.io

Practical 3

Мой код (его можно посмотреть в файле train.py) состоит из шести функций. Input: размеченный корпус текстов, output - четыре столбца с частотностью, кол-вом употребления и словоформами. (output_pic)

conllu_open обрабатывает корпус текстов и возвращает корпус построчно в виде списков.
data_count_table принимает строки из conllu_open и создает большой словарь, вложенный в словарь, в котором содержатся все словоформы, теги и то, сколько раз каждая словоформа была употреблена с определенным тегом.
data_freq_table принимает результат функции data_count_table и заменяет с значениях вложенного словаря количество появления тегов на частотность их появления
count_tag принимает результат data_count_table и составляет отдельный словарь { тег : кол-во раз появления тега }
freq_tag заменяет в словаре count_tag количества раз на частотность
nice_lists извлекает из предыдущих четырех функций необходимую информацию и создает list of lists с итоговыми необходимыми значениями

В конце я представила данные в удобочитаемом виде:

print('# P', ' '*6, 'count', ' '*4, 'tag', ' '*6, 'form', ' '*5)
for i in nice_lists():
    for s in i:
        x = str(s)
        print(s, ' '*(10-len(x)), end='')
    print('\n')

What might be a simple improvement to the language model for languages with orthographic case ?

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Practical 3

FilesExpand file tree

Practical_3.md

Latest commit

History

Practical_3.md

File metadata and controls

Practical 3