- Мой код (его можно посмотреть в файле train.py) состоит из шести функций. Input: размеченный корпус текстов, output - четыре столбца с частотностью, кол-вом употребления и словоформами. (output_pic)
-
conllu_open обрабатывает корпус текстов и возвращает корпус построчно в виде списков.
-
data_count_table принимает строки из conllu_open и создает большой словарь, вложенный в словарь, в котором содержатся все словоформы, теги и то, сколько раз каждая словоформа была употреблена с определенным тегом.
-
data_freq_table принимает результат функции data_count_table и заменяет с значениях вложенного словаря количество появления тегов на частотность их появления
-
count_tag принимает результат data_count_table и составляет отдельный словарь { тег : кол-во раз появления тега }
-
freq_tag заменяет в словаре count_tag количества раз на частотность
-
nice_lists извлекает из предыдущих четырех функций необходимую информацию и создает list of lists с итоговыми необходимыми значениями
В конце я представила данные в удобочитаемом виде:
print('# P', ' '*6, 'count', ' '*4, 'tag', ' '*6, 'form', ' '*5)
for i in nice_lists():
for s in i:
x = str(s)
print(s, ' '*(10-len(x)), end='')
print('\n')- What might be a simple improvement to the language model for languages with orthographic case ?