-
Hocr превратить в JSON (с ним легче работать). Структура должна содержать оригинальные поля:
id – идентификатор значения class – класс значения lang – язык словаря title – это запакованные координаты элемента текста обведенного прямоугольником
-
Записать результат п.1 в БД
a. Реализуем сервис (REST API net Core) b. Реализуем POST метод, принимающий Hocr в виде ссылки на файл; c. Преобразуем Hocr в JSON по описанию в п.1. d. Записываем в БД (предполагаем большие объемы)
-
На сервисе из п. 2а реализуем методы по получению записанных значений:
a. Целиком документ b. Текстовое значение по ID c. Набор (массив) значений по ключу или их набору (кроме ID) из конкретного документа
-
Подключить Swagger, для возможной проверки реализации (все API методы c xml инструкцией).