Alpha version. Code was typed fast, streams and async-awaits not used, layers not layered and no optimizations done, long running stuff not in background. Does reflect our ability for work fast, not our ability to code well.
ML/NLP code is not part of this repository.
See presentation in Russian here
dotnet run --launch-profile=src
Debugger for Firefox
orDebugger for Chrome
Omnisharp
EditorConfig for VS Code
.NET Core Test Explorer
npm
GitLens — Git supercharged
- If new to git than Github for Desktop
- Client build on server Node 10.14.1
- Server runtime .NET Core SDK 2.1.500 for ASP.NET Core
- Database MongoDB Community Edition 4.0.4
- Converter and extractor Libre Office 6.1.3
- You already very cool and can resolve all on your own.
https://web.telegram.org/#/im?p=g283474501
See example document
See real covenants in data/
folder.
- User uploads document
- Document is parsed
- Positions of covenants are found
- Document with highlighted covenants are shown
- User clicks on covenant
- Covenant is added to task board
- Covenant may be acted upon (e.g. set notification)
- Suppored uploads: txt, rtf, doc, docx, odt
- Text only view
- upload pdf
- allow manual highlight for data collection and tuning
- show in dashboard; next:allow attach action to dashboard item
- near native view;
- Will store native document to allow download and reparse original. So not client side (fat client) parsing
- Store document file system to allow command line tools to run upon
- Эвристическая модель распознания основана на:
- Поиске ключевых слов и их вариаций
- Взаимном расположении ключевых слов в структуре документа
- Задание веса ключевого слова для типа ковенанты
- Модель готова к более сложным вероятностым иерархическим эвристикам и к интеграции машинного обучения
- нет данных. нет опыта.
- общаемся. получаем данные и знание домена. что важно.
- просто алгоритм четких совпадений.
- общаемся. получаем данные и знание домена. что важно.
- строим ручками категории. улучшаем алгоритим простой.
- больше эвристик.
- корни, спряжения, частичные соответсвия слов.
- структура документа важна. вносим эвристики.
- вводим возможность настравивать эвристики.
- знание предметной области растёт. данных точных больше.
- шаги туда сюда. хуже. дерево чёткой логики.
- тестовый набор очень хороший готов. юристы разные имеют вид на документы. вносим руками в тесты погрешности.
- расстояния, неполные сопадения, очередности, поисковые алгоритмы, lucene. всё руками эвристики.
- стало хуже. тестовый есть. сделали лучше.
- окей. а можно корни-спряжения-синонимы и всякую похожесть без знаний?
- деньги.
- word2vec. арендоталель - арендатор ~ помещение - плата.
- стало хуже.
- меням эвристики.
- окей, теперь дерево эвристик, вероятностоное.
- а порядок слов важен в предложении? что зачем следует. да. эвристика и вон та статья про обучение порядку на наши примеры.
- десятки параметров. туда сюда меняем лучше не становиться.
- оптимизация параметров оптимизацией. рандомайз не локальный максимум. машина ищет максимум.
- вух. хорошего студента наняли лингвиста. поговорить за язык на языке.
- помню егор что то говорил про внимание. хм. а джеф хайукингс говорил про память внимание предсказание последовательности в 2004. и создатели глубоких сетей сказали что в жопе ибо последовательости и время плохо моделируются в 2015.
- что то нашли. преминили. нет регрессий.
- студент вносит знания языка в эвристки и классический грамматический натуральный язык.
- а почему бы нам знания, то есть выходы эвристик промежуточных не подать на сеть.
- стало хуже. туда сюда лучше. теперь наконец сеть решает на эвристиках. а не на грязных данных.
- NLU? RELR for explainability?
- Input documents and data are closed-proprietary
- Generated models are closed-proprietary
- Code is open, but AGPL (or similar, with approciate clause for investor)
- Code after X(1 year or next release or fail of startup) is under Apache(other?)
- Online Office (Google, Microsoft) plugin to help detect coventants.