DISCLAIMER

Alpha version. Code was typed fast, streams and async-awaits not used, layers not layered and no optimizations done, long running stuff not in background. Does reflect our ability for work fast, not our ability to code well.

ML/NLP code is not part of this repository.

See presentation in Russian here

Run

dotnet run --launch-profile=src

Build

Works in `Visual Studio Code 1.29.1` with plugins:

Debugger for Firefox or Debugger for Chrome
Omnisharp
EditorConfig for VS Code
.NET Core Test Explorer
npm
GitLens — Git supercharged

SDK and runtime

Front

React Dev tools

All On Windows 10

If new to git than Github for Desktop
Client build on server Node 10.14.1
Server runtime .NET Core SDK 2.1.500 for ASP.NET Core
Database MongoDB Community Edition 4.0.4
Converter and extractor Libre Office 6.1.3

All on Ubuntu

You already very cool and can resolve all on your own.

Team

https://web.telegram.org/#/im?p=g283474501

Domain

Covenant

See example document

See real covenants in data/ folder.

Main scenario

User uploads document
Document is parsed
Positions of covenants are found
Document with highlighted covenants are shown
User clicks on covenant
Covenant is added to task board
Covenant may be acted upon (e.g. set notification)

Features

Suppored uploads: txt, rtf, doc, docx, odt
Text only view

Proof of Concept

upload pdf
allow manual highlight for data collection and tuning
show in dashboard; next:allow attach action to dashboard item
near native view;

Solution

Will store native document to allow download and reparse original. So not client side (fat client) parsing
Store document file system to allow command line tools to run upon

Algorithm development

Эвристическая модель распознания основана на:
1. Поиске ключевых слов и их вариаций
2. Взаимном расположении ключевых слов в структуре документа
3. Задание веса ключевого слова для типа ковенанты
Модель готова к более сложным вероятностым иерархическим эвристикам и к интеграции машинного обучения

нет данных. нет опыта.
общаемся. получаем данные и знание домена. что важно.
просто алгоритм четких совпадений.
общаемся. получаем данные и знание домена. что важно.
строим ручками категории. улучшаем алгоритим простой.
больше эвристик.
корни, спряжения, частичные соответсвия слов.
структура документа важна. вносим эвристики.
вводим возможность настравивать эвристики.
знание предметной области растёт. данных точных больше.
шаги туда сюда. хуже. дерево чёткой логики.
тестовый набор очень хороший готов. юристы разные имеют вид на документы. вносим руками в тесты погрешности.
расстояния, неполные сопадения, очередности, поисковые алгоритмы, lucene. всё руками эвристики.
стало хуже. тестовый есть. сделали лучше.
окей. а можно корни-спряжения-синонимы и всякую похожесть без знаний?
деньги.
word2vec. арендоталель - арендатор ~ помещение - плата.
стало хуже.
меням эвристики.
окей, теперь дерево эвристик, вероятностоное.
а порядок слов важен в предложении? что зачем следует. да. эвристика и вон та статья про обучение порядку на наши примеры.
десятки параметров. туда сюда меняем лучше не становиться.
оптимизация параметров оптимизацией. рандомайз не локальный максимум. машина ищет максимум.
вух. хорошего студента наняли лингвиста. поговорить за язык на языке.
помню егор что то говорил про внимание. хм. а джеф хайукингс говорил про память внимание предсказание последовательности в 2004. и создатели глубоких сетей сказали что в жопе ибо последовательости и время плохо моделируются в 2015.
что то нашли. преминили. нет регрессий.
студент вносит знания языка в эвристки и классический грамматический натуральный язык.
а почему бы нам знания, то есть выходы эвристик промежуточных не подать на сеть.
стало хуже. туда сюда лучше. теперь наконец сеть решает на эвристиках. а не на грязных данных.
NLU? RELR for explainability?

Governance model

Input documents and data are closed-proprietary
Generated models are closed-proprietary
Code is open, but AGPL (or similar, with approciate clause for investor)
Code after X(1 year or next release or fail of startup) is under Apache(other?)

Initial Delivery model

Online Office (Google, Microsoft) plugin to help detect coventants.

Name		Name	Last commit message	Last commit date
Latest commit History 206 Commits
.vscode		.vscode
data		data
integration		integration
ml		ml
src		src
tests		tests
.editorconfig		.editorconfig
.gitignore		.gitignore
.gitmodules		.gitmodules
LICENSE		LICENSE
azure-pipelines.yml		azure-pipelines.yml
build-run.cmd		build-run.cmd
chaintrack.sln		chaintrack.sln
deploy-elastic.cmd		deploy-elastic.cmd
install-portable-libreoffice.cmd		install-portable-libreoffice.cmd
package-lock.json		package-lock.json
proposal.md		proposal.md
readme.md		readme.md
run-elastic.cmd		run-elastic.cmd
run-unoconv.cmd		run-unoconv.cmd
setup-windows.cmd		setup-windows.cmd

License

legalhackersby/covenantcontrol

Folders and files

Latest commit

History

Repository files navigation

DISCLAIMER

Run

Build

Works in Visual Studio Code 1.29.1 with plugins:

SDK and runtime

Front

All On Windows 10

All on Ubuntu

Team

Domain

Main scenario

Similar solutions

Features

Proof of Concept

Solution

Algorithm development

Governance model

Initial Delivery model

About

Resources

License

Stars

Watchers

Forks

Languages

Works in `Visual Studio Code 1.29.1` with plugins: