Skip to content

ndhelix/SortBigFile

Repository files navigation

Здесь представлены две утилиты: для создания большого файла и для сортировки большого файла.

В создании файла предусмотрены дубликаты строк.
Создание файлов не быстрое, так как каждый символ генерируется случайно. 50 Гб может генерироваться минут 30.

Сортировка проиисходит следующим образом:

1) Файл делится на маленькие части и эти части одновременно сортируются и сливаются в части побольше. Всё это происходит в папке /sortarea
2) Части из пункта 1 сливаются в один большой файл.

Сортировка 100GB файла может занять часов пять.

Улучшения, которые я пока не сделал:
• написание сортировщика в виде командной строки, а не WinForms
• написать комментарии в коде программы
• усовершенствование дубликатов в генерации файла в том плане, что «первый» дубликат может иметь право оказаться в конце
• сделать нормальное описание программ вместо этой короткой записки 

About

C# project that generates and sorts BIG ( ~100 Gb) text files

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages