/// <summary> /// Oblicza kontekst dla tokenu o wskazanym ID /// /// Jeśli token nie posiada wiersza w tablicy, zwracany jest pusty kontekst (pusta tablica). /// </summary> /// <param name="tokenId">ID tokenu do obliczenia kontekstu</param> /// <returns>Kontekst tokenu lub pusta tablica</returns> public KeyValuePair<uint, int>[] calculateContextForTokenId(uint tokenId) { /* Obiekt czytający macierz */ IxHalMatrixReader matrixReader = new IxHalMatrixReader(workingDirPath); /* Semafor - maksymalna liczba jednocześnie zakolejkowanych wątków ThreadPool */ Semaphore semaphore = new Semaphore(IxSettings.halAnalyzerThreadsNum, IxSettings.halAnalyzerThreadsNum); /* Wiersz tokenu, dla którego liczymy kontekst */ KeyValuePair<uint, ArrayRow<uint>> calculatedForRow = getArrayRow(tokenId); /* Jeśli wiersz tego tokenu nie istnieje, nie obliczysz kontekstu */ if (calculatedForRow.Key == 0) return new KeyValuePair<uint, int>[0]; /* Kalkulator odległości - kontekstu */ IxHalTokenContextCalculator calculator = new IxHalTokenContextCalculator(semaphore, calculatedForRow); /* Wczytaj pierwszą porcję wierszy do porównywania (liczenia odległości) dla tokenu */ KeyValuePair<uint, ArrayRow<uint>>[] calculatedAgainstRows = matrixReader.readArrayRowsChunk(1000); while (calculatedAgainstRows.Length != 0) { /* Zakolejkuj obliczenie odległości dla wczytanych wierszy */ calculator.calculate(calculatedAgainstRows); /* Wczytaj następną porcję wierszy */ calculatedAgainstRows = matrixReader.readArrayRowsChunk(1000); } matrixReader.finalize(); Misc.waitFullSemaphore(semaphore, IxSettings.halAnalyzerThreadsNum); calculator.computeFinalResult(); Misc.waitFullSemaphore(semaphore, IxSettings.halAnalyzerThreadsNum); return calculator.getCalculatedContext(); }
/// <summary> /// Tworzy indeks na plik macierzy /// /// Użycie dozwolone w trybie Mode.CREATE. /// </summary> public void createIndex() { IxHalMatrixReader halReader = new IxHalMatrixReader(this.workingDirPath); using (BinaryWriter indexWriter = new BinaryWriter(File.Create(workingDirPath + "halMatrix.idx"))) { KeyValuePair<uint, ArrayRow<uint>> row; uint lastAddedId = 0; long positionBefore = halReader.getPositionInFile(); while ((row = halReader.readNextArrayRow()).Key != 0) { while (lastAddedId++ != row.Key) { indexWriter.Write((long)-1); } indexWriter.Write(positionBefore); positionBefore = halReader.getPositionInFile(); } } halReader.finalize(); }
/// <summary> /// Optymalizuje macierz HAL zapisaną na dysku /// /// Zostaną usunięte wiersze i komórki tokenów, które wystąpiły mniej niż IxSettings.halMinCount razy. /// </summary> public void optimizeMatrix() { IxHalMatrixReader reader = new IxHalMatrixReader(workingDirPath); if (IxSettings.consoleDebug) Console.WriteLine("Calculating tokens for removal set..."); HashSet<uint> tokenRemovalSet = new HashSet<uint>(); KeyValuePair<uint, ArrayRow<uint>> row = reader.readNextArrayRow(); while (row.Key != 0) { if (row.Value.count < IxSettings.halMinCount) tokenRemovalSet.Add(row.Key); row = reader.readNextArrayRow(); reader.getPositionInFile(); } reader.reset(); if (IxSettings.consoleDebug) Console.WriteLine("Removing rows and cells..."); row = reader.readNextArrayRow(); using (BinaryWriter writer = new BinaryWriter(File.Create(altWorkingDirPath + "halMatrixOptimized.dat"))) { while (row.Key != 0) { if (!tokenRemovalSet.Contains(row.Key)) { Row<uint> newRow = new Row<uint>(); newRow.count = row.Value.count; for (int i = 0, count = row.Value.cells.Length; i < count; i++) { if (!tokenRemovalSet.Contains(row.Value.cells[i].Key)) newRow.cells.Add(row.Value.cells[i].Key, row.Value.cells[i].Value); } IxHalStorage.writeRow(writer, new KeyValuePair<uint,Row<uint>>(row.Key, newRow)); } row = reader.readNextArrayRow(); reader.getPositionInFile(); } } reader.finalize(); File.Delete(workingDirPath + "halMatrix.dat"); File.Move(altWorkingDirPath + "halMatrixOptimized.dat", workingDirPath + "halMatrix.dat"); }