public void Load(string[] rdf_files) { DateTime tt0 = DateTime.Now; // Закроем использование if (triplets != null) { triplets.Close(); triplets = null; } if (graph_x != null) { graph_x.Close(); graph_x = null; } // Создадим ячейки triplets = new PaCell(tp_triplets, path + "triplets.pac", false); triplets.Clear(); quads = new PaCell(tp_quads, path + "quads.pac", false); graph_a = new PaCell(tp_graph, path + "graph_a.pac", false); graph_x = new PxCell(tp_graph, path + "graph_x.pxc", false); graph_x.Clear(); n4 = new PaCell(tp_n4, path + "n4.pac", false); n4.Clear(); Console.WriteLine("cells initiated duration=" + (DateTime.Now - tt0).Ticks / 10000L); tt0 = DateTime.Now; TripletSerialInput(triplets, rdf_files); Console.WriteLine("After TripletSerialInput. duration=" + (DateTime.Now - tt0).Ticks / 10000L); tt0 = DateTime.Now; LoadQuadsAndSort(); Console.WriteLine("After LoadQuadsAndSort(). duration=" + (DateTime.Now - tt0).Ticks / 10000L); tt0 = DateTime.Now; FormingSerialGraph(new SerialBuffer(graph_a, 3)); Console.WriteLine("Forming serial graph ok. duration=" + (DateTime.Now - tt0).Ticks / 10000L); tt0 = DateTime.Now; // произвести объектное представление object g_value = graph_a.Root.Get().Value; graph_x.Fill2(g_value); Console.WriteLine("Forming fixed graph ok. duration=" + (DateTime.Now - tt0).Ticks / 10000L); tt0 = DateTime.Now; // ========= Завершение загрузки ========= // Закроем файлы и уничтожим ненужные triplets.Close(); quads.Close(); File.Delete(path + "quads.pac"); graph_a.Close(); File.Delete(path + "graph_a.pac"); graph_x.Close(); // Откроем для использования InitCells(); }
private static BTree TestBTreeFill(IEnumerable <object[]> query, PTypeRecord ptElement, string path, Func <object, PxEntry, int> edepth) { PxCell elementsCell = new PxCell(new PTypeSequence(ptElement), path + "elements", false); elementsCell.Fill2(query); var tt0 = DateTime.Now; var treeFromQuery = new BTree(ptElement, edepth, path + "TreeFromEntree.pxc", readOnly: false); treeFromQuery.Fill(elementsCell.Root, o => ((object[])o)[0], false); Console.WriteLine("tree fill reading entry createtd,duration={0}", (DateTime.Now - tt0).Ticks / 10000L); tt0 = DateTime.Now; // Иcпытание на "предельные" характеристики по скорости ввода данных. Данные сортируются, а потом выстраивается в // оперативной памяти структурный объект, соответствующий синтаксису и семантике введенного бинарного дерева. // Потом объект вводится в ячейку и испытывается. // На моем домашнем компьютере - 130 мс. TestSearch(treeFromQuery, "Марчук Александр Гурьевич"); Console.WriteLine("======TestSearch ok. duration=" + (DateTime.Now - tt0).Ticks / 10000L); Console.WriteLine(); elementsCell.Close(); return(treeFromQuery); }
public void Build() { DateTime tt0 = DateTime.Now; otriples.Flush(); dtriples.Flush(); literals.Flush(); // ======== Формирование вторичных ячеек ======== PaCell otriples_op = new PaCell(tp_otriples, path + "otriples_op.pac", false); otriples_op.Clear(); otriples_op.Fill(new object[0]); // Другой вариант - копирование файла otriples.Root.Scan((off, pobj) => { otriples_op.Root.AppendElement(pobj); return(true); }); otriples_op.Flush(); Console.WriteLine("Additional files ok. duration={0}", (DateTime.Now - tt0).Ticks / 10000L); tt0 = DateTime.Now; // ======= Сортировки ======= // Упорядочивание otriples по s-p-o SPOComparer spo_compare = new SPOComparer(); otriples.Root.SortByKey <SubjPredObjInt>(rec => new SubjPredObjInt(rec), spo_compare); Console.WriteLine("otriples.Root.Sort ok. Duration={0} msec.", (DateTime.Now - tt0).Ticks / 10000L); tt0 = DateTime.Now; SPComparer sp_compare = new SPComparer(); // Упорядочивание otriples_op по o-p otriples_op.Root.SortByKey <SubjPredInt>(rec => { object[] r = (object[])rec; return(new SubjPredInt() { pred = (int)r[1], subj = (int)r[2] }); }, sp_compare); Console.WriteLine("otriples_op Sort ok. Duration={0} msec.", (DateTime.Now - tt0).Ticks / 10000L); tt0 = DateTime.Now; // Упорядочивание dtriples_sp по s-p dtriples.Root.SortByKey(rec => { object[] r = (object[])rec; return(new SubjPredInt() { pred = (int)r[1], subj = (int)r[0] }); }, sp_compare); Console.WriteLine("dtriples.Root.Sort ok. Duration={0} msec.", (DateTime.Now - tt0).Ticks / 10000L); tt0 = DateTime.Now; // ==== Определение количества сущностей ==== // Делаю три упрощенных сканера DiapasonScanner <int> i_fields = new DiapasonScanner <int>(dtriples, ent => (int)((object[])ent.Get())[0]); DiapasonScanner <int> i_direct = new DiapasonScanner <int>(otriples, ent => (int)((object[])ent.Get())[0]); DiapasonScanner <int> i_inverse = new DiapasonScanner <int>(otriples_op, ent => (int)((object[])ent.Get())[2]); int n_entities = 0; i_fields.Start(); i_direct.Start(); i_inverse.Start(); while (i_fields.HasValue || i_direct.HasValue || i_inverse.HasValue) { n_entities++; int id0 = i_fields.HasValue ? i_fields.KeyCurrent : Int32.MaxValue; int id1 = i_direct.HasValue ? i_direct.KeyCurrent : Int32.MaxValue; int id2 = i_inverse.HasValue ? i_inverse.KeyCurrent : Int32.MaxValue; // Минимальное значение кода идентификатора int id = Math.Min(id0, Math.Min(id1, id2)); if (id0 == id) { i_fields.Next(); } if (id1 == id) { i_direct.Next(); } if (id2 == id) { i_inverse.Next(); } } Console.WriteLine("Scan3count ok. Duration={0} msec. cnt_e={1} ", (DateTime.Now - tt0).Ticks / 10000L, n_entities); tt0 = DateTime.Now; // ==== Построение дерева слиянием трех ячеек ==== // Делаю три сканера из трех ячеек DiapasonElementsScanner <SubjPredInt> fields = new DiapasonElementsScanner <SubjPredInt>(dtriples, ob => { object[] v = (object[])ob; return(new SubjPredInt() { subj = (int)v[0], pred = (int)v[1] }); }); DiapasonElementsScanner <SubjPredInt> direct = new DiapasonElementsScanner <SubjPredInt>(otriples, ob => { object[] v = (object[])ob; return(new SubjPredInt() { subj = (int)v[0], pred = (int)v[1] }); }); DiapasonElementsScanner <SubjPredInt> inverse = new DiapasonElementsScanner <SubjPredInt>(otriples_op, ob => { object[] v = (object[])ob; return(new SubjPredInt() { subj = (int)v[2], pred = (int)v[1] }); }); // Стартуем сканеры fields.Start(); direct.Start(); inverse.Start(); // Заведем ячейку для результата сканирования tree_fix.Clear(); tree_fix.Root.SetRepeat(n_entities); Console.WriteLine("tree_fix length={0}", tree_fix.Root.Count()); long longindex = 0; int cnt_e = 0; // для отладки long c1 = 0, c2 = 0, c3 = 0; // для отладки //PaEntry ent_dtriples = dtriples.Root.Element(0); // вход для доступа к литералам // Начинаем тройное сканирование while (fields.HasValue || direct.HasValue || inverse.HasValue) { // Здесь у нас НОВОЕ значение идентификатора cnt_e++; if (cnt_e % 10000000 == 0) { Console.Write("{0} ", cnt_e / 10000000); } int id0 = fields.HasValue ? fields.KeyCurrent.subj : Int32.MaxValue; int id1 = direct.HasValue ? direct.KeyCurrent.subj : Int32.MaxValue; int id2 = inverse.HasValue ? inverse.KeyCurrent.subj : Int32.MaxValue; // Минимальное значение кода идентификатора int id = Math.Min(id0, Math.Min(id1, id2)); // массив для получения "однородных" элементов из сканнеров object[] elements; List <object[]> list_fields = new List <object[]>(); while (fields.HasValue && fields.KeyCurrent.subj == id) { int su = fields.KeyCurrent.subj; int pr = fields.KeyCurrent.pred; var diap = fields.Next(out elements); c3 += diap.numb; list_fields.AddRange(elements.Cast <object[]>().Select(e3 => new object[] { e3[1], e3[2] })); } List <object[]> list_direct = new List <object[]>(); while (direct.HasValue && direct.KeyCurrent.subj == id) { int su = direct.KeyCurrent.subj; int pr = direct.KeyCurrent.pred; var diap = direct.Next(out elements); c1 += diap.numb; list_direct.AddRange(elements.Cast <object[]>().Select(e3 => new object[] { e3[1], e3[2] })); } List <object[]> list_inverse = new List <object[]>(); while (inverse.HasValue && inverse.KeyCurrent.subj == id) { int su = inverse.KeyCurrent.subj; int pr = inverse.KeyCurrent.pred; var diap = inverse.Next(out elements); c2 += diap.numb; object[] pr_sources_pair = new object[2]; pr_sources_pair[0] = pr; pr_sources_pair[1] = elements.Cast <object[]>().Select(e3 => e3[0]).ToArray(); list_inverse.Add(pr_sources_pair); } //Собираем полную запись object[] record = new object[] { id, list_fields.ToArray(), list_direct.ToArray(), list_inverse.ToArray() }; // Записываем в качестве элемента последовательности tree_fix.Root.Element(longindex).Set(record); longindex++; } tree_fix.Close(); Console.WriteLine("tree_fix ok. Duration={0} msec.", (DateTime.Now - tt0).Ticks / 10000L); tt0 = DateTime.Now; otriples.Close(); otriples_op.Close(); dtriples.Close(); literals.Close(); }
public int MakeTreeFix() { DateTime tt0 = DateTime.Now; // Служебная часть. Она не нужна, если параметрами будут PaCell otriples, PaCell otriples_op, PaCell dtriples_sp PType tp_entity = new PType(PTypeEnumeration.integer); PType tp_otriple_seq = new PTypeSequence(new PTypeRecord( new NamedType("subject", tp_entity), new NamedType("predicate", tp_entity), new NamedType("object", tp_entity))); //PType tp_dtriple_seq = new PTypeSequence(new PTypeRecord( // new NamedType("subject", tp_entity), // new NamedType("predicate", tp_entity), // new NamedType("data", tp_literal))); PType tp_dtriple_spf = new PTypeSequence(new PTypeRecord( new NamedType("subject", tp_entity), new NamedType("predicate", tp_entity), new NamedType("offset", new PType(PTypeEnumeration.longinteger)))); otriples = new PaCell(tp_otriple_seq, path + "otriples.pac", true); PaCell otriples_op = new PaCell(tp_otriple_seq, path + "otriples_op.pac", true); PaCell dtriples_sp = new PaCell(tp_dtriple_spf, path + "dtriples.pac", true); // ==== Определение количества сущностей ==== // Делаю три упрощенных сканера DiapasonScanner <int> i_fields = new DiapasonScanner <int>(dtriples_sp, ent => { object[] v = (object[])ent.Get(); return((int)v[0]); }); DiapasonScanner <int> i_direct = new DiapasonScanner <int>(otriples, ent => { object[] v = (object[])ent.Get(); return((int)v[0]); }); DiapasonScanner <int> i_inverse = new DiapasonScanner <int>(otriples_op, ent => { object[] v = (object[])ent.Get(); return((int)v[2]); }); int n_entities = 0; i_fields.Start(); i_direct.Start(); i_inverse.Start(); while (i_fields.HasValue || i_direct.HasValue || i_inverse.HasValue) { n_entities++; int id0 = i_fields.HasValue ? i_fields.KeyCurrent : Int32.MaxValue; int id1 = i_direct.HasValue ? i_direct.KeyCurrent : Int32.MaxValue; int id2 = i_inverse.HasValue ? i_inverse.KeyCurrent : Int32.MaxValue; // Минимальное значение кода идентификатора int id = Math.Min(id0, Math.Min(id1, id2)); if (id0 == id) { i_fields.Next(); } if (id1 == id) { i_direct.Next(); } if (id2 == id) { i_inverse.Next(); } } Console.WriteLine("Scan3count ok. Duration={0} msec. cnt_e={1} ", (DateTime.Now - tt0).Ticks / 10000L, n_entities); tt0 = DateTime.Now; // ==== Построение дерева слиянием отрех ячеек ==== // Делаю три сканера из трех ячеек DiapasonElementsScanner <SubjPredInt> fields = new DiapasonElementsScanner <SubjPredInt>(dtriples_sp, ob => { object[] v = (object[])ob; return(new SubjPredInt() { subj = (int)v[0], pred = (int)v[1] }); }); DiapasonElementsScanner <SubjPredInt> direct = new DiapasonElementsScanner <SubjPredInt>(otriples, ob => { object[] v = (object[])ob; return(new SubjPredInt() { subj = (int)v[0], pred = (int)v[1] }); }); DiapasonElementsScanner <SubjPredInt> inverse = new DiapasonElementsScanner <SubjPredInt>(otriples_op, ob => { object[] v = (object[])ob; return(new SubjPredInt() { subj = (int)v[2], pred = (int)v[1] }); }); // Стартуем сканеры fields.Start(); direct.Start(); inverse.Start(); // Заведем ячейку для результата сканирования PxCell tree_fix = this.entitiesTree; //new PxCell(tp_entitiesTree, path + "tree_fix.pxc", false); tree_fix.Clear(); tree_fix.Root.SetRepeat(namespaceMaper.coding.Count); Console.WriteLine("tree_fix length={0}", tree_fix.Root.Count()); int cnt_e = 0; // для отладки long c1 = 0, c2 = 0, c3 = 0; // для отладки //PaEntry ent_dtriples = dtriples.Root.Element(0); // вход для доступа к литералам // Начинаем тройное сканирование while (fields.HasValue || direct.HasValue || inverse.HasValue) { // Здесь у нас НОВОЕ значение идентификатора cnt_e++; if (cnt_e % 10000000 == 0) { Console.Write("{0} ", cnt_e / 10000000); } int id0 = fields.HasValue ? fields.KeyCurrent.subj : Int32.MaxValue; int id1 = direct.HasValue ? direct.KeyCurrent.subj : Int32.MaxValue; int id2 = inverse.HasValue ? inverse.KeyCurrent.subj : Int32.MaxValue; // Минимальное значение кода идентификатора int id = Math.Min(id0, Math.Min(id1, id2)); // массив для получения "однородных" элементов из сканнеров object[] elements; List <object[]> list_fields = new List <object[]>(); while (fields.HasValue && fields.KeyCurrent.subj == id) { int su = fields.KeyCurrent.subj; int pr = fields.KeyCurrent.pred; var diap = fields.Next(out elements); c3 += diap.numb; list_fields.AddRange(elements.Cast <object[]>().Select(e3 => new object[] { e3[1], e3[2] })); } List <object[]> list_direct = new List <object[]>(); while (direct.HasValue && direct.KeyCurrent.subj == id) { int su = direct.KeyCurrent.subj; int pr = direct.KeyCurrent.pred; var diap = direct.Next(out elements); c1 += diap.numb; list_direct.AddRange(elements.Cast <object[]>().Select(e3 => new object[] { e3[1], e3[2] })); } List <object[]> list_inverse = new List <object[]>(); while (inverse.HasValue && inverse.KeyCurrent.subj == id) { int su = inverse.KeyCurrent.subj; int pr = inverse.KeyCurrent.pred; var diap = inverse.Next(out elements); c2 += diap.numb; object[] pr_sources_pair = new object[2]; pr_sources_pair[0] = pr; pr_sources_pair[1] = elements.Cast <object[]>().Select(e3 => e3[0]).ToArray(); list_inverse.Add(pr_sources_pair); } //Собираем полную запись object[] record = new object[] { id, list_fields.ToArray(), list_direct.ToArray(), list_inverse.ToArray() }; // Записываем в качестве элемента последовательности if (id == 0) { Console.WriteLine("sfgh"); } tree_fix.Root.Element(id).Set(record); } tree_fix.Close(); this.entitiesTree = new PxCell(tp_entitiesTree, path + "entitiesTree.pxc", false); Console.WriteLine("Scan3fix ok. Duration={0} msec. cnt_e={1} ", (DateTime.Now - tt0).Ticks / 10000L, cnt_e); tt0 = DateTime.Now; return(cnt_e); }
// Из XML базы данных, выбирается множество RDF-дуг (DatatypeProperty) с предикатом http://fogid.net/o/name и формируется // последовательность пар (записей) имя-сущности - идентификатор сущности. Задача заключается в том, чтобы по частичному // имени, определить множество идентификаторов сущностей, для которых имеется похожее имя public static void Main(string[] args) { string path = @"..\..\..\Databases\"; // Тестирование сортировки по ключу со слиянием PaEntry.bufferBytes = 40; PaCell cell_simple = new PaCell(new PTypeSequence(new PType(PTypeEnumeration.integer)), path + "cimple.pac", false); cell_simple.Clear(); object[] arr = { 97, 1, 3, 2, 4, 9, 8, 7, 6, 0, 5, 99, 98 }; cell_simple.Fill(arr); cell_simple.Flush(); Console.WriteLine(cell_simple.Type.Interpret(cell_simple.Root.Get())); cell_simple.Root.SortByKey <int>(i_key => (int)i_key); Console.WriteLine(cell_simple.Type.Interpret(cell_simple.Root.Get())); return; PType tp_seq = new PTypeSequence(new PTypeRecord( new NamedType("name", new PType(PTypeEnumeration.sstring)), new NamedType("id", new PType(PTypeEnumeration.sstring)))); DateTime tt0 = DateTime.Now; Console.WriteLine("Start"); PaCell cella = new PaCell(tp_seq, path + "cella.pac", false); cella.Clear(); // Заполним ячейку данными XElement db = XElement.Load(path + "0001.xml"); cella.StartSerialFlow(); cella.S(); foreach (XElement rec in db.Elements()) { XAttribute about_att = rec.Attribute(sema2012m.ONames.rdfabout); if (about_att == null) { continue; } foreach (XElement prop in rec.Elements().Where(pr => pr.Name.LocalName == "name")) { cella.V(new object[] { prop.Value, about_att.Value }); } } cella.Se(); cella.EndSerialFlow(); // Проверим, что данные прочитались (должно получится 40361 пар имя-идентификатор) Console.WriteLine(cella.Root.Count()); // Надо перевести данные в фиксированный формат PxCell cell_seqnameid = new PxCell(tp_seq, path + "seqnameid.pxc", false); // очистим и перекинем данные cell_seqnameid.Clear(); cell_seqnameid.Fill2(cella.Root.Get()); Console.WriteLine("======Fill ok. duration=" + (DateTime.Now - tt0).Ticks / 10000L); tt0 = DateTime.Now; //// Теперь сортируем пары по первому (нулевому) полю //cell_seqnameid.Root.SortComparison((e1, e2) => //{ // string s1 = (string)e1.Field(0).Get(); // string s2 = (string)e2.Field(0).Get(); // return s1.CompareTo(s2); //}); //Console.WriteLine("======Sort ok. duration=" + (DateTime.Now - tt0).Ticks / 10000L); tt0 = DateTime.Now; // Сортируем по-другому cell_seqnameid.Root.Sort(e => { return((string)e.Field(0).Get()); }); Console.WriteLine("======Sort2 ok. duration=" + (DateTime.Now - tt0).Ticks / 10000L); tt0 = DateTime.Now; // Посмотрим первые 100 var qu = cell_seqnameid.Root.Elements().Skip(100).Take(10); foreach (var c in qu) { var v = c.GetValue(); Console.WriteLine(v.Type.Interpret(v.Value)); } Console.WriteLine("======First 10 after 100. duration=" + (DateTime.Now - tt0).Ticks / 10000L); tt0 = DateTime.Now; // поищем чего-нибудь string name = "Марчук Александр Гурьевич"; var found = cell_seqnameid.Root.BinarySearchFirst(e => { string nm = (string)e.Field(0).Get(); return(nm.CompareTo(name)); }); var f = found.GetValue(); Console.WriteLine(f.Type.Interpret(f.Value)); Console.WriteLine("======BinarySearchFirst. duration=" + (DateTime.Now - tt0).Ticks / 10000L); tt0 = DateTime.Now; // поищем по-другому string name2 = "марчук"; var found2 = cell_seqnameid.Root.BinarySearchFirst(e => { string nm = ((string)e.Field(0).Get()).ToLower(); if (nm.StartsWith(name2)) { return(0); } return(nm.CompareTo(name)); }); var f2 = found.GetValue(); Console.WriteLine(f2.Type.Interpret(f2.Value)); Console.WriteLine("======BinarySearchFirst variant 2. duration=" + (DateTime.Now - tt0).Ticks / 10000L); tt0 = DateTime.Now; // Поиск всех, удовлетворяющих условию string name3 = "белинский"; var found3 = cell_seqnameid.Root.BinarySearchAll(e => { string nm = ((string)e.Field(0).Get()).ToLower(); if (nm.StartsWith(name3)) { return(0); } return(nm.CompareTo(name3)); }); foreach (var ff in found3) { var f3 = ff.GetValue(); Console.WriteLine(f3.Type.Interpret(f3.Value)); } Console.WriteLine("======BinarySearchAll ok. duration=" + (DateTime.Now - tt0).Ticks / 10000L); tt0 = DateTime.Now; // Проверка "вручную" правильности поиска всех var query = cell_seqnameid.Root.Elements(); foreach (var rec in query) { object[] value = (object[])rec.Get(); string nam = ((string)value[0]).ToLower(); if (nam.StartsWith(name3)) { Console.WriteLine("{0} {1}", value[0], value[1]); } } Console.WriteLine("======Fin. duration=" + (DateTime.Now - tt0).Ticks / 10000L); tt0 = DateTime.Now; cella.Close(); cell_seqnameid.Close(); System.IO.File.Delete(path + "cella.pac"); System.IO.File.Delete(path + "seqnameid.pxc"); }