Пример #1
0
        private bool GuardarClasificador(Pliego pliego, TraceWriter log)
        {
            try
            {
                var IdPdf = pliego.IdPdf.ToString();
                var Classify = pliego.KeyGoogleClassify;
                //SqlConnection sqlConnection1 = new SqlConnection("");
                SqlConnection sqlConnection1 = new SqlConnection("");
                System.Data.SqlClient.SqlCommand cmd = new System.Data.SqlClient.SqlCommand();
                cmd.CommandType = System.Data.CommandType.Text;
                cmd.CommandText = "INSERT INTO dbo.PliegosClassifyText(IdPdf, Categorias) VALUES('" + IdPdf + "','" + Classify.ToString() + "')";
                cmd.Connection = sqlConnection1;

                sqlConnection1.Open();
                cmd.ExecuteNonQuery();
                sqlConnection1.Close();

                return true;
            }
            catch (Exception ex)
            {
                log.Info(ex.Message.ToString());
                return false;
            }

        }
Пример #2
0
        private async Task<string> InsertarKeyPhrase(Pliego pliego, TraceWriter log)
        {
            try
            {
                var IdPdf = pliego.IdPdf;
                var Pag = pliego.Pagina;
                var Bloque = pliego.Bloque;
                var Keys = pliego.KeyPhrases;
                var KeysGoogle = pliego.KeyGoogle;
                System.Data.SqlClient.SqlConnection sqlConnection1 = new System.Data.SqlClient.SqlConnection("”);

                System.Data.SqlClient.SqlCommand cmd = new System.Data.SqlClient.SqlCommand();
                cmd.CommandType = System.Data.CommandType.Text;
                cmd.CommandText = "INSERT INTO dbo.Pliegos(IdPdf, pag, bloque, Keys, KeysGoogleEntidades) VALUES('" + IdPdf + "', " + Pag + ", " + Bloque + ", '" + Keys + "', '" + KeysGoogle + "')";
                cmd.Connection = sqlConnection1;

                sqlConnection1.Open();
                cmd.ExecuteNonQuery();
                sqlConnection1.Close();
            }
            catch(Exception ex)
            {
                log.Info("Error: " + ex.Message.ToString());
                return "Error" ;

            }


          

            return "ok";

           

        }
Пример #3
0
        public async Task<string> ExtraerkeyPhrasesFromPDFAsync(TraceWriter log, string PDFNameGuid)
        {
            string Horainicio = string.Format("{0:HH:mm:ss tt}", DateTime.Now);
            log.Info(Horainicio.ToString());

            Stopwatch sw = new Stopwatch();
            sw.Start();


            var result = new StringBuilder();
            string keyPhrasesGoogle = string.Empty;
            string classifyTextGoogle = string.Empty;
            string textoPagina;
            string keyPhrases = string.Empty;
            int numeroPagina = 1;
            string separador = ",";
            string jsonRegistro;
            int cantidadLlamadasAPI = 0;
            var TiempoEspera = Environment.GetEnvironmentVariable("CustomTrheadSleep");
            var TiempoEsperaInt = Convert.ToInt32(TiempoEspera);
            log.Info("Tiempo Espera: " + TiempoEsperaInt.ToString());

            


            foreach (PdfSharp.Pdf.PdfPage page in doc.Pages)
            {

                result.Length = 0;

                ExtractText(ContentReader.ReadContent(page), result);
                              

                textoPagina = AnalizadorTexto.RemoveSpecialCharacters(result.ToString());
                Dictionary<int, string> subPaginas = splitPagina(textoPagina);

                foreach (KeyValuePair<int, string> entry in subPaginas)
                {
                    try
                    {
                        if (cantidadLlamadasAPI == 3)
                        {
                            Thread.Sleep(TiempoEsperaInt);
                            cantidadLlamadasAPI = 0;
                        }
                        else
                        {
                            cantidadLlamadasAPI = cantidadLlamadasAPI + 1;
                            MultiLanguageBatchInput classifyTextGoogleML = new MultiLanguageBatchInput(
                            new List<MultiLanguageInput>()
                            {
                          new MultiLanguageInput("es", numeroPagina.ToString(), entry.Value.ToString())
                            });
                            var texto = classifyTextGoogleML.Documents[0].Text.ToString();

                            //try { classifyTextGoogle = AnalizadorTexto.Clasificador(texto.Replace(".", ""), log);}
                            //catch (Exception ex) { log.Info("Error en API Google Classify: " + ex.Message.ToString()); }

                            try { keyPhrasesGoogle = AnalizadorTexto.ProcesarGoogle(texto.Replace(".", ""), log); }
                            catch (Exception ex) { log.Info("Error en API Google Process: " + ex.Message.ToString()); }
                            //TODO: DEJAR SOLO ANALISIS ENTIDADES EN ESPAÑOLS
                            //try { keyPhrases = AnalizadorTexto.AnalizarTextoJson(entry.Value.ToString(), numeroPagina.ToString(), log); }
                            //catch (Exception ex) { log.Info("Error en API AnalizarTextoJson: " + ex.Message.ToString()); }


                            
                            Thread.Sleep(TiempoEsperaInt);

                        }
                        //keyPhrases = AnalizadorTexto.AnalizarTexto(entry.Value.ToString(), numeroPagina.ToString(), log); //este se usa cuando el resultado va a una DB
                    }
                    catch (Exception ex)
                    {
                        log.Info(ex.Message);

                    }
                    var idPDF = PDFNameGuid.ToString() + "-" + doc.Guid.ToString();
                    keyPhrases = "";
                    classifyTextGoogle = "";
                    Pliego pliego = new Pliego(idPDF, numeroPagina, entry.Key, keyPhrases, keyPhrasesGoogle ,classifyTextGoogle);
                    await InsertarKeyPhrase(pliego, log);
                    //GuardarClasificador(pliego, log);



                    log.Info("Se procesó el bloque : " + entry.Key.ToString() + " de la página " + numeroPagina.ToString() + ". Total de páginas: " + doc.PageCount.ToString() );
                }
                
                numeroPagina++;
            }

            //InsertarEnTxt(result1.ToString());
            EjecutarSPEliminarVacios(log);
            string HoraFin = string.Format("{0:HH:mm:ss tt}", DateTime.Now);
            sw.Stop();

            var tiempoPasado = sw.Elapsed;
            log.Info(tiempoPasado.ToString());
            

            return result.ToString();
        }