Exemplo n.º 1
0
        private string news_html_regex(string news, List <string> lists) //метод очищает текс, составляет список гиперссылок и добавляет в список
        {
            news = Myregex.MyTextDelete(news, "<!DOCTYPE HTML>", "<!-- infoBox -->");
            news = Myregex.MyTextDelete(news, "doubleLineSeperator", "</html>");
            news = Myregex.MyTextDelete(news, "<span class=" + '"' + "noBold", "</span>");
            news = Myregex.MyTextDelete(news, "<script>", "</script>");
            news = Myregex.MyTextDelete(news, "<div ", "<div class=" + "mediumTitle1" + ">");

            //сохраняем гиперссылки всех новостей
            foreach (var x in cfb.HTML_Reference(news))
            {
                if (x != null)
                {
                    lists.Add("https://ru.investing.com" + x);
                }
            }

            news = Regex.Replace(news, "</article>", "*", RegexOptions.IgnoreCase);     //метка для разделения текста по новостям
                                                                                        //далее финальная очистка текста от html тегов
            news = Myregex.HtmlRegexSpeed(news);
            news = Regex.Replace(news, "Investing.com ", "", RegexOptions.IgnoreCase);
            news = Regex.Replace(news, "-&nbsp", "ДАТА: ", RegexOptions.IgnoreCase);
            news = Regex.Replace(news, "&nbsp;", "", RegexOptions.IgnoreCase);
            news = Regex.Replace(news, "&laquo;", "", RegexOptions.IgnoreCase);
            news = Regex.Replace(news, "&ndash;", "", RegexOptions.IgnoreCase);
            news = Regex.Replace(news, "&mdash;", "", RegexOptions.IgnoreCase);
            news = Regex.Replace(news, "<div class=", "", RegexOptions.IgnoreCase);
            news = Regex.Replace(news, ";", "", RegexOptions.IgnoreCase);
            news = Regex.Replace(news, "\t", "", RegexOptions.IgnoreCase);
            news = Regex.Replace(news, "  ", "", RegexOptions.IgnoreCase);
            return(news);
        }
Exemplo n.º 2
0
        public string NewsTraid(int number, List <string> lst) //в зависимости от выбраннй строки из списка новостей загружаем html код и очищаем его
        {
            string news = "";

            news = NewsResponse(lst[number]);
            if (!news.Contains("Ошибка 404: Страница не найдена"))      //если по неизвестным причинам страница работвать не будет, например на доработке
            {
                news = Myregex.MyTextDelete(news, "<!DOCTYPE HTML>", "<div class=" + '"' + "WYSIWYG articlePage" + '"' + ">");
                news = Myregex.MyTextDelete(news, "<!-- /6938/FP_RU_site/FP_RU_TextNote -->", "</html>");
                news = Myregex.HtmlRegexSpeed(news);

                news = Regex.Replace(news, "Investing.com ", "", RegexOptions.IgnoreCase);
                news = Regex.Replace(news, "&mdash;", "", RegexOptions.IgnoreCase);
                news = Regex.Replace(news, "&laquo;", "", RegexOptions.IgnoreCase);
                news = Regex.Replace(news, "  ", "", RegexOptions.IgnoreCase);
                news = Regex.Replace(news, "&copy;", "", RegexOptions.IgnoreCase);
                news = Regex.Replace(news, "&raquo;", "", RegexOptions.IgnoreCase);
                news = Regex.Replace(news, "&ndash;", "", RegexOptions.IgnoreCase);
            }
            return(news);
        }