private string news_html_regex(string news, List <string> lists) //метод очищает текс, составляет список гиперссылок и добавляет в список { news = Myregex.MyTextDelete(news, "<!DOCTYPE HTML>", "<!-- infoBox -->"); news = Myregex.MyTextDelete(news, "doubleLineSeperator", "</html>"); news = Myregex.MyTextDelete(news, "<span class=" + '"' + "noBold", "</span>"); news = Myregex.MyTextDelete(news, "<script>", "</script>"); news = Myregex.MyTextDelete(news, "<div ", "<div class=" + "mediumTitle1" + ">"); //сохраняем гиперссылки всех новостей foreach (var x in cfb.HTML_Reference(news)) { if (x != null) { lists.Add("https://ru.investing.com" + x); } } news = Regex.Replace(news, "</article>", "*", RegexOptions.IgnoreCase); //метка для разделения текста по новостям //далее финальная очистка текста от html тегов news = Myregex.HtmlRegexSpeed(news); news = Regex.Replace(news, "Investing.com ", "", RegexOptions.IgnoreCase); news = Regex.Replace(news, "- ", "ДАТА: ", RegexOptions.IgnoreCase); news = Regex.Replace(news, " ", "", RegexOptions.IgnoreCase); news = Regex.Replace(news, "«", "", RegexOptions.IgnoreCase); news = Regex.Replace(news, "–", "", RegexOptions.IgnoreCase); news = Regex.Replace(news, "—", "", RegexOptions.IgnoreCase); news = Regex.Replace(news, "<div class=", "", RegexOptions.IgnoreCase); news = Regex.Replace(news, ";", "", RegexOptions.IgnoreCase); news = Regex.Replace(news, "\t", "", RegexOptions.IgnoreCase); news = Regex.Replace(news, " ", "", RegexOptions.IgnoreCase); return(news); }
public string NewsTraid(int number, List <string> lst) //в зависимости от выбраннй строки из списка новостей загружаем html код и очищаем его { string news = ""; news = NewsResponse(lst[number]); if (!news.Contains("Ошибка 404: Страница не найдена")) //если по неизвестным причинам страница работвать не будет, например на доработке { news = Myregex.MyTextDelete(news, "<!DOCTYPE HTML>", "<div class=" + '"' + "WYSIWYG articlePage" + '"' + ">"); news = Myregex.MyTextDelete(news, "<!-- /6938/FP_RU_site/FP_RU_TextNote -->", "</html>"); news = Myregex.HtmlRegexSpeed(news); news = Regex.Replace(news, "Investing.com ", "", RegexOptions.IgnoreCase); news = Regex.Replace(news, "—", "", RegexOptions.IgnoreCase); news = Regex.Replace(news, "«", "", RegexOptions.IgnoreCase); news = Regex.Replace(news, " ", "", RegexOptions.IgnoreCase); news = Regex.Replace(news, "©", "", RegexOptions.IgnoreCase); news = Regex.Replace(news, "»", "", RegexOptions.IgnoreCase); news = Regex.Replace(news, "–", "", RegexOptions.IgnoreCase); } return(news); }