C# (CSharp) PsiMl.WebsiteClasification WebPage示例

编程语言: C# (CSharp)

命名空间/包名称: PsiMl.WebsiteClasification

类/类型: WebPage

hotexamples.com的示例: 5

C# (CSharp) PsiMl.WebsiteClasification WebPage - 已找到5个示例。这些是从开源项目中提取的最受好评的PsiMl.WebsiteClasification.WebPage现实C# (CSharp)示例。您可以评价示例，以帮助我们提高示例质量。

示例#1

显示文件

文件： Fetcher.cs 项目： trooper/websiteclassification

 private IEnumerable<string> ExtractUrls(WebPage page)
 {
     // Overhead, we are essentially parsing a web page twice (once for links, second time for content)
     HtmlWeb hw = new HtmlWeb();
     HtmlAgilityPack.HtmlDocument doc = new HtmlAgilityPack.HtmlDocument();
     doc.LoadHtml(page.Content);
     foreach (HtmlNode link in doc.DocumentNode.SelectNodes("//a[@href]"))
     {
         string hrefValue = link.GetAttributeValue("href", string.Empty);
         yield return hrefValue;
     }
 }

示例#2

显示文件

文件： WebTools.cs 项目： trooper/websiteclassification

 public static string GetRawTextFromPage(WebPage page)
 {
     HtmlDocument doc = new HtmlDocument();
     doc.LoadHtml(page.Content);
     return GetRawFromHTML(doc);
 }

示例#3

显示文件

文件： HTMLStorage.cs 项目： trooper/websiteclassification

 public HtmlDocument GetDocument(WebPage webPage)
 {
     return Cache[webPage.Url];
 }

示例#4

显示文件

文件： Fetcher.cs 项目： trooper/websiteclassification

        private WebPage FetchPage(string url)
        {
            var page = new WebPage();
            var request = (HttpWebRequest)WebRequest.Create(url);
            request.UserAgent = DefaultUserAgent;

            try
            {
                using (var response = request.GetResponse())
                {
                    using (var reader = new StreamReader(response.GetResponseStream()))
                    {
                        var html = reader.ReadToEnd();
                        page.Content = html;
                        page.Url = url;
                    }
                }
            }
            catch (WebException ex)
            {
                HttpWebResponse webResponse = (HttpWebResponse)ex.Response;
                if (webResponse.StatusCode == HttpStatusCode.NotFound)
                {
                    // 404
                }
                else
                {
                    throw ex;
                }
            }

            return page;
        }

示例#5

显示文件

文件： HTMLStorage.cs 项目： trooper/websiteclassification

 public void Add(WebPage webPage)
 {
     var document = new HtmlDocument();
     document.LoadHtml(webPage.Content.ToLower());
     Cache.Add(webPage.Url, document);
 }