C# (CSharp) SimpleWebCrawler.Services WebCrawlerUtil 예제들

프로그래밍 언어: C# (CSharp)

네임스페이스/패키지 이름: SimpleWebCrawler.Services

클래스/타입: WebCrawlerUtil

hotexamples.com에서의 예제들: 2

C# (CSharp) SimpleWebCrawler.Services WebCrawlerUtil - 2개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 C# (CSharp)의 SimpleWebCrawler.Services.WebCrawlerUtil에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

ConvertToAbsoluteUri(1)

GetResponseUri(1)

예제 #1

파일 보기

        //Implemented BST for web crawing
        public IEnumerable <ParsedHtmlDocumentResult> Craw()
        {
            IDictionary <Uri, ParsedHtmlDocumentResult> visitedPages = new Dictionary <Uri, ParsedHtmlDocumentResult>();
            //Page queue stores pages to be visited
            Queue <Uri> pageQueue = new Queue <Uri>();
            // Test if the url is active
            var responseUri = WebCrawlerUtil.GetResponseUri(this.WebUri);

            this.WebUri = responseUri ?? throw new Exception(string.Format("The URL is either invalid or not found: {0}", this.WebUri.AbsoluteUri));

            //Start from the main page
            var parsedHtmlDoc = this.ParseHtmlDoc(this.WebUri, pageQueue, visitedPages);

            visitedPages.Add(this.WebUri, parsedHtmlDoc);
            yield return(parsedHtmlDoc);

            //Process queue
            while (pageQueue.Count > 0)
            {
                var item = pageQueue.Dequeue();
                if (!visitedPages.ContainsKey(item))
                {
                    parsedHtmlDoc = this.ParseHtmlDoc(item, pageQueue, visitedPages);
                    visitedPages.Add(item, parsedHtmlDoc);
                    yield return(parsedHtmlDoc);
                }
            }
        }

예제 #2

파일 보기

        //Use HTML agility pack to parse HTML pages;
        //if the page is within the same domain and it has not been visited and is not in the queue, add to the queue for processing
        private ParsedHtmlDocumentResult ParseHtmlDoc(Uri uri, Queue <Uri> pageQueue, IDictionary <Uri, ParsedHtmlDocumentResult> visitedPages)
        {
            var web           = new HtmlWeb();
            var htmlDoc       = web.Load(uri);
            var parsedHtmlDoc = new ParsedHtmlDocumentResult(uri);

            try
            {
                var nodes = htmlDoc.DocumentNode.SelectNodes(
                    "//a[@href] | //link[@rel='stylesheet' and @href] | //img[@src] | //script[@type='text/javascript' and @src='*.js']");
                if (nodes != null)
                {
                    foreach (var node in nodes)
                    {
                        var linkUrl = this.GetNodeLink(node);
                        uri = WebCrawlerUtil.ConvertToAbsoluteUri(linkUrl, parsedHtmlDoc.Uri);
                        if (uri != null && uri != this.WebUri && uri != parsedHtmlDoc.Uri)
                        {
                            if (uri.Host == this.WebUri.Host) //internal links
                            {
                                if (node.Name == "a")         //links to internal pages
                                {
                                    if (!visitedPages.ContainsKey(uri) && !pageQueue.Contains(uri))
                                    {
                                        pageQueue.Enqueue(uri);
                                    }
                                }
                                else
                                {
                                    parsedHtmlDoc.AddStaticContent(uri);
                                }
                            }
                            else // links to external pages
                            {
                                parsedHtmlDoc.AddExternalLink(uri);
                            }
                        }
                        else
                        {
                            //log messages
                        }
                    }
                }

                return(parsedHtmlDoc);
            }
            catch (Exception ex)
            {
                parsedHtmlDoc.ErrorMessage = string.Format("Exception occured while peocessing {0}; message: {1}",
                                                           parsedHtmlDoc.Uri.AbsoluteUri, ex.Message);
                return(parsedHtmlDoc);
            }
        }