C# (CSharp) week_11_web_crawler HTTPDownloader 예제들

프로그래밍 언어: C# (CSharp)

네임스페이스/패키지 이름: week_11_web_crawler

클래스/타입: HTTPDownloader

hotexamples.com에서의 예제들: 2

C# (CSharp) week_11_web_crawler HTTPDownloader - 2개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 C# (CSharp)의 week_11_web_crawler.HTTPDownloader에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

FuncCrawlGivenURL(1)

ReturnAbsUrl(1)

readFailedUrls(1)

writeFailedUrlsToFile(1)

예제 #1

파일 보기

        private void btnStartCrawling_Click(object sender, RoutedEventArgs e)
        {
            Directory.CreateDirectory(sourceFilesDirectory);

            if (File.Exists(srCrawledLinksPath))
            {
                foreach (var item in File.ReadLines(srCrawledLinksPath))
                {
                    hsCrawledLinks.Add(item);
                }
            }

            if (File.Exists(srLinksDiscoveredPath))
            {
                foreach (var item in File.ReadLines(srLinksDiscoveredPath))
                {
                    if (hsCrawledLinks.Contains(item))
                    {
                        continue;
                    }
                    hsDiscoveredLinks.Add(item);
                }
            }

            HTTPDownloader.readFailedUrls(ref dicFailedUrls);

            hsDiscoveredLinks.Add(txtRootUrl.Text);

            while (true)
            {
                if (hsDiscoveredLinks.Count == 0)
                {
                    break;
                }
                string        srNextUrl = "";
                List <string> lstRemove = new List <string>();
                foreach (var item in hsDiscoveredLinks)
                {
                    if (dicFailedUrls.ContainsKey(item.func_GenerateURLHash()))
                    {
                        if (dicFailedUrls[item.func_GenerateURLHash()].irFailCount >= 3)
                        {
                            if (dicFailedUrls[item.func_GenerateURLHash()].dtPause.AddHours(24) > DateTime.Now)
                            {
                                continue;
                            }
                            else
                            {
                                dicFailedUrls.Remove(item.func_GenerateURLHash());
                            }
                        }
                    }

                    if (hsCrawledLinks.Contains(item))
                    {
                        lstRemove.Add(item);
                    }
                    else
                    {
                        srNextUrl = item;
                        break;
                    }
                }
                foreach (var item in lstRemove)
                {
                    hsDiscoveredLinks.Remove(item);
                }
                if (srNextUrl.Length == 0)
                {
                    break;
                }

                crawlGivenURL(srNextUrl);
            }
        }

예제 #2

파일 보기

        private static void crawlGivenURL(string srCrawlURL)
        {
            string srUrlHash = srCrawlURL.func_GenerateURLHash();
            string srDownloadedFileSaveName = sourceFilesDirectory + "/" + srUrlHash + ".txt";

            string srBaseUrl = srCrawlURL;

            HTTPDownloader.WebPageDownloadResult myDownloadResult = new HTTPDownloader.WebPageDownloadResult();

            if (File.Exists(srDownloadedFileSaveName))
            {
                myDownloadResult.srCrawledPageSource = File.ReadAllText(srDownloadedFileSaveName);
            }
            else
            {
                myDownloadResult = HTTPDownloader.FuncCrawlGivenURL(srBaseUrl);

                if (myDownloadResult.occuredException != null)
                {
                    File.AppendAllText("errors.txt", srBaseUrl + "\r\n" + myDownloadResult.occuredException.StackTrace + "\r\n\r\n\r\n");

                    if (dicFailedUrls.ContainsKey(srBaseUrl.func_GenerateURLHash()))
                    {
                        dicFailedUrls[srBaseUrl.func_GenerateURLHash()].irFailCount++;
                        dicFailedUrls[srBaseUrl.func_GenerateURLHash()].dtPause = DateTime.Now;
                    }
                    else
                    {
                        dicFailedUrls.Add(srBaseUrl.func_GenerateURLHash(), new HTTPDownloader.csUrlFails {
                            dtPause = DateTime.Now, irFailCount = 1, srUrl = srBaseUrl
                        });
                    }

                    HTTPDownloader.writeFailedUrlsToFile(dicFailedUrls);
                }

                if (myDownloadResult.httpStatusResult == System.Net.HttpStatusCode.OK)
                {
                    hsCrawledLinks.Add(srBaseUrl);
                    File.AppendAllText(srCrawledLinksPath, srBaseUrl + "\r\n");//we add to our crawled url database the new successfully crawled url
                    File.WriteAllText(srDownloadedFileSaveName, myDownloadResult.srCrawledPageSource);
                }
            }

            HtmlDocument hdDoc = new HtmlDocument();

            hdDoc.LoadHtml(myDownloadResult.srCrawledPageSource);

            var links = hdDoc.DocumentNode.SelectNodes("//a");

            List <string> lstDiscoveredLinks = new List <string>();

            if (links != null)
            {
                foreach (var vrNode in links)
                {
                    if (vrNode.Attributes["href"] != null)
                    {
                        string srNewAbsLink = vrNode.Attributes["href"].Value.ToString();
                        srNewAbsLink = HTTPDownloader.ReturnAbsUrl(srBaseUrl, srNewAbsLink, "toros.edu.tr");
                        if (srNewAbsLink == null)
                        {
                            continue;
                        }

                        bool blByPass = false;

                        foreach (var item in HTTPDownloader.lstIgnore)
                        {
                            if (srNewAbsLink.ToLowerInvariant().EndsWith(item))
                            {
                                blByPass = true;
                                break;
                            }
                        }
                        //equals to above foreach
                        if (HTTPDownloader.lstIgnore.Where(pr => srNewAbsLink.EndsWith(pr) == true).ToList().Count > 0)
                        {
                            continue;
                        }

                        if (blByPass == true)
                        {
                            continue;
                        }

                        lstDiscoveredLinks.Add(srNewAbsLink);
                        hsDiscoveredLinks.Add(srNewAbsLink);
                        Debug.WriteLine(srNewAbsLink);
                    }
                }
            }

            lstDiscoveredLinks = lstDiscoveredLinks.Distinct().ToList();
            File.AppendAllLines(srLinksDiscoveredPath, lstDiscoveredLinks);
        }