C# (CSharp) CrawlerX.Crawl示例

编程语言: C# (CSharp)

类/类型: CrawlerX

方法/功能: Crawl

hotexamples.com的示例: 3

C# (CSharp) CrawlerX.Crawl - 已找到3个示例。这些是从开源项目中提取的最受好评的CrawlerX.Crawl现实C# (CSharp)示例。您可以评价示例，以帮助我们提高示例质量。

常用方法

显示隐藏

Crawl(3)

CrawlAsync(2)

Stop(1)

示例#1

显示文件

文件： Program.cs 项目： tommyliums/hackdynamics

        static void Main(string[] args)
        {
            var urisToCrawl      = GetSiteToCrawl(Path.Combine(System.AppDomain.CurrentDomain.BaseDirectory, @"FAQ\CrawlUrls.txt"));
            var crawlRuleContent = GetCrawlRuleFileContent(Path.Combine(System.AppDomain.CurrentDomain.BaseDirectory, @"FAQ\CrawlRules.txt"));
            var decisionMaker    = new CrawlDecisionMakerWithCrawlRules(crawlRuleContent);

            XmlConfigurator.Configure();

            var config = AbotXConfigurationSectionHandler.LoadFromXml().Convert();

            config.IsJavascriptRenderingEnabled = true;
            config.JavascriptRenderingWaitTimeInMilliseconds = 3000;
            config.MaxConcurrentSiteCrawls = 1;
            config.MaxConcurrentThreads    = 2;

            var impls = new ImplementationOverride(config);

            impls.CrawlDecisionMaker = decisionMaker;
            var crawler = new CrawlerX(config, impls);

            crawler.PageCrawlStarting        += crawler_ProcessPageCrawlStarting;
            crawler.PageCrawlCompleted       += crawler_ProcessPageCrawlCompleted;
            crawler.PageCrawlDisallowed      += crawler_PageCrawlDisallowed;
            crawler.PageLinksCrawlDisallowed += crawler_PageLinksCrawlDisallowed;

            foreach (var uriToCrawl in urisToCrawl)
            {
                var result = crawler.Crawl(uriToCrawl);
            }

            Console.Read();
        }

示例#2

显示文件

        public IHttpActionResult Get(string url)
        {
            baseUrl = url = url.StartsWith("http") ? url : $"http://{url}";

            var crawler = new CrawlerX();

            var uri = new Uri(url);

            crawler.PageCrawlCompleted += crawler_ProcessPageCrawlCompleted;

            var result = crawler.Crawl(uri);

            if (result.ErrorOccurred || exceptionCounter > 0)
            {
                throw new Exception($"Error occured while saving Images from {url}");
            }

            return(Json(imageUrls));
        }

示例#3

显示文件

文件： CrawlerAgent.cs 项目： kamranghiasvand/web-crawler

        public void Start()
        {
            if (!init)
            {
                throw new AgetNotInitializedException();
            }
            lock (this)
            {
                log.Debug($"Starting crawler with id {guid}");
                if (isRunning)
                {
                    log.Info($"Crawler with id {guid} is already started");
                    return;
                }
                log.Debug($"Initializing CrawlerX");
                isRunning = true;
                agent     = new CrawlerX();
                agent.PageCrawlCompleted       += Agent_PageCrawlCompleted;
                agent.PageLinksCrawlDisallowed += Agent_PageLinksCrawlDisallowed;

                //agent.ShouldCrawlPage(ShouldCrawlPage);

                (new Thread(() =>
                {
                    log.Debug("Trying to start CrawlX");
                    using (var dbContext = new ApplicationDbContext())
                    {
                        var site = dbContext.Sites.FirstOrDefault(m => m.Id == siteId);
                        agent.Crawl(new Uri(site.BaseUrl));

                        log.Info("Crawling is done");
                        lock (this) isRunning = false;
                        log.Debug("Calling manager");
                        manager.Done(this);
                    }
                })).Start();
            }
        }