C# (CSharp) SearchBoost.Net.WebSpider CrawlJob 예제들

프로그래밍 언어: C# (CSharp)

네임스페이스/패키지 이름: SearchBoost.Net.WebSpider

클래스/타입: CrawlJob

hotexamples.com에서의 예제들: 3

C# (CSharp) SearchBoost.Net.WebSpider CrawlJob - 3개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 C# (CSharp)의 SearchBoost.Net.WebSpider.CrawlJob에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

CreateJob(1)

예제 #1

파일 보기

파일: CrawlTask.cs 프로젝트: bogdan-litescu/SearchBoost.NET

        public CrawlJob CreateJob(ParsedLink forLink)
        {
            Uri url;
            try {
                url = new Uri(forLink.Url);
            } catch (UriFormatException ex) {
                // relative URL, build it from current URL
                url = new Uri(Url.ToString().Substring(0, Url.ToString().LastIndexOf('/')) + "/" + forLink.Url);
            }

            CrawlJob job = new CrawlJob(url);
            job.LinkOpts = LinkOpts;

            // TODO: rest of the params plus maybe some checkings
            return job;
        }

예제 #2

파일 보기

파일: Crawler.cs 프로젝트: bogdan-litescu/SearchBoost.NET

        void Index(CrawlJob job)
        {
            Logger.Debug(string.Format("Parsing URL {0}", job.Url));

            // download content
            IDictionary<string, string> httpHeaders;
            string rawContent;
            try {   
                rawContent = Download(job, out httpHeaders);
            } catch (WebException ex) {
                Logger.Error("Error downloading " + job.Url, ex);
                return;
            }

            // TODO: treat exceptions

            string mimeContentType = httpHeaders["Content-Type"];
            if (mimeContentType.IndexOf(';') > 0)
                mimeContentType = mimeContentType.Substring(0, mimeContentType.IndexOf(';'));

            Logger.Debug(string.Format("  > MIME Content Type: ", mimeContentType));

            IList<IContentParser> parsersByMimeType = FindParser.ByMimeContentType(mimeContentType);
            foreach (IContentParser parser in parsersByMimeType) {
                foreach (ParsedContent parsed in parser.ParseRaw(rawContent, job.LinkOpts)) {

                    // fill in the rest of the data
                    parsed.Location = job.Url.ToString();
                    parsed.Sources = new List<string>() { job.Url.Host };

                    SbApp.Instance.SearchEngine.Index(parsed);

                    // if it has links, index them too
                    if (parsed.LinkOpts.Follow && (parsed.LinkOpts.MaxDepth == -1 || parsed.LinkOpts.CurrentDepth <= parsed.LinkOpts.MaxDepth)) {
                        foreach (var link in parsed.Links) {
                            Index(job.CreateJob(link));
                        }
                    }
                }
            }
        }

예제 #3

파일 보기

파일: Crawler.cs 프로젝트: bogdan-litescu/SearchBoost.NET

        string Download(CrawlJob opts, out IDictionary<string, string> httpHeaders)
        {
            System.Net.ServicePointManager.Expect100Continue = false;

            HttpWebRequest httpRequest = (HttpWebRequest)WebRequest.Create(opts.Url);
            httpRequest.Timeout = opts.TimeoutSec * 1000;

            HttpWebResponse response = (HttpWebResponse)httpRequest.GetResponse();
            System.IO.StreamReader reader = new System.IO.StreamReader(response.GetResponseStream());
            string strResponse = reader.ReadToEnd();
            response.Close();

            // read HTTP headers
            httpHeaders = new Dictionary<string, string>();
            foreach (string header in response.Headers.AllKeys) {
                httpHeaders[header] = response.Headers[header];
            }

            return strResponse.Trim();
        }