C# (CSharp) HtmlAgilityPack HtmlDocument.ToLinkInfos Beispiele

Programmiersprache: C# (CSharp)

Namespace / Paketname: HtmlAgilityPack

Klasse / Typ: HtmlDocument

Methode / Funktion: ToLinkInfos

Beispiele auf hotexamples.com: 1

C# (CSharp) HtmlAgilityPack HtmlDocument.ToLinkInfos - 1 Beispiele gefunden. Dies sind die am besten bewerteten C# (CSharp) Beispiele für die HtmlAgilityPack.HtmlDocument.ToLinkInfos, die aus Open Source-Projekten extrahiert wurden. Sie können Beispiele bewerten, um die Qualität der Beispiele zu verbessern.

Häufig verwendete Methoden

Anzeigen Verbergen

GetElementbyId(30)

TryMerge(14)

AssertMatch(14)

FirstOfDescendantsWithClass(12)

TabularData(11)

CreateElement(11)

GetNodes(8)

DetectEncoding(7)

SelectNodes(7)

WhereOfDescendantsWithClass(6)

CreateNavigator(5)

get_DocumentNode(4)

GetInnerText(4)

LoadUri(4)

GetAttribute(4)

GetText(4)

GetElementsByTagName(3)

CreateAttribute(3)

GetLinks(3)

CreateTextNode(2)

GetResourcesUrls(2)

GetNode(2)

IsAttribute(2)

GetInlineStyles(2)

ExtractText(2)

DetectEncodingAndLoad(2)

DetectEncodingHtml(2)

GetType(2)

Links(1)

ToLinkInfos(1)

IsSelectorInUse(1)

LoadRaw(1)

WalkTemplate(1)

IsDeletedArticle(1)

NotNull(1)

ToPlainText(1)

SearchPropertiesSmart(1)

Anchors(1)

GetLanguageTables(1)

GetInternalLinks(1)

AsDocument(1)

GetElementById(1)

GetDataFromXPath(1)

GetDataFromHtml(1)

FirstOfDescendantsWithId(1)

ExtractWrittenTime(1)

ExtractTitle(1)

ExtractLastArticleId(1)

ExtractContent(1)

ExtractAutor(1)

Beispiel #1

Datei anzeigen

Datei: Crawler.cs Projekt: squideyes/Spider

        public async void Crawl()
        {
            var scraper = new TransformManyBlock<LinkInfo, LinkInfo>(
                async linkInfo =>
                {
                    var linkInfos = new List<LinkInfo>();

                    try
                    {
                        var response = await linkInfo.Uri.GetResponse();

                        if (!IsSuccessStatus(response, linkInfo))
                            return linkInfos;

                        var html = await response.Content.ReadAsStringAsync();

                        var doc = new HtmlDocument();

                        doc.LoadHtml(html);

                        linkInfos = doc.ToLinkInfos(linkInfo.Uri);

                        Log(Context.GoodHTML, linkInfo.Uri.AbsoluteUri);
                    }
                    catch (Exception error)
                    {
                        Log(Context.BadHTML, "Error: {0} (URL: {1})", error.Message, linkInfo.Uri);
                    }

                    return linkInfos;
                },
                new ExecutionDataflowBlockOptions()
                {
                    CancellationToken = cts.Token
                });

            var fetcher = new ActionBlock<LinkInfo>(
                async linkInfo =>
                {
                    try
                    {
                        var fileName = linkInfo.GetFileName(linkInfo.Uri, "Downloads");

                        if (File.Exists(fileName))
                        {
                            Log(Context.DupMedia, linkInfo.Uri.AbsoluteUri);

                            return;
                        }

                        var response = await linkInfo.Uri.GetResponse();

                        if (!IsSuccessStatus(response, linkInfo))
                            return;

                        var webStream = await response.Content.ReadAsStreamAsync();

                        fileName.EnsurePathExists();

                        using (var fileStream = File.OpenWrite(fileName))
                            await webStream.CopyToAsync(fileStream);

                        Log(Context.GoodMedia, linkInfo.Uri.AbsoluteUri);
                    }
                    catch (Exception error)
                    {
                        Log(Context.BadMedia, "Error: {0} (URL: {1})", error.Message, linkInfo.Uri);
                    }
                },
                new ExecutionDataflowBlockOptions()
                {
                    CancellationToken = cts.Token,
                    MaxDegreeOfParallelism = Environment.ProcessorCount * 12
                });

            scraper.Completion.SetOnlyOnFaultedCompletion(error => HandleErrors(error));
            fetcher.Completion.SetOnlyOnFaultedCompletion(error => HandleErrors(error));

            scraper.LinkTo(scraper, new Predicate<LinkInfo>(li => li.Kind == LinkKind.HTML));
            scraper.LinkTo(fetcher, new Predicate<LinkInfo>(li => li.Kind == LinkKind.Media));

            scraper.Post(new LinkInfo(new Uri("http://www.bbc.com/news/")));

            try
            {
                await Task.WhenAll(scraper.Completion, fetcher.Completion);
            }
            catch (OperationCanceledException)
            {
            }
            catch (Exception error)
            {
                Log(Context.Failure, "Error: " + error.Message);
            }

            if (OnFinished != null)
                OnFinished(this, EventArgs.Empty);
        }