C# (CSharp) HtmlAgilityPack HtmlDocument.ToLinkInfos примеры использования

Язык программирования: C# (CSharp)

Пространство имен/Пакет: HtmlAgilityPack

Класс/Тип: HtmlDocument

Метод/Функция: ToLinkInfos

Примеров на hotexamples.com: 1

C# (CSharp) HtmlAgilityPack HtmlDocument.ToLinkInfos - 1 пример найден. Это лучшие примеры C# (CSharp) кода для HtmlAgilityPack.HtmlDocument.ToLinkInfos, полученные из open source проектов. Вы можете ставить оценку каждому примеру, чтобы помочь нам улучшить качество примеров.

Основные методы

Показать Скрыть

GetElementbyId(30)

TryMerge(14)

AssertMatch(14)

FirstOfDescendantsWithClass(12)

TabularData(11)

CreateElement(11)

GetNodes(8)

DetectEncoding(7)

SelectNodes(7)

WhereOfDescendantsWithClass(6)

CreateNavigator(5)

get_DocumentNode(4)

GetInnerText(4)

LoadUri(4)

GetAttribute(4)

GetText(4)

GetElementsByTagName(3)

CreateAttribute(3)

GetLinks(3)

CreateTextNode(2)

GetResourcesUrls(2)

GetNode(2)

IsAttribute(2)

GetInlineStyles(2)

ExtractText(2)

DetectEncodingAndLoad(2)

DetectEncodingHtml(2)

GetType(2)

Links(1)

ToLinkInfos(1)

IsSelectorInUse(1)

LoadRaw(1)

WalkTemplate(1)

IsDeletedArticle(1)

NotNull(1)

ToPlainText(1)

SearchPropertiesSmart(1)

Anchors(1)

GetLanguageTables(1)

GetInternalLinks(1)

AsDocument(1)

GetElementById(1)

GetDataFromXPath(1)

GetDataFromHtml(1)

FirstOfDescendantsWithId(1)

ExtractWrittenTime(1)

ExtractTitle(1)

ExtractLastArticleId(1)

ExtractContent(1)

ExtractAutor(1)

Пример #1

Показать файл

Файл: Crawler.cs Проект: squideyes/Spider

        public async void Crawl()
        {
            var scraper = new TransformManyBlock<LinkInfo, LinkInfo>(
                async linkInfo =>
                {
                    var linkInfos = new List<LinkInfo>();

                    try
                    {
                        var response = await linkInfo.Uri.GetResponse();

                        if (!IsSuccessStatus(response, linkInfo))
                            return linkInfos;

                        var html = await response.Content.ReadAsStringAsync();

                        var doc = new HtmlDocument();

                        doc.LoadHtml(html);

                        linkInfos = doc.ToLinkInfos(linkInfo.Uri);

                        Log(Context.GoodHTML, linkInfo.Uri.AbsoluteUri);
                    }
                    catch (Exception error)
                    {
                        Log(Context.BadHTML, "Error: {0} (URL: {1})", error.Message, linkInfo.Uri);
                    }

                    return linkInfos;
                },
                new ExecutionDataflowBlockOptions()
                {
                    CancellationToken = cts.Token
                });

            var fetcher = new ActionBlock<LinkInfo>(
                async linkInfo =>
                {
                    try
                    {
                        var fileName = linkInfo.GetFileName(linkInfo.Uri, "Downloads");

                        if (File.Exists(fileName))
                        {
                            Log(Context.DupMedia, linkInfo.Uri.AbsoluteUri);

                            return;
                        }

                        var response = await linkInfo.Uri.GetResponse();

                        if (!IsSuccessStatus(response, linkInfo))
                            return;

                        var webStream = await response.Content.ReadAsStreamAsync();

                        fileName.EnsurePathExists();

                        using (var fileStream = File.OpenWrite(fileName))
                            await webStream.CopyToAsync(fileStream);

                        Log(Context.GoodMedia, linkInfo.Uri.AbsoluteUri);
                    }
                    catch (Exception error)
                    {
                        Log(Context.BadMedia, "Error: {0} (URL: {1})", error.Message, linkInfo.Uri);
                    }
                },
                new ExecutionDataflowBlockOptions()
                {
                    CancellationToken = cts.Token,
                    MaxDegreeOfParallelism = Environment.ProcessorCount * 12
                });

            scraper.Completion.SetOnlyOnFaultedCompletion(error => HandleErrors(error));
            fetcher.Completion.SetOnlyOnFaultedCompletion(error => HandleErrors(error));

            scraper.LinkTo(scraper, new Predicate<LinkInfo>(li => li.Kind == LinkKind.HTML));
            scraper.LinkTo(fetcher, new Predicate<LinkInfo>(li => li.Kind == LinkKind.Media));

            scraper.Post(new LinkInfo(new Uri("http://www.bbc.com/news/")));

            try
            {
                await Task.WhenAll(scraper.Completion, fetcher.Completion);
            }
            catch (OperationCanceledException)
            {
            }
            catch (Exception error)
            {
                Log(Context.Failure, "Error: " + error.Message);
            }

            if (OnFinished != null)
                OnFinished(this, EventArgs.Empty);
        }