private void nextextraturl(int id) { urltable ut = htmlpage.urltable.Find(id); if (id > endid) //大于不包括需要抽取的节点时程序退出 { Application.Exit(); } if (ut != null) { count2 = 0;//解析下一页时,count2必须清零 site = ut.site; extracturl = ut.url; mark = ut.mark; this.webBrowser1.Navigate(extracturl); // Console.Out.WriteLine("解析的" + id + "对应url:" + ut.url); extract_timer.Start(); //抽取timer启动; } else { extractid++; //如果该id对应的urltable元组不存在则记录抽取的extractid自增,抽取下一条; nextextraturl(extractid); } }
private void selecturl() { urltableid++; urltable ut = htmlpage.urltable.Find(urltableid); if (urltableid > urltableendid) //大于不包括需要抽取的节点时程序退出 { Application.Exit(); } if (ut != null) { count3 = 0;//解析下一页时,count3必须清零 scoresite = ut.site; scoremark = ut.mark; nextSample(); //选择下一个待抽取页面的同时,取出比对样本。 Console.Out.WriteLine("解析的" + urltableid + "对应url:" + ut.url); this.webBrowser1.Navigate(ut.url); partition_timer.Start(); //抽取timer启动; } else { urltableid++; //如果该id对应的urltable元组不存在则记录抽取的extractid自增,抽取下一条; originalid--; //该url没有计算,所以sample不用下一条; selecturl(); } }
private void nextpage() { id++; urltable ut = htmlpage.urltable.Find(id); if (id >= 2516) { Application.Exit(); } if (ut != null) { count = 0;//解析下一页时,count必须清零 this.webBrowser1.Navigate(ut.url); Console.Out.WriteLine("解析的" + id + "对应url:" + ut.url); Docfinished.Start(); } else { nextpage(); } }
private void next_weighturl() { urltableid_weight++; urltable ut = htmlpage.urltable.Find(urltableid_weight); if (urltableid_weight > urltableendid_weight) //大于不包括需要抽取的节点时程序退出 { Application.Exit(); } if (ut != null) { count4 = 0;//解析下一页时,count3必须清零 site_weight = ut.site; mark_weight = ut.mark; Console.Out.WriteLine("解析的" + urltableid_weight + "对应url:" + ut.url); this.webBrowser1.Navigate(ut.url); weight_timer.Start(); //抽取timer启动; } else { urltableid_weight++; //如果该id对应的urltable元组不存在则记录抽取的extractid自增,抽取下一条; next_weighturl(); } }