public void TestExtractTagsWithPos() { var tfidf = new TfidfExtractor(); var text = GetFileContents(@"Resources\article_social.txt"); var result = tfidf.ExtractTags(text, 30, Constants.NounAndVerbPos); foreach (var tag in result) { Console.WriteLine(tag); } }
public void TestExtractTagsOfSocialNews() { var tfidf = new TfidfExtractor(); var text = GetFileContents(@"Resources\article_social.txt"); var result = tfidf.ExtractTags(text, 30); foreach (var tag in result) { Console.WriteLine(tag); } }
public void TestExtractTagsWithWeights() { var tfidf = new TfidfExtractor(); var text = GetFileContents(@"Resources\article.txt"); var result = tfidf.ExtractTagsWithWeight(text); foreach (var tag in result) { Console.WriteLine("({0}, {1})", tag.Word, tag.Weight); } }
public void ExtractTagsDemo() { var text = "程序员(英文Programmer)是从事程序开发、维护的专业人员。一般将程序员分为程序设计人员和程序编码人员,但两者的界限并不非常清楚,特别是在中国。软件从业人员分为初级程序员、高级程序员、系统分析员和项目经理四大类。"; var extractor = new TfidfExtractor(); var keywords = extractor.ExtractTags(text); foreach (var keyword in keywords) { Console.WriteLine(keyword); } }
public void TestSetStopWords() { var tfidf = new TfidfExtractor(); tfidf.SetStopWords(@"Resources\stop_words_test.txt"); var text = GetFileContents(@"Resources\article_sports.txt"); var result = tfidf.ExtractTags(text, 30); foreach (var tag in result) { Console.WriteLine(tag); } }
public void ExtractTagsDemo2() { var text = @"在数学和计算机科学/算学之中,算法/算则法(Algorithm)为一个计算的具体步骤,常用于计算、数据处理和自动推理。精确而言,算法是一个表示为有限长列表的有效方法。算法应包含清晰定义的指令用于计算函数。 算法中的指令描述的是一个计算,当其运行时能从一个初始状态和初始输入(可能为空)开始,经过一系列有限而清晰定义的状态最终产生输出并停止于一个终态。一个状态到另一个状态的转移不一定是确定的。随机化算法在内的一些算法,包含了一些随机输入。 形式化算法的概念部分源自尝试解决希尔伯特提出的判定问题,并在其后尝试定义有效计算性或者有效方法中成形。这些尝试包括库尔特·哥德尔、雅克·埃尔布朗和斯蒂芬·科尔·克莱尼分别于1930年、1934年和1935年提出的递归函数,阿隆佐·邱奇于1936年提出的λ演算,1936年Emil Leon Post的Formulation 1和艾伦·图灵1937年提出的图灵机。即使在当前,依然常有直觉想法难以定义为形式化算法的情况。"; var extractor = new TfidfExtractor(); var keywords = extractor.ExtractTags(text, 10, Constants.NounAndVerbPos); foreach (var keyword in keywords) { Console.WriteLine(keyword); } }
public void TestIssues() { // case 1 var text = @"整併"; var extractor = new TfidfExtractor(); var keywords = extractor.ExtractTags(text, 10, Constants.NounPos); foreach (var keyword in keywords) { Console.WriteLine(keyword); } keywords = extractor.ExtractTags(text, 10, Constants.VerbPos); foreach (var keyword in keywords) { Console.WriteLine(keyword); } // case 2: text = "開発支援工具FLEXITE"; keywords = extractor.ExtractTags(text, 10, Constants.NounPos); foreach (var keyword in keywords) { Console.WriteLine(keyword); } }