コード例 #1
0
 public void TestExtractTagsWithPos()
 {
     var tfidf = new TfidfExtractor();
     var text = GetFileContents(@"Resources\article_social.txt");
     var result = tfidf.ExtractTags(text, 30, Constants.NounAndVerbPos);
     foreach (var tag in result)
     {
         Console.WriteLine(tag);
     }
 }
コード例 #2
0
 public void TestExtractTagsOfSocialNews()
 {
     var tfidf = new TfidfExtractor();
     var text = GetFileContents(@"Resources\article_social.txt");
     var result = tfidf.ExtractTags(text, 30);
     foreach (var tag in result)
     {
         Console.WriteLine(tag);
     }
 }
コード例 #3
0
 public void TestExtractTagsWithWeights()
 {
     var tfidf = new TfidfExtractor();
     var text = GetFileContents(@"Resources\article.txt");
     var result = tfidf.ExtractTagsWithWeight(text);
     foreach (var tag in result)
     {
         Console.WriteLine("({0}, {1})", tag.Word, tag.Weight);
     }
 }
コード例 #4
0
ファイル: TestDemo.cs プロジェクト: khaliyo/jieba.NET
 public void ExtractTagsDemo()
 {
     var text =
         "程序员(英文Programmer)是从事程序开发、维护的专业人员。一般将程序员分为程序设计人员和程序编码人员,但两者的界限并不非常清楚,特别是在中国。软件从业人员分为初级程序员、高级程序员、系统分析员和项目经理四大类。";
     var extractor = new TfidfExtractor();
     var keywords = extractor.ExtractTags(text);
     foreach (var keyword in keywords)
     {
         Console.WriteLine(keyword);
     }
 }
コード例 #5
0
 public void TestSetStopWords()
 {
     var tfidf = new TfidfExtractor();
     tfidf.SetStopWords(@"Resources\stop_words_test.txt");
     var text = GetFileContents(@"Resources\article_sports.txt");
     var result = tfidf.ExtractTags(text, 30);
     foreach (var tag in result)
     {
         Console.WriteLine(tag);
     }
 }
コード例 #6
0
ファイル: TestDemo.cs プロジェクト: khaliyo/jieba.NET
        public void ExtractTagsDemo2()
        {
            var text = @"在数学和计算机科学/算学之中,算法/算则法(Algorithm)为一个计算的具体步骤,常用于计算、数据处理和自动推理。精确而言,算法是一个表示为有限长列表的有效方法。算法应包含清晰定义的指令用于计算函数。
                         算法中的指令描述的是一个计算,当其运行时能从一个初始状态和初始输入(可能为空)开始,经过一系列有限而清晰定义的状态最终产生输出并停止于一个终态。一个状态到另一个状态的转移不一定是确定的。随机化算法在内的一些算法,包含了一些随机输入。
                         形式化算法的概念部分源自尝试解决希尔伯特提出的判定问题,并在其后尝试定义有效计算性或者有效方法中成形。这些尝试包括库尔特·哥德尔、雅克·埃尔布朗和斯蒂芬·科尔·克莱尼分别于1930年、1934年和1935年提出的递归函数,阿隆佐·邱奇于1936年提出的λ演算,1936年Emil Leon Post的Formulation 1和艾伦·图灵1937年提出的图灵机。即使在当前,依然常有直觉想法难以定义为形式化算法的情况。";

            var extractor = new TfidfExtractor();
            var keywords = extractor.ExtractTags(text, 10, Constants.NounAndVerbPos);
            foreach (var keyword in keywords)
            {
                Console.WriteLine(keyword);
            }
        }
コード例 #7
0
        public void TestIssues()
        {
            // case 1
            var text = @"整併";
            var extractor = new TfidfExtractor();
            var keywords = extractor.ExtractTags(text, 10, Constants.NounPos);
            foreach (var keyword in keywords)
            {
                Console.WriteLine(keyword);
            }

            keywords = extractor.ExtractTags(text, 10, Constants.VerbPos);
            foreach (var keyword in keywords)
            {
                Console.WriteLine(keyword);
            }

            // case 2:
            text = "開発支援工具FLEXITE";
            keywords = extractor.ExtractTags(text, 10, Constants.NounPos);
            foreach (var keyword in keywords)
            {
                Console.WriteLine(keyword);
            }
        }