C# (CSharp) PDFTextStripper.getTextLineMatrixの例

プログラミング言語: C# (CSharp)

クラス/型: PDFTextStripper

メソッド/関数: getTextLineMatrix

hotexamples.comのコード掲載数: 2

C# (CSharp) PDFTextStripper.getTextLineMatrix - 2件のコード例が見つかりました。すべてオープンソースプロジェクトから抽出されたC# (CSharp)のPDFTextStripper.getTextLineMatrixの実例で、最も評価が高いものを厳選しています。コード例の評価を行っていただくことで、より質の高いコード例が表示されるようになります。

よく使われるメソッド

表示非表示

getText(30)

setEndPage(9)

setStartPage(8)

setSortByPosition(3)

setPageSeparator(2)

getArticleEnd(1)

getArticleStart(1)

getCurrentPage(1)

getEndPage(1)

getSeparateByBeads(1)

getTextLineMatrix(1)

getTextMatrix(1)

getTotalCharCnt(1)

setPageEnd(1)

setSpacingTolerance(1)

コード例 #1

ファイルを表示

        private static void KamilPdfTest(string input)
        {
            PDDocument doc = null;

            try
            {
                doc = PDDocument.load(input);
                PDFTextStripper stripper = new PDFTextStripper();
                // stripper.getText(doc);


                Matrix line = stripper.getTextLineMatrix();
                // int page_nr = stripper.getCurrentPageNo();
                PDPage page     = stripper.getCurrentPage();
                Matrix line2    = stripper.getTextMatrix();
                int    char_cnt = stripper.getTotalCharCnt();

                string article_start = stripper.getArticleStart();
                string article_end   = stripper.getArticleEnd();



                string pdf = stripper.getText(doc);                                     // wrzuca caly tekst do sringa - dziala
                char_cnt = pdf.Length;
            }
            finally
            {
                if (doc != null)
                {
                    doc.close();
                }
            }
        }

コード例 #2

ファイルを表示

ファイル: Form1.cs プロジェクト: skappa/WindowsFormsApplication

        private void parsePDF()
        {
            PDDocument doc = PDDocument.load("2.pdf");
            PDFTextStripper stripper = new PDFTextStripper();
            //stripper.setSortByPosition(true);
            string text = stripper.getText(doc);
            stripper.getSeparateByBeads();
            stripper.getTextLineMatrix();

            Regex regex = new Regex("Сокращенное наименование (.*)\"", RegexOptions.Multiline | RegexOptions.IgnoreCase);
            var orgName = regex.Match(text).Groups[1].Value;

            regex = new Regex("ИНН (.*)(\n[^0-9])?.*\r", RegexOptions.Multiline | RegexOptions.IgnoreCase);
            var inn = regex.Match(text).Groups[1].Value;

            regex = new Regex("КПП (.*)(\n[^0-9])?.*\r", RegexOptions.Multiline | RegexOptions.IgnoreCase);
            var kpp = regex.Match(text).Groups[1].Value;

            regex = new Regex("Должность (.*)(\n[^0-9])?.*\r", RegexOptions.Multiline | RegexOptions.IgnoreCase);
            var post = regex.Match(text).Groups[1].Value;

            regex = new Regex("Фамилия (.*)(\n[^0-9])?.*\r", RegexOptions.Multiline | RegexOptions.IgnoreCase);
            var lastName = regex.Match(text).Groups[1].Value;

            regex = new Regex("Имя (.*)(\n[^0-9])?.*\r", RegexOptions.Multiline | RegexOptions.IgnoreCase);
            var firstName = regex.Match(text).Groups[1].Value;

            regex = new Regex("Отчество (.*)(\n[^0-9])?.*\r", RegexOptions.Multiline | RegexOptions.IgnoreCase);
            var surName = regex.Match(text).Groups[1].Value;

            regex = new Regex("ОГРН (.*)(\n[^0-9])?.*\r", RegexOptions.Multiline | RegexOptions.IgnoreCase);
            var ogrn = regex.Match(text).Groups[1].Value;

            regex = new Regex("Почтовый индекс (.*)(\n[^0-9])?.*\r", RegexOptions.Multiline | RegexOptions.IgnoreCase);
            var postIndex = regex.Match(text).Groups[1].Value;

            regex = new Regex("Субъект Российской Федерации (.*)(\n[^0-9])?.*\r", RegexOptions.Multiline | RegexOptions.IgnoreCase);
            var city = regex.Match(text).Groups[1].Value;

            regex = new Regex("Улица /(проспект, переулок и т.д./)  (.*)(\n[^0-9])?.*\r", RegexOptions.Multiline | RegexOptions.IgnoreCase);
            var street = regex.Match(text).Groups[1].Value;

            regex = new Regex("Дом /(владение и т.п./)   (.*)(\n[^0-9])?.*\r", RegexOptions.Multiline | RegexOptions.IgnoreCase);
            var house = regex.Match(text).Groups[1].Value;

            textBox4.Text = text;
            textBox3.Text = orgName + " / " +inn + " / " +kpp + " / " +post + " / " +lastName + " / " +firstName + " / " +surName +" / " + ogrn + " / " + postIndex + " / "+ city +" / "+street+" / "+house;
            //textBox3.Text = match[0].ToString();

            //string[] lines = text.Split(new string[] { "\r?\n" }, StringSplitOptions.None); // give you all the lines separated by new line

            //string[] cols = lines[0].Split(new string[] { "\\s+ " }, StringSplitOptions.None); // gives array separated by whitespaces

            //textBox3.Text = cols[0].ToString();

            //return stripper.getText(doc);
        }