amalgin | Потупчик - повелитель ботов

You're viewing

amalgin's journal
Create a Dreamwidth Account Learn More

Reload page in style: site light

May 2025

S	M	T	W	T	F	S
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Додатковий текст

Flat | Top-Level Comments Only

научите парсер писать, и вообще, на чем пишите?

Спокон веков парсеры пишутся на Перле, молодой человек !
Курите "регулярные выражения" и будет вам щасте.

да парсеры пишутся на всем что угодно, хоть на плюсах, хоть на питоне.

На перле было бы быстрее, да. Но я им не особо владею, поэтому мне сподручней на баше, php либо на Си, если задачка похитрее и на скорость. regex на сях тоже рулит. Конечно можно показать пару приёмов. Но обучать в данном случае, извините, не моё кредо. Например, надо найти все сообщения, в которых есть приатаченные PDF'ы:

grep -iE '^Content\-Type\: application\/pdf' *.eml | cut -f1 -d: | sort -u

Метаданные из PDF'ов можно вытащить через pdfinfo, конвертировать в текст содержимое PDF'а -- pdftotext. Обе тулзы входя в GNU popler-utils. Полученный текст фильтруется обычным grep'ом.

Конвертировать в текст всевозможные DOC/XLS/RTF можно через unoconv -- питоновский скрипт, входящий в LibreOffice/OpenOffice. Для грубой обработки его достаточно. Если нужно более точно, включая всевозможные встроенные фреймы с текстом тоже вытащить, unoconv надо использовать для промежуточного конвертирования в ODS/ODT, а их уже обрабатывать собственным парсером -- это ведь обычный ZIP с файлами XML. Зная стандарт ODF, можно вытащить всё что угодно. Но т.к. обработка пакетная в цикле, я использую свою надстройку с тулзой timeout. Ибо после нескольких десятков успешных операций офис/unoconv начинает тупить, авторам баг известен.

Обрабатывать почтовые сообщения тоже не особо сложно, если знаете RFC. Опять же полно готовых библиотек и утилит. Например, для PHP есть php-mime-mail-parser. Короче, скрипт можно написать на баше, пхп, пёрле, питоне и вообще к чему больше душа лежит. :)

спасибо за развернутый ответ.
Я просто как-то мучался с решением, как парсить XLS файлы, используя С/С++. Т.к. задача была вторична, то забросил, сейчас вспомнил и задался вопросом)))

Flat | Top-Level Comments Only

Page Summary

esirnus.livejournal.com - (no subject)

Expand Cut Tags

No cut tags

Style Credit

Style: Elegant Notebook for Gold Leaf by rosecarmine
Resources: Yusuke Kamiyamane and Atle Mo

Записки мизантропа

Потупчик - повелитель ботов

Profile

May 2025

Додатковий текст

Потупчик - повелитель ботов

(no subject)

(no subject)

(no subject)

(no subject)

(no subject)

Page Summary

Expand Cut Tags

Style Credit