Цитатник, нотатник і, зрештою, просто смітник для думок

Занурення у соціальність

Previous Entry Share Next Entry
Вилучення html-тегів за допомогою python
vector_protiagu

Сьогодні переді мною постала проблема конвертації декількох книжок, які у мене валяються у вигляді html-документів, у формат, придатний до читання на телефоні.

Аби довго не винаходити велосипедів, Я знайшла готову функцію, що вилучає html-теги з тексту, та трохи оформила її до вигляду скрипта. Вам треба лише ввести ім'я вихідного файлу (звідки треба вилучити теги) та ім'я файлу для збереження простого тексту.

Вихідний код:

#!/usr/bin/env python   

#from http://love-python.blogspot.com/2008/07/strip-html-tags-using-python.html

import re

inputFile = open(raw_input('Enter input file name: '), 'r')
txtFile = open(raw_input('Enter output file name: '), 'w')

def remove_html_tags(data):
	p = re.compile(r'<[^<]*?>') 
	return p.sub('', data)    

txtFile.write(remove_html_tags(inputFile.read()))
txtFile.close()
inputFile.close()

Увага! Слідкуйте за кількістю відступів!

Ясна річ, що досконалості немає межі, і цей скрипт можна переробити так, щоб імена файлів можна було задавати із консолі, але мене він задовольняє і в такому вигляді :-)

Вдалого використання!


Якщо ви дівчина, і ще й філолог, і ще й можете написати таке, що не зможуть написати половина третина моїх одногрупників (а вони кібернетики) то ви просто неймовірна.

А як редагувати fstab не знаю навіть я, хоч і вважаю себе не таким вже і дурним. Де ви цього навчились?

Дякую на слові.
Інтернетом мандрують безліч розумних людей, ось у них і вчуся)

Ви дивитеся vector_protiagu