kyuuuuuuuuuuriのブログ

うぇぶエンジニアになりたくてなりたくて震えるもろきゅうの日記です

htmlのパース

htmlをパースすることになった
とりあえず、ライブラリにjsoupを使った
htmlがちゃんとフォーマットされていたので、楽だった
ソースコード全乗せ
コメントアウトの部分は、urlじゃなくてfileからhtmlを読みたいばあい

import java.io.IOException;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

public class Parser {

	public void perseFile(){
		
		StringBuilder sb = new StringBuilder(); 
		String url = "urlurlurlurl";
//		File input = new File("C:\\Users\\test.html");

		try {
//			Document doc = Jsoup.parse(input, "UTF-8", "");
			Document doc = Jsoup.connect(url).get();
			Elements content = doc.getElementsByClass("contents");
			
			Elements imgs = content.select("[src]");
			
			for(Element img : imgs){
				if(img.tagName().equals("img")){
					
				System.out.println(String.format("%s : <%s>",img.tagName(),img.attr("abs:src")));
	
				}
			}
			
			String changeImgPathContents;
			changeImgPathContents = content.toString().replaceAll("urlurl", "kyuri/kyuri/kyuri");
			sb.append(changeImgPathContents);
			System.out.println(sb);

		} catch (IOException e) {

			e.printStackTrace();
		}
	}
	
	public static void main(String[] args) {
		Parser ps = new Parser();
		ps.perseFile();
	}
	
}