Announcement

**Dietmar M�ller** · 13.02.2006, 17:06

Hallo Neno,

ein XML Parser setzt als Quellformat XML voraus und das was auf diesem Link zu sehen ist, hat nicht's mit XML zu tun.

Was meinst Du mit formatierungen usw???

lg Dietma

**bogart** · 13.02.2006, 17:13

naja, diese html-tabelle sieht schon ganz gut aus (ist offenbar generiert worden)! die w�rde ich herauskopieren und echtes xml draus machen.

b

**Alexander Gr�newald** · 14.02.2006, 10:38

Es gibt in der Tat SAX Parser f�r HTML Seiten. Einer den ich im Rahmen
eines kleinen Programms genutzt habe, um Webseiten zu parsen, ist
'tagsoup'. Es gibt aber noch einige andere

**neno** · 15.02.2006, 11:52

hi!

danke erstmal...nun mach ichs doch etwas einfacher. Mir liegt nun folgender Text vor:

############################################
54th Targa Florio 1973

1. Mrxxx
Mryyy

2. Mrbbb
Mraaa

3. Mrwww
Mrcccc

texttexttexttexttexttexttexttexttexttexttexttextte xttexttexttexttexttext
texttexttexttexttexttexttexttexttexttexttexttextte xttexttexttexttexttext
texttexttexttexttexttexttexttexttexttexttexttextte xttexttexttexttexttext
############################################
Ich m�chte nun diesen Text zeilenweise bzw. zeichenweise auslesen!

1. 54th Targa Florio soll in meine DB "porsche" geschrieben werden und zwar in die Tabelle "rennen" und dann in spalte "Bezeichnung"

2. Platzierungen. Die 1, 2, und der 3. Platz soll jeweils mit beiden Fahrenern die gefahren haben pro Team in die DB rein! Also in die DB "porsche" Tabelle "rennresultat" und in Spalte "Platzierungen"

3. Der Text unten soll auch in die DB "porsche" geschrieben werden und zwar in Tabelle "rennen" und in spalte "Beschreibung" Der Text ist unterschiedlich lang is halt ne beschreibung �ber das rennen!

Da ich sowas noch nie gemacht habe br�uchte ich dringend ein tutorial..Kann mir einer da weiterhelfen???soll sp�ter alles mal auf die seite www.rennplakate.de

Danke im vorraus leute

**Dietmar M�ller** · 15.02.2006, 13:50

http://java.sun.com/docs/books/tutorial/jdbc/basics/index.html
<br>
http://www.google.com
<br>

Das ist eine so allgemeine Fragestellung, da� man ich eher wie oben verweisen m�chte. Oder kauf Dir einfach ein Buch zu JDBC.
<br>
Wenn Du konkretere Fragen hast, dann helfe ich Dir gerne weiter.
<br>
lg Dietma

**C. H�nsel** · 05.09.2006, 13:48

Ich habe mal folgendes probiert:

package xml;

import java.io.ByteArrayInputStream;
import java.io.ByteArrayOutputStream;
import java.io.OutputStreamWriter;
import java.net.URL;

import javax.xml.parsers.DocumentBuilder;
import javax.xml.parsers.DocumentBuilderFactory;

import org.apache.xpath.XPathAPI;
import org.ccil.cowan.tagsoup.Parser;
import org.ccil.cowan.tagsoup.XMLWriter;
import org.w3c.dom.Document;
import org.w3c.dom.Node;
import org.xml.sax.InputSource;

/**
* Reads data from HTML documents, parses them, transforms them using tagSoup and extracts values using XPath.
*/
public class ParseHTML {

/**
* Returns the text representation of the nodes value, given by the xpath expression.
*
* @param node root node, to start searching
* @param xpath XPath expression to extract nodes
* @return the values string representation of the extracted node
*/
public static String getValue(Node node, String xpath) {
if (node == null || xpath == null || xpath.trim().equals(""))
return null;

/* select the node matching the given xpath */
try {
Node partNode = XPathAPI.selectSingleNode(node, xpath);
return partNode.getTextContent().replaceAll("\n", "");
} catch (Exception e) {
e.printStackTrace();
return null;
}
}

/**
* @param args not used
*/
public static void main(String[] args) {
String strBaseURL = "http://www.formula2.net/";
//String[] fileList = {"Targa06.htm", "Targa19.htm", "Targa20.htm", "Targa21.htm"};
String[] fileList = {"Targa73.htm"};
for (int i = 0; i < fileList.length; i++) {
try {
/* parse HTML file */
URL urlFile = new URL(strBaseURL + fileList[0]);
Parser htmlParser = new Parser();
ByteArrayOutputStream out = new ByteArrayOutputStream();
XMLWriter writer = new XMLWriter(new OutputStreamWriter(out));
writer.setOutputProperty(XMLWriter.METHOD, "xml");
writer.setOutputProperty(XMLWriter.OMIT_XML_DECLAR ATION, "yes");
htmlParser.setContentHandler(writer);
htmlParser.parse(new InputSource(urlFile.openStream()));

/* create document */
DocumentBuilderFactory factory = DocumentBuilderFactory.newInstance();
DocumentBuilder builder = factory.newDocumentBuilder();
Document doc = builder.parse(new ByteArrayInputStream(out.toByteArray()));

String strXPath_RaceName = "/html/body/table[1]/tr[1]/td[2]/p/descendant::b[1]";
String strXPath_RaceLocation = "/html/body/table[1]/tr[1]/td[2]/p/descendant::b[2]";
String strXPath_Winner = "/html/body/table[3]/tr[2]/td[5]/font";
String strXPath_Second = "/html/body/table[3]/tr[3]/td[5]/font";
String strXPath_Third = "/html/body/table[3]/tr[4]/td[5]/font";
System.out.println("Racename: " + ParseHTML.getValue(doc, strXPath_RaceName));
System.out.println("Location: " + ParseHTML.getValue(doc, strXPath_RaceLocation));
System.out.println("Winner: " + ParseHTML.getValue(doc, strXPath_Winner));
System.out.println("Second: " + ParseHTML.getValue(doc, strXPath_Second));
System.out.println("Third: " + ParseHTML.getValue(doc, strXPath_Third));
System.out.println("--------------------- " + i + " ---------------------");
} catch (Exception e) {
e.printStackTrace();
}
}
}
}

Die Seiten sind nicht alle gleich und daher funktionieren die XPath Ausdr�cke auch nicht �berall. Aber ich hoffe, das Konzept wie man an die Werte kommt ist klar

Announcement

HTML Tabellen auslesen und in php/mySQL DB eintragen

HTML Tabellen auslesen und in php/mySQL DB eintragen

Comment

Comment

Comment

Comment

Comment

Comment