osdir.com
mailing list archive

Subject: Re: (tres) gros fichiers XML : comment les traiter? - msg#00040

List: text.xml.french.tech

Date: Prev Next Index Thread: Prev Next Index
SAX, c'est de la programmation évènementielle
genre : quand je tombe sur le début de mon
élément, j'accumule les contenus ; quand je tombe
sur la fin, j'envoie à la base de données.
C'est vraiment basic et il y a bien-sûr des
outils plus packagés. SAX n'a qu'un avantage, il
répond à la demande initiale de traitements de documents importants.
Pour la question de comment commencer, ne suis
pas féru des environnements microsoft mais quand
vous tapez SAX dans la doc du SDK MSXML4, il y a
plein d'exemples d'implémentation de "contentHandler".

Pierre


Pierre
At 12:06 14/10/2005, you wrote:


>Pierre,
>
>Mon objectif est de parser le document XML puis de stocker les données dans
>une BDD. J'ai déjà un peu regardé du coté de SAX et c'est une telle
>nébuleuse que j'ai arreté d'y chercher.. de quel coté je devrais regarder
>exactement pour repondre a mes besoins ?
>
>cdt,
>
>Alex / Paris
>
>Pierre Attar écrit:
>
> > Voir du coté de SAX et bien sur en fonction des traitements à réaliser.
> > La programmation évènementielle à l'avantage de
> > ne pas obliger au chargement de tout le document.
> >
> > Pierre
> >
> > At 11:39 14/10/2005, you wrote:
> > >j'ai besoin de lire/parser de (tres) gros fichiers XML (350 ou 400 Mo) par
> > >VBS (ou autres)...j'ai le choix entre : une méthode capable de me lire les
> > >400 Mo d'un coup avant de parser OU une methode qui me découpe mon gros
> > >fichier XML en plus petits fichiers. Pour le moment, je n'ai trouvé ni
> > >l'une ni l'autre. Les methodes "Microsoft.XMLDOM" de MS ne me sont d'aucun
> > >secours par exemple, car incapables de me charger ces 400 Mo.
> >
> >
> > Pierre Attar (mailto:pat@xxxxxxxxx)
> > Consultant en informatique documentaire XML
> > Consultant in Structured Document engineering
> > Tirème SARL (http://www.tireme.fr)
> >
> > Projet "Mutualiser l'effort de montée en compétences sur XML"
> > http://www.mutu-xml.org/index.html
> >
> >
> > --
> > Devenez redacteur <XML>fr et contribuez au developpement du
> > xml francophone (http://xmlfr.org/infos/redacteurs/) !
> >
> > Liste de diffusion "xml-tech@xxxxxxxxx" (http://xmlfr.org).
> >
> > Cette liste est a votre disposition pour discuter en francais de
> > tout sujet technique lie a XML.
> >
> > Pour resilier votre abonnement, envoyez un message contenant
> > la commande "unsubscribe" a xml-tech-request@xxxxxxxxx
> > (mailto:xml-tech-request@xxxxxxxxx?Subject=unsubscribe)
> >
>
>--
>Devenez redacteur <XML>fr et contribuez au developpement du
>xml francophone (http://xmlfr.org/infos/redacteurs/) !
>
>Liste de diffusion "xml-tech@xxxxxxxxx" (http://xmlfr.org).
>
>Cette liste est a votre disposition pour discuter en francais de
>tout sujet technique lie a XML.
>
>Pour resilier votre abonnement, envoyez un message contenant
>la commande "unsubscribe" a xml-tech-request@xxxxxxxxx
>(mailto:xml-tech-request@xxxxxxxxx?Subject=unsubscribe)


Pierre Attar (mailto:pat@xxxxxxxxx)
Consultant en informatique documentaire XML
Consultant in Structured Document engineering
Tirème SARL (http://www.tireme.fr)

Projet "Mutualiser l'effort de montée en compétences sur XML"
http://www.mutu-xml.org/index.html




Was this page helpful?
Yes No
Thread at a glance:

Previous Message by Date: click to view message preview

Re: (tres) gros fichiers XML : comment les traiter?

Il faut regarder du coté des API de Pull Parsing ;) Contrairement aux API SAX, la lecture du document XML est dirigée par l'application principale . Dés détection d'une sous partie, il est possible de traiter immédiatement les données ou - mieux - constituer un sous document DOM pour traitement immédiat, avant de continuer la lecture du document source ! magicoz@xxxxxxxxxxx a écrit : >Pierre, > >Mon objectif est de parser le document XML puis de stocker les données dans >une BDD. J'ai déjà un peu regardé du coté de SAX et c'est une telle >nébuleuse que j'ai arreté d'y chercher.. de quel coté je devrais regarder >exactement pour repondre a mes besoins ? > >cdt, > >Alex / Paris > >Pierre Attar écrit: > > > >>Voir du coté de SAX et bien sur en fonction des traitements à réaliser. >>La programmation évènementielle à l'avantage de >>ne pas obliger au chargement de tout le document. >> >>Pierre >> >>At 11:39 14/10/2005, you wrote: >> >> >>>j'ai besoin de lire/parser de (tres) gros fichiers XML (350 ou 400 Mo) par >>>VBS (ou autres)...j'ai le choix entre : une méthode capable de me lire les >>>400 Mo d'un coup avant de parser OU une methode qui me découpe mon gros >>>fichier XML en plus petits fichiers. Pour le moment, je n'ai trouvé ni >>>l'une ni l'autre. Les methodes "Microsoft.XMLDOM" de MS ne me sont d'aucun >>>secours par exemple, car incapables de me charger ces 400 Mo. >>> >>> >>Pierre Attar (mailto:pat@xxxxxxxxx) >>Consultant en informatique documentaire XML >>Consultant in Structured Document engineering >>Tirème SARL (http://www.tireme.fr) >> >>Projet "Mutualiser l'effort de montée en compétences sur XML" >>http://www.mutu-xml.org/index.html >> >> >>-- >>Devenez redacteur <XML>fr et contribuez au developpement du >>xml francophone (http://xmlfr.org/infos/redacteurs/) ! >> >>Liste de diffusion "xml-tech@xxxxxxxxx" (http://xmlfr.org). >> >>Cette liste est a votre disposition pour discuter en francais de >>tout sujet technique lie a XML. >> >>Pour resilier votre abonnement, envoyez un message contenant >>la commande "unsubscribe" a xml-tech-request@xxxxxxxxx >>(mailto:xml-tech-request@xxxxxxxxx?Subject=unsubscribe) >> >> >> > >-- >Devenez redacteur <XML>fr et contribuez au developpement du >xml francophone (http://xmlfr.org/infos/redacteurs/) ! > >Liste de diffusion "xml-tech@xxxxxxxxx" (http://xmlfr.org). > >Cette liste est a votre disposition pour discuter en francais de >tout sujet technique lie a XML. > >Pour resilier votre abonnement, envoyez un message contenant >la commande "unsubscribe" a xml-tech-request@xxxxxxxxx >(mailto:xml-tech-request@xxxxxxxxx?Subject=unsubscribe) > > >

Next Message by Date: click to view message preview

Re: relaxNG : déterminer les souséléments possibles

Merci Eric ! Comme tu le dis c'est un sujet passionnant, mais qui se complexifie au fur et à mesure que j'avance... J'apprend bcp cependant et le challenge en vaut la peine. Au départ j'avais fait une recette maison, puis grâce à xml-fr j'ai découvert RelaxNG et il y a pas longtemps la programmation "100% déclarative" en xsl ! Ce qui est difficile c'est de lier les impératifs, les échéances du projet et la réalisation d'un code propre, ré-exploitable, prévu pour du long terme... ce qui n'est pas toujours facile à faire comprendre à la hierarchie ! Pour ce qui est de l'élément start, c'est une erreur d'interprétation un peu rapide de la doc RelaxNG de ma part. En fait dans mon schéma maison j'avais un élément <root> pour la racine et je l'ai tout simplement remplacé par start... En fait j'aurai peut être mieux fait d'utiliser <element>, à partir du moment ou je fais le choix de ne pas utiliser <grammar> ? maintenant pourquoi je me suis tant restreint, dans le choix des élément relaxNG utilisés...? Par souci de simplicité, de temps : je ne voulais pas implémenter toutes les possibilité de relaxNG et je me suis basé sur les besoins rééls des documents que j'allais devoir éditer, en me disant que je pourrais toujours implémenter le reste par la suite. Mais maintenant que j'ai tout re-codé en déclaratif, il est vrai qu'ajouter certains patern ne pose pas de grandes difficulté. Il s'agit de choisir lesquels cependant, les plus pertinents : je pense notamment au pattern <optional> (qui pourra m'être utile pour les attributs notamment) et peut être aussi les patters nommés (define/ref). petite question au passage le pattern grammar devient-il indispensable dans le cas d'utilisation de pattern nommés et/ou de l'élément start ? Il ne m'arrive jammais dans mes documents xml d'avoir des modèles de contenus récursifs comme les div, sans ça je n'aurait pas pu exclure les patterns nommés, en revanche ils pourront être utiles pour éviter de redéfinir plusieurs fois des patterns identiques. Je pense aussi peut être utilisé le pattern <externalRef>, pour avoir la possibilité d'éditer un document externe (mes doc xml font références les uns aux autres avec des liens par id). Mais avant d'implémenter tout cela je voulais vérifier la faisabilité du projet sur un schéma très simple n'utilisant que les quelques patterns cités. Pour ce qui est des contenus du type (B1, C1) & (B2, C2) comme j'avais mis dans mon exemple... disons que ce n'est pas un cas réél, mais m'étant limité aux éléments cités, je me suis dit qu'il fallait prévoir toutes les combinaisons de ces éléments donc j'ai fait un exemple un peu tordu exprès. La solution n'est peut être pas de limité uniquement les types d'éléments mais surtout la manière de les imbriquer alors... ? Après tout, il m'est tout à fait possible de mettre des consignes à l'écriture du schéma : "n'utilisez que tels éléments et ne les imbriquez que de cette manière ou de cette autre mais pas comme ceci ou comme cela"... c'est peut être vers ça que je devrais me pencher... compte tenu des impératifs de temps et des autres développements qui m'attendent... Car mes document xml sont en fait très simples en réalité, je les ai écrit en restant très déterministe, les seuls cas rencontrés sont : * une suite d'éléments différents apparaissant une seule fois chacun et dans un ordre prédéfinis : <element name="A"> <element name="B"/> <element name="C"/> <element name="D"/> </element> * ou un élément qui peut contenir une liste de X et/ou Y (zeroOrMore, chacun) dans n'importe quel ordre <element name="conteneur"> <interleave> <zeroOreMore> <element name="X"/> </zeroOreMore> <zeroOreMore> <element name="Y"/> </zeroOreMore> <interleave> </element> J'utilise l'élément group dans le seul but de définir un ensemble d'éléments "adjacents" à éditer en une seule fois : dans le menu arborescent (cf. 1er message) représentant le document xml (qui permet de choisir quelle noeud on veut éditer) les group apparaisent également et permette d'éditer non pas un seul noeud mais plusieurs (on envois plusieurs paramètres XpathNode à la feuille de style qui applique chacun des template) Je vais essayer la méthode que tu me conseilles (exécuter en chaîne une série de templates dans des modes différents)... je n'ai pas regardé dans le détail encore. Je suis trop avancé dans le projet pour changer XSLT par un langage de programmation, mais xslt n'est-il pas le mieux adapter pour ce type de traitement réccursif sur une syntaxe xml ? Pour info tu penses à quel(s) langage(s) par exemple ? il y a une partie asp/vb dans mon projet qui me permet de manipuler le dom des documents xml : le formulaire html envois les valeurs des "champs" (attribut ou text) à modifier et ils sont modifiés par script asp. De même pour l'ajout des noeuds, même si les boutons sont affichés par xsl, au final j'envois les paramètres (quel noeud à ajouter, sous quel noeud etc) à une page asp qui se charge d'effectuer le travail (sans contre validation) >Personnellement, je pense que, quelque soit le langage de programmation, >je travaillerais sur un schéma RELAX NG simplifié et chercherais à >m'inspirer de la méthode déclarative décrite par James Clark : >http://www.thaiopensource.com/relaxng/derivative.html. Qu'entend tu par simplifié ? restreind à qq élément et/ou imbriqué de manière déterminée (cf plus haut)? J'ai jeté un coup d'oeil à la methode de James Clark et ... humm faudra que je plonge plus dedans parce que survolé comme ça, j'avoue que je ne comprend rien... il n'y aurait pas un petit exemple de "dérivée du schéma par le document" quelque part ? >Pour faire cela en XSLT, vous pourriez vous appuyer sur la bibiothèque >FXSL (http://fxsl.sourceforge.net/) ou, si cela vous fait peut (il y a >de quoi) faire une série de passes successives en utilisant une fonction >node-set (personnellement je préfère cela à dyn:evaluate(). J'avais déjà entendu parler de cette bibliothèque FXSL, mais ça fait beaucoup de choses à découvrir, je vais butiner un peu sur le site histoire d'avoir quelques idées de ce qu'elle permet. Merci en tout cas pour toutes ces pistes, j'étais bloqué et démotivé, là ça permet de rebondir ! Matthieu.

Previous Message by Thread: click to view message preview

Re: (tres) gros fichiers XML : comment les traiter?

Il faut regarder du coté des API de Pull Parsing ;) Contrairement aux API SAX, la lecture du document XML est dirigée par l'application principale . Dés détection d'une sous partie, il est possible de traiter immédiatement les données ou - mieux - constituer un sous document DOM pour traitement immédiat, avant de continuer la lecture du document source ! magicoz@xxxxxxxxxxx a écrit : >Pierre, > >Mon objectif est de parser le document XML puis de stocker les données dans >une BDD. J'ai déjà un peu regardé du coté de SAX et c'est une telle >nébuleuse que j'ai arreté d'y chercher.. de quel coté je devrais regarder >exactement pour repondre a mes besoins ? > >cdt, > >Alex / Paris > >Pierre Attar écrit: > > > >>Voir du coté de SAX et bien sur en fonction des traitements à réaliser. >>La programmation évènementielle à l'avantage de >>ne pas obliger au chargement de tout le document. >> >>Pierre >> >>At 11:39 14/10/2005, you wrote: >> >> >>>j'ai besoin de lire/parser de (tres) gros fichiers XML (350 ou 400 Mo) par >>>VBS (ou autres)...j'ai le choix entre : une méthode capable de me lire les >>>400 Mo d'un coup avant de parser OU une methode qui me découpe mon gros >>>fichier XML en plus petits fichiers. Pour le moment, je n'ai trouvé ni >>>l'une ni l'autre. Les methodes "Microsoft.XMLDOM" de MS ne me sont d'aucun >>>secours par exemple, car incapables de me charger ces 400 Mo. >>> >>> >>Pierre Attar (mailto:pat@xxxxxxxxx) >>Consultant en informatique documentaire XML >>Consultant in Structured Document engineering >>Tirème SARL (http://www.tireme.fr) >> >>Projet "Mutualiser l'effort de montée en compétences sur XML" >>http://www.mutu-xml.org/index.html >> >> >>-- >>Devenez redacteur <XML>fr et contribuez au developpement du >>xml francophone (http://xmlfr.org/infos/redacteurs/) ! >> >>Liste de diffusion "xml-tech@xxxxxxxxx" (http://xmlfr.org). >> >>Cette liste est a votre disposition pour discuter en francais de >>tout sujet technique lie a XML. >> >>Pour resilier votre abonnement, envoyez un message contenant >>la commande "unsubscribe" a xml-tech-request@xxxxxxxxx >>(mailto:xml-tech-request@xxxxxxxxx?Subject=unsubscribe) >> >> >> > >-- >Devenez redacteur <XML>fr et contribuez au developpement du >xml francophone (http://xmlfr.org/infos/redacteurs/) ! > >Liste de diffusion "xml-tech@xxxxxxxxx" (http://xmlfr.org). > >Cette liste est a votre disposition pour discuter en francais de >tout sujet technique lie a XML. > >Pour resilier votre abonnement, envoyez un message contenant >la commande "unsubscribe" a xml-tech-request@xxxxxxxxx >(mailto:xml-tech-request@xxxxxxxxx?Subject=unsubscribe) > > >

Next Message by Thread: click to view message preview

Re: (tres) gros fichiers XML : comment les traiter?

On Fri, Oct 14, 2005 at 11:46:55AM +0200, Pierre Attar <pat@xxxxxxxxx> wrote a message of 36 lines which said: > Voir du coté de SAX et bien sur en fonction des traitements à > réaliser. La programmation évènementielle à l'avantage de ne pas > obliger au chargement de tout le document. Je ne pense pas que cela soit exact. Certes, les premières mises en oeuvre de DOM étaient avides (elles chargeaient tout le document) mais rien dans DOM ou dans d'autres APi non-évenementielles n'oblige à faire cela. Un expert DOM ici doit bien avoir un exemple d'une mise en oeuvre paresseuse (qui ne charge que ce qui est nécessaire, et au fur et à mesure) ?
Sign up for updates to this mailing list. email:
Loading Comments...
Home | News | Patents | Sitemap | FAQ | advertise

Advertising by