FORUM DE DISCUSSION SUR LE LANGAGE PANORAMIC
Vous souhaitez réagir à ce message ? Créez un compte en quelques clics ou connectez-vous pour continuer.
FORUM DE DISCUSSION SUR LE LANGAGE PANORAMIC

Développement d'applications avec le langage Panoramic
 
AccueilAccueil  RechercherRechercher  Dernières imagesDernières images  S'enregistrerS'enregistrer  MembresMembres  Connexion  
Derniers sujets
» Décompilation
Récupération du contenu d'une page html. Emptypar JL35 Hier à 19:57

» Un album photos comme du temps des grands-mères
Récupération du contenu d'une page html. Emptypar jjn4 Hier à 17:23

» Un autre pense-bête...
Récupération du contenu d'une page html. Emptypar Marc Hier à 16:00

» Récupération du contenu d'une page html.
Récupération du contenu d'une page html. Emptypar Pedro Lun 11 Nov 2024 - 20:16

» traitement d'une feuille excel
Récupération du contenu d'une page html. Emptypar jjn4 Jeu 7 Nov 2024 - 3:52

» Aide-mémoire mensuel
Récupération du contenu d'une page html. Emptypar jjn4 Lun 4 Nov 2024 - 18:56

» Des incomprèhension avec Timer
Récupération du contenu d'une page html. Emptypar Klaus Mer 30 Oct 2024 - 18:26

» KGF_dll - nouvelles versions
Récupération du contenu d'une page html. Emptypar Klaus Mar 29 Oct 2024 - 17:58

» instructions panoramic
Récupération du contenu d'une page html. Emptypar maelilou Lun 28 Oct 2024 - 19:51

» Figures fractales
Récupération du contenu d'une page html. Emptypar Marc Ven 25 Oct 2024 - 12:18

» Panoramic et Scanette
Récupération du contenu d'une page html. Emptypar Yannick Mer 25 Sep 2024 - 22:16

» Editeur d étiquette avec QR évolutif
Récupération du contenu d'une page html. Emptypar JL35 Lun 23 Sep 2024 - 22:40

» BUG QR Code DelphiZXingQRCode
Récupération du contenu d'une page html. Emptypar Yannick Dim 22 Sep 2024 - 11:40

» fichier.exe
Récupération du contenu d'une page html. Emptypar leclode Ven 20 Sep 2024 - 19:02

» Bonjour tout le monde !
Récupération du contenu d'une page html. Emptypar Minibug Ven 20 Sep 2024 - 8:05

Navigation
 Portail
 Index
 Membres
 Profil
 FAQ
 Rechercher
Rechercher
 
 

Résultats par :
 
Rechercher Recherche avancée
Novembre 2024
LunMarMerJeuVenSamDim
    123
45678910
11121314151617
18192021222324
252627282930 
CalendrierCalendrier
Le Deal du moment : -17%
SSD interne Crucial SSD P3 1To NVME à ...
Voir le deal
49.99 €

 

 Récupération du contenu d'une page html.

Aller en bas 
3 participants
AuteurMessage
Pedro

Pedro


Nombre de messages : 1581
Date d'inscription : 19/01/2014

Récupération du contenu d'une page html. Empty
MessageSujet: Récupération du contenu d'une page html.   Récupération du contenu d'une page html. EmptyMer 6 Nov 2024 - 16:07

Bonjour à tous.

Je possède un fichier contenant plus de 77.000 lignes html.
Chacune de ces lignes correspondant à l'affichage d'une page web.
Est-il possible de récupérer le contenu de ces pages en format txt sans les balises html?

Voilà ce que je voudrais réaliser:
. je charge une ligne de ce fichier, qui affiche donc le contenu d'une page web.
. je souhaiterais ensuite récupérer ce qui est affiché, mais au format txt.

Je me souviens qu'il existait une fonction de kgf qui réalisait cela, mais j'ai oublié !!

Merci de votre aide.
Revenir en haut Aller en bas
JL35




Nombre de messages : 7112
Localisation : 77
Date d'inscription : 29/11/2007

Récupération du contenu d'une page html. Empty
MessageSujet: Re: Récupération du contenu d'une page html.   Récupération du contenu d'une page html. EmptyMer 6 Nov 2024 - 17:19

Bonjour Pedro,

J'ai une sub qui convertit un fichier html en fichier txt, qui utilise effectivement KGF.dll
A toutes fins utiles:
Code:
SUB Html2Txt(f$,fr$)
  ' Conversion fichier f$ format Html en fichier texte pur (KFG)
    DIM_LOCAL WB%, res%
    FORM 998: WIDTH 998,1220: HEIGHT 998,450
    MEMO 999: PARENT 999,998: FULL_SPACE 999
    DLL_ON "C:\PANORAMIC\KGF\KGF.dll": ' adresse à adapter
    WB% = DLL_CALL1("WBCreate",handle(998))
    res% = DLL_CALL5("WB_Locate",WB%,0,0,1200,400) : ' <= à adapter, évidemment...
    res% = DLL_CALL2("WB_Url",WB%,ADR(f$))
    res% = DLL_CALL2("WB_CopyToMemo",WB%,HANDLE(999))
    res% = DLL_CALL0("WBDelete")
    DLL_OFF
    FILE_SAVE 999,fr$
    DELETE 998
END_SUB

Les paramètres de WB_Locate sont dans l'ordre, en pixels: left%, top%, width%, height%
Je cite la doc: "Cette fonction détermine la localisation et la taille de la fenêtre du WebBrowser"...

PS
J'ai fait quelques tentatives avec la sub ci-dessus, et j'ai un peu de mal à obtenir quelque chose de correct.
J'ai retrouvé dans mes archives une autre sub entièrement en panoramic (pas d'appel à des ressources externes), assez artisanale, à tester et sans doute à améliorer... la voici ci-dessous, à tout hasard...
Code:
SUB HtmlToTxt(f$,ft$)
' conversion approximative fichier html f$ en fichier texte brut dans ft$
    DIM_LOCAL a$,s$,ba$,cr$,ut$,k%,k1%,ns%,csp$(30),crm$(30)
    cr$ = CHR$(13)+CHR$(10): ' saut de ligne
    ut$ = CHR$(195): ' préfixe UTF-8
    DATA "Carspe": ' caractères spéciaux, à remplacer (à compléter éventuellement)
    DATA "&nbsp;","&lt;","&gt;","&amp;","&quot;","&raquo;"
    data "é","è","ê","ë","È","É","Ê","Ë" : ' les lettres (e / E) accentuées
    data "Ã","À","æ","Æ"                      : ' les lettres (a / A) accentuées
    data "à´","ö","Ô","Å“","Å’"              : ' les lettres (o / O)
    data "î","ï","ÃŽ","Ï"                    : ' les lettres (i / I)                                            : ' ç et Ç
    data "ç","Ç"           
    data "F"
' caractère(s) de remplacement
    DATA " ","<",">","&",CHR$(34),cr$+CHR$(187)           
    data "é","è","ê","ë","È","Ê","É","Ë"
    data "à","À","æ","Æ"
    data "ô","ö","Ô","œ","Œ"
    data "î","ï","Î","Ï"
    data "ç","Ç"
' Lettres accentuée UTF-8, voir: https://www.utf8-chartable.de/unicode-utf8-table.pl
    ns% = 0: RESTORE: READ a$: WHILE a$ <>"Carspe": READ a$: END_WHILE: READ a$
    WHILE a$<>"F": ns%=ns%+1: csp$(ns%) = a$: READ a$: END_WHILE
    FOR k% = 1 TO ns%: READ a$: crm$(k%) = a$: NEXT k%
' lecture intégrale du fichier htm dans la variable a$
    FILEBIN_OPEN_READ 9,f$: k% = FILEBIN_SIZE(9): FILEBIN_CLOSE 9
    FILE_OPEN_READ 9,f$: FILE_READBUF 9,a$,k%: FILE_CLOSE 9
    k% = INSTR(a$,"</head>"): IF k%=0 THEN message "Pas de balise </head>": EXIT_SUB
    a$ = MID$(a$,k%+7,LEN(a$))
' suppression des balises <script...>...</script> et <style...>...</style> et de
' leur contenu
    k% = INSTR(a$,"<script")
    WHILE k%>0
      k1% =INSTR(a$,"</script>"): a$ = LEFT$(a$,k%-1)+MID$(a$,k1%+9,LEN(a$))
      k% = INSTR(a$,"<script")
    END_WHILE
    k% = INSTR(a$,"<style")
    WHILE k%>0
      k1% =INSTR(a$,"</style>"): a$ = LEFT$(a$,k%-1)+MID$(a$,k1%+8,LEN(a$))
      k% = INSTR(a$,"<style")
    END_WHILE
' remplacement des balises </tr> par des sauts de ligne
    k% = INSTR(a$,"</tr>")
    WHILE k%>0: a$=LEFT$(a$,k%-1)+cr$+MID$(a$,k%+5,LEN(a$)): k%=INSTR(a$,"</tr>"): END_WHILE
' suppression de toutes les balises (on garde les sauts de lignes, pour lisibilité)
    k% = INSTR(a$,"<")
    WHILE k% > 0
      k1% = INSTR_POS(a$,">",k%): ba$ = MID$(a$,k%,k1%-k%+1): ' balise trouvée
      IF LEFT$(ba$,3) = "<br": ' saut de ligne
        a$ = LEFT$(a$,k%-1)+CHR$(13)+CHR$(10)+MID$(a$,k1%+1,LEN(a$))
      ELSE
        a$ = LEFT$(a$,k%-1)+MID$(a$,k1%+1,LEN(a$)): ' suppression
      END_IF
      k% = INSTR(a$,"<")
    END_WHILE
' remplacement des caractères spéciaux
    FOR k% = 1 TO ns%
      s$ = csp$(k%): k1% = INSTR(a$,s$)
      WHILE k1%>0
          a$ = LEFT$(a$,k1%-1)+crm$(k%)+MID$(a$,k1%+LEN(s$),LEN(a$))
          k1% = INSTR(a$,s$)
      END_WHILE
    NEXT k%
' suppression des rc/al redondants
    k% = INSTR(a$,CHR$(13)+CHR$(10)+CHR$(13)+CHR$(10))
    WHILE k%>0
      a$ = LEFT$(a$,k%-1)+MID$(a$,k%+2,LEN(a$))
      k% = INSTR(a$,CHR$(13)+CHR$(10)+CHR$(13)+CHR$(10))
    END_WHILE
    FILE_OPEN_WRITE 9,ft$: FILE_WRITELN 9,a$: FILE_CLOSE 9
END_SUB
Revenir en haut Aller en bas
Pedro

Pedro


Nombre de messages : 1581
Date d'inscription : 19/01/2014

Récupération du contenu d'une page html. Empty
MessageSujet: Récupération du contenu d'une page html.   Récupération du contenu d'une page html. EmptyJeu 7 Nov 2024 - 13:20

Bonjour.

Un grand merci JL35.
Ta routine me convient très bien et je vais la mettre en application dès maintenant.
Revenir en haut Aller en bas
JL35




Nombre de messages : 7112
Localisation : 77
Date d'inscription : 29/11/2007

Récupération du contenu d'une page html. Empty
MessageSujet: Re: Récupération du contenu d'une page html.   Récupération du contenu d'une page html. EmptyJeu 7 Nov 2024 - 21:11

De rien Pedro, et bon courage, vu la quantité de données à traiter...
Revenir en haut Aller en bas
maelilou




Nombre de messages : 180
Age : 76
Localisation : Ardennes françaises
Date d'inscription : 02/05/2012

Récupération du contenu d'une page html. Empty
MessageSujet: Re: Récupération du contenu d'une page html.   Récupération du contenu d'une page html. EmptyLun 11 Nov 2024 - 8:57

Bonjour

Pour convertir des pages html en txt, j'avais utilisé il y a des lustres pour mettre en texte mon site internet (quelques centaines de pages) :

Htmlastext


Ce n'était pas en Panoramic, mais ça avait l'avantage de traduire rapidement et surtout globalement des répertoires complets.

Mais en Panoramic cela devrait aussi fonctionner...
Revenir en haut Aller en bas
Pedro

Pedro


Nombre de messages : 1581
Date d'inscription : 19/01/2014

Récupération du contenu d'une page html. Empty
MessageSujet: Récupération du contenu d'une page html.   Récupération du contenu d'une page html. EmptyLun 11 Nov 2024 - 20:16

Bonsoir.

Je déconseille d'utiliser WBDelete, car après plus de 3.000 itérations, panoramic se ferme sans aucun message d'erreur !!

Sans son utilisation, tout fonctionne parfaitement, même après 20.000 itérations.
Revenir en haut Aller en bas
Contenu sponsorisé





Récupération du contenu d'une page html. Empty
MessageSujet: Re: Récupération du contenu d'une page html.   Récupération du contenu d'une page html. Empty

Revenir en haut Aller en bas
 
Récupération du contenu d'une page html.
Revenir en haut 
Page 1 sur 1
 Sujets similaires
-
» d'une page HTML à une page DOCX
» Télécharger une page Web
» Imprimer le contenu d'une page avec: WBcreat.
» Mise en page Html simplifiée
» Visualiser une page HTML ou HTM dans un form

Permission de ce forum:Vous ne pouvez pas répondre aux sujets dans ce forum
FORUM DE DISCUSSION SUR LE LANGAGE PANORAMIC :: PANORAMIC :: A l'aide!-
Sauter vers: