R
Rosemerysalvedora
Guest
I tried using indexof and substring but not with a real success :
using System;
using System.Collections.Generic;
using System.ComponentModel;
using System.Data;
using System.Drawing;
using System.IO;
using System.Linq;
using System.Net;
using System.Text;
using System.Threading.Tasks;
using System.Windows.Forms;
namespace Get_Messages
{
public partial class Form1 : Form
{
private List<string> titles = new List<string>();
public Form1()
{
InitializeComponent();
GetMessages();
//GetSources();
}
private void Form1_Load(object sender, EventArgs e)
{
}
private void GetSources()
{
for (int i = 0; i < 60; i++)
{
using (WebClient client = new WebClient()) // WebClient class inherits IDisposable
{
client.DownloadFile("http://www.tapuz.co.il/forums/forumpage/393/pagenumber" + i + "/%D7%98%D7%91%D7%A2_%D7%95%D7%9E%D7%96%D7%92_%D7%90%D7%95%D7%95%D7%99%D7%A8/%D7%9E%D7%96%D7%92_%D7%94%D7%90%D7%95%D7%95%D7%99%D7%A8", @"D:\Csharp Projects\Get Messages\Sources\Source" + i + ".html");
// Or you can get the file content without saving it
//string htmlCode = client.DownloadString("http://yoursite.com/page.html");
}
}
}
private void GetMessages()
{
DirectoryInfo d = new DirectoryInfo(@"D:\Csharp Projects\Get Messages\Sources");//Assuming Test is your Folder
FileInfo[] Files = d.GetFiles("*.html"); //Getting Text files
foreach (FileInfo file in Files)
{
using (StreamReader reader = new StreamReader(file.FullName))
{
string line;
while((line = reader.ReadLine()) != null)
{
if(line.Contains("msg-bullet"))
{
int index = line.IndexOf("title");
int index1 = line.IndexOf("href") - 11;
string result = line.Substring(index + 8, index1 - index);
}
}
}
}
}
}
}
This is example from a source of a html page :
<a class="msg-bullet full user_145212 " title="לצפיה ב-'יניב תעשה מאמץ לשמר לפחות את השירשורים החשובים כאן'" href="/forums/viewmsg/393/184978549/טבע_ומזג_אוויר/מזג_האוויר"><span class="hiddenLinkText">לצפיה ב-'יניב תעשה מאמץ לשמר לפחות את השירשורים החשובים כאן'</span></a><div id="subject_184978549" class="msg-subject " style="min-height:20px; line-height:20px;">יניב תעשה מאמץ לשמר לפחות את השירשורים החשובים כאן<img src="http://timg.co.il/f/Emo70.gif"></div><div id="user_145212" class="msg-user-link " data-smbuserid="0" data-showbizsig="0">
refael22</div><span id="new_184978549" title="הודעה חדשה" class="msg-new-icon" >☼</span>
<div class="msg-date ">04/07/2020 <b>|</b> 17:42</div><div class="responses-count "></div><div class="message-read-counter "><span class="eyeIcon" ></span>57</div></div></div><div id="msg_body_184978549" class="msg-body"><div class="textContent"><div>חבל על הידע התמונות והתצפיות שחלקן בלעדיות שהצטבר וכאן במשך שנים ופשוט יעלמו.</div></div></div>
The first phrase have the title of a message for example in this case the title is :
title="לצפיה ב-'יניב תעשה מאמץ לשמר לפחות את השירשורים החשובים כאן'"
from that I need only to get the :
יניב תעשה מאמץ לשמר לפחות את השירשורים החשובים כאן
and then in some cases the message have a body too this is the second phrase and in this case the body message is :
חבל על הידע התמונות והתצפיות שחלקן בלעדיות שהצטבר וכאן במשך שנים ופשוט יעלמו.
and the final body message format should be :
חבל על הידע התמונות והתצפיות שחלקן בלעדיות שהצטבר וכאן במשך שנים ופשוט יעלמו.
The problem with the body message is that it's having symbols in the middle and also that it's in hebrew.
The final format as I need to get it should be in a text file something like :
File Name : myfilename
Title : יניב תעשה מאמץ לשמר לפחות את השירשורים החשובים כאן
Body : חבל על הידע התמונות והתצפיות שחלקן בלעדיות שהצטבר וכאן במשך שנים ופשוט יעלמו.
Title :
Body :
File Name : myfilename77
Title :
Body :
Continue reading...
using System;
using System.Collections.Generic;
using System.ComponentModel;
using System.Data;
using System.Drawing;
using System.IO;
using System.Linq;
using System.Net;
using System.Text;
using System.Threading.Tasks;
using System.Windows.Forms;
namespace Get_Messages
{
public partial class Form1 : Form
{
private List<string> titles = new List<string>();
public Form1()
{
InitializeComponent();
GetMessages();
//GetSources();
}
private void Form1_Load(object sender, EventArgs e)
{
}
private void GetSources()
{
for (int i = 0; i < 60; i++)
{
using (WebClient client = new WebClient()) // WebClient class inherits IDisposable
{
client.DownloadFile("http://www.tapuz.co.il/forums/forumpage/393/pagenumber" + i + "/%D7%98%D7%91%D7%A2_%D7%95%D7%9E%D7%96%D7%92_%D7%90%D7%95%D7%95%D7%99%D7%A8/%D7%9E%D7%96%D7%92_%D7%94%D7%90%D7%95%D7%95%D7%99%D7%A8", @"D:\Csharp Projects\Get Messages\Sources\Source" + i + ".html");
// Or you can get the file content without saving it
//string htmlCode = client.DownloadString("http://yoursite.com/page.html");
}
}
}
private void GetMessages()
{
DirectoryInfo d = new DirectoryInfo(@"D:\Csharp Projects\Get Messages\Sources");//Assuming Test is your Folder
FileInfo[] Files = d.GetFiles("*.html"); //Getting Text files
foreach (FileInfo file in Files)
{
using (StreamReader reader = new StreamReader(file.FullName))
{
string line;
while((line = reader.ReadLine()) != null)
{
if(line.Contains("msg-bullet"))
{
int index = line.IndexOf("title");
int index1 = line.IndexOf("href") - 11;
string result = line.Substring(index + 8, index1 - index);
}
}
}
}
}
}
}
This is example from a source of a html page :
<a class="msg-bullet full user_145212 " title="לצפיה ב-'יניב תעשה מאמץ לשמר לפחות את השירשורים החשובים כאן'" href="/forums/viewmsg/393/184978549/טבע_ומזג_אוויר/מזג_האוויר"><span class="hiddenLinkText">לצפיה ב-'יניב תעשה מאמץ לשמר לפחות את השירשורים החשובים כאן'</span></a><div id="subject_184978549" class="msg-subject " style="min-height:20px; line-height:20px;">יניב תעשה מאמץ לשמר לפחות את השירשורים החשובים כאן<img src="http://timg.co.il/f/Emo70.gif"></div><div id="user_145212" class="msg-user-link " data-smbuserid="0" data-showbizsig="0">
refael22</div><span id="new_184978549" title="הודעה חדשה" class="msg-new-icon" >☼</span>
<div class="msg-date ">04/07/2020 <b>|</b> 17:42</div><div class="responses-count "></div><div class="message-read-counter "><span class="eyeIcon" ></span>57</div></div></div><div id="msg_body_184978549" class="msg-body"><div class="textContent"><div>חבל על הידע התמונות והתצפיות שחלקן בלעדיות שהצטבר וכאן במשך שנים ופשוט יעלמו.</div></div></div>
The first phrase have the title of a message for example in this case the title is :
title="לצפיה ב-'יניב תעשה מאמץ לשמר לפחות את השירשורים החשובים כאן'"
from that I need only to get the :
יניב תעשה מאמץ לשמר לפחות את השירשורים החשובים כאן
and then in some cases the message have a body too this is the second phrase and in this case the body message is :
חבל על הידע התמונות והתצפיות שחלקן בלעדיות שהצטבר וכאן במשך שנים ופשוט יעלמו.
and the final body message format should be :
חבל על הידע התמונות והתצפיות שחלקן בלעדיות שהצטבר וכאן במשך שנים ופשוט יעלמו.
The problem with the body message is that it's having symbols in the middle and also that it's in hebrew.
The final format as I need to get it should be in a text file something like :
File Name : myfilename
Title : יניב תעשה מאמץ לשמר לפחות את השירשורים החשובים כאן
Body : חבל על הידע התמונות והתצפיות שחלקן בלעדיות שהצטבר וכאן במשך שנים ופשוט יעלמו.
Title :
Body :
File Name : myfilename77
Title :
Body :
Continue reading...