<div><div dir="auto">I’m not sure if we’re supposed to be looking for “en” or “en.*”. I worked on it for about 6.5 hours yesterday and couldn’t get the first answer.</div><div dir="auto"><br></div><div dir="auto">Matt</div><br><div class="gmail_quote"><div>On Fri, Apr 6, 2018 at 12:15 PM Patrick Murray &lt;<a href="mailto:pmurray1@stevens.edu">pmurray1@stevens.edu</a>&gt; wrote:<br></div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div>After having an incredibly difficult time attempting to compute answers for the first part of the assignment, I&#39;ve decided to use Python to solve the correct answers - prior to implementing using Unix tools.<div><br></div><div>How should we handle the tokenization of malformed input such as the following line (3132224)?</div><div><br></div><div>en dÃÂÂÃâ� 1 4867</div><div><br></div><div>Note that the page title contains a white space delimiter.</div><div><br></div><div>Best,</div><div>Pat</div></div>
_______________________________________________<br>
cs615asa mailing list<br>
<a href="mailto:cs615asa@lists.stevens.edu" target="_blank">cs615asa@lists.stevens.edu</a><br>
<a href="https://lists.stevens.edu/mailman/listinfo/cs615asa" rel="noreferrer" target="_blank">https://lists.stevens.edu/mailman/listinfo/cs615asa</a><br>
</blockquote></div></div>